Inference
Inferenz ist der Vorgang, bei dem ein trainiertes KI-Modell auf neue Eingabedaten angewendet wird, um Vorhersagen, Antworten oder Entscheidungen zu treffen – im Gegensatz zum Training, bei dem das Modell aus Daten erstellt wird.
Verstehen Inference
Der KI-Entwicklungszyklus besteht aus zwei klar getrennten Phasen: Training und Inferenz. Beim Training lernt ein Modell, indem es riesige Datensätze verarbeitet und Milliarden von Parametern anpasst. Die Inferenzphase beginnt, wenn das trainierte Modell ausgeliefert wird und neue Eingaben in Echtzeit verarbeitet und Antworten generiert. Für Anwender von KI-Anwendungen finden sämtliche Interaktionen während der Inferenz statt. Die Inferenz-Performance wird anhand der Latenz (wie schnell eine Antwort generiert wird) und des Durchsatzes (wie viele Anfragen parallel verarbeitet werden können) gemessen. Beide Kriterien sind entscheidend für produktionsreife KI-Systeme. Ein langsames Modell, das 30 Sekunden für eine Antwort benötigt, unterbricht den Arbeitsfluss erheblich. Mehrere Methoden verbessern die Effizienz der Inferenz. Quantisierung reduziert die Präzision der Modellgewichte, senkt dadurch den Speicherbedarf deutlich und beschleunigt Berechnungen bei kaum spürbarem Qualitätsverlust. Spekulatives Decoding nutzt ein kleineres Entwurfsmodell, um mehrere Tokens gleichzeitig vorherzusagen. GPU-Batching verarbeitet mehrere Anfragen parallel, um den Durchsatz zu steigern. Streaming-Inferenz sendet Tokens direkt an den Nutzer, sobald sie generiert werden, anstatt auf die vollständige Antwort zu warten. Das verbessert die wahrgenommene Latenz drastisch und ist der Standard für moderne KI-Chatoberflächen. GAIA streamt Antworten des LLMs in Echtzeit ins Frontend.
Wie GAIA verwendet Inference
GAIA streamt LLM-Inferenz-Ergebnisse in Echtzeit an das Frontend und bietet sofortiges Feedback, während das Modell Antworten generiert. Bei Hintergrundaufgaben wie E-Mail-Triage oder der Ausführung von Workflows läuft die Inferenz asynchron, sodass langwierige Aufgaben die Oberfläche nicht blockieren. Die Wahl des LLM-Anbieters ermöglicht es zudem, die Kosten für die Inferenz gegenüber Antwortqualität und Geschwindigkeit abzuwägen.
Verwandte Konzepte
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Foundation Model
Ein Foundation Model ist ein großes KI-Modell, das auf umfangreichen und breit gefächerten Daten im großen Maßstab trainiert wird und durch Feintuning, Prompting oder Integration in Anwendungsarchitekturen für eine Vielzahl nachgelagerter Aufgaben angepasst werden kann.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.
Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.


