Strukturierte Ausgabe
Strukturierte Ausgabe ist eine Technik, die ein LLM darauf beschränkt, in einem vordefinierten Format – typischerweise JSON oder XML – zu antworten. So können Programmanwendungen zuverlässig auf die Modellantworten zugreifen, anstatt freien Text auswerten zu müssen.
Verstehen Strukturierte Ausgabe
LLMs generieren von Natur aus freien Text. Das ist im Gespräch praktisch, für Anwendungen, die das Ergebnis weiterverarbeiten müssen, jedoch problematisch. Wenn eine Anwendung aus einer Modellantwort z.B. einen Aufgabentitel, ein Fälligkeitsdatum und eine Priorität extrahieren soll, erfordert unstrukturierter Text eine fehleranfällige Regex-Auswertung, die schon bei kleinsten Formatabweichungen nicht mehr funktioniert. Strukturierte Ausgabe löst dieses Problem, indem die Antwort des Modells auf ein bestimmtes Schema beschränkt wird. OpenAI, Anthropic und Google bieten native Modi für strukturierte Ausgabe, die garantieren, dass Antworten einem vorgegebenen JSON-Schema entsprechen. Das Modell „denkt“ dennoch frei – strukturierte Ausgabe beeinflusst nur, wie dieses Denken ausgedrückt wird. Strukturierte Ausgabe ist unerlässlich für die zuverlässige Entwicklung von KI-Anwendungen. Sie ermöglicht: die zuverlässige Extraktion spezifischer Felder, die Validierung erforderlicher Felder und Datentypen, konsistente Integration mit weiteren Systemen sowie leichteres Debugging bei Fehlern. Pydantic (für Python) und Zod (für TypeScript) sind beliebte Bibliotheken zur Schemadefinition, die gut mit APIs für strukturierte Ausgabe funktionieren und eine typsichere Auswertung und Validierung der Antworten ermöglichen.
Wie GAIA verwendet Strukturierte Ausgabe
GAIA verwendet strukturierte Ausgaben intensiv, um zuverlässig Informationen aus LLM-Antworten zu extrahieren. Beim Parsen von E-Mails für Aufgaben, Extrahieren von Kalenderdetails oder Bestimmen von Prioritäten erzwingt GAIA strukturierte JSON-Schemata, die von Pydantic validiert werden. Dies gewährleistet eine verlässliche Weiterverarbeitung ohne fragile Textauswertung.
Verwandte Konzepte
Funktionsaufruf
Funktionsaufruf ist eine Funktion von KI-Modellen, mit der sie strukturierte, maschinenlesbare Aufrufe vordefinierter Funktionen erzeugen können. Dadurch kann ein KI-System externe APIs und Tools zuverlässig mit den richtigen Argumenten ansprechen.
Tool-Nutzung
Tool Use ist die Fähigkeit von KI-Agenten, externe Funktionen, APIs, Datenbanken und Dienste aufzurufen, um Informationen abzurufen oder Handlungen in der realen Welt auszuführen – über die reine Texterzeugung hinaus.
Prompt Engineering
Prompt Engineering ist die Praxis, Eingaben für KI-Sprachmodelle so zu entwerfen und zu verfeinern, dass zuverlässig gewünschte Ausgaben erreicht werden – und das ganz ohne Änderungen an den zugrunde liegenden Modellgewichten.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Agenten-Loop
Ein Agenten-Loop ist der iterative Ausführungszyklus eines KI-Agenten, in dem er über den aktuellen Status nachdenkt, eine Aktion auswählt und ausführt (häufig einen Tool-Aufruf), das Ergebnis beobachtet und dies wiederholt, bis die Aufgabe abgeschlossen oder eine Abbruchbedingung erreicht ist.


