Sortie structurée
La sortie structurée est une technique qui contraint un LLM à répondre selon un format prédéfini — généralement JSON ou XML — permettant une analyse programmatique fiable des réponses du modèle, par opposition au texte libre.
Comprendre Sortie structurée
Les LLMs génèrent naturellement du texte libre, ce qui est efficace pour la conversation mais problématique pour les applications qui doivent analyser et exploiter les réponses du modèle. Si une application doit extraire un titre de tâche, une date d'échéance et une priorité de la réponse d'un modèle, le texte non structuré nécessite une analyse fragile par regex qui échoue dès que le format varie. La sortie structurée résout ce problème en contraignant ce que le modèle produit à un schéma spécifique. OpenAI, Anthropic et Google proposent tous des modes natifs de sortie structurée qui garantissent des réponses conformes à un schéma JSON fourni. Le modèle continue de raisonner librement — la sortie structurée ne change que la forme du résultat. La sortie structurée est essentielle pour le développement d'applications IA robustes. Elle permet notamment : l'extraction fiable de champs spécifiques à partir des réponses, la validation de la présence et du type des champs requis, l'intégration cohérente avec des systèmes en aval, ainsi qu'un débogage facilité en cas de problème. Pydantic (en Python) et Zod (en TypeScript) sont des bibliothèques populaires de définition de schémas qui fonctionnent bien avec les API de sortie structurée, fournissant une analyse et une validation typées des réponses des modèles.
Comment GAIA utilise Sortie structurée
GAIA utilise largement la sortie structurée pour extraire de façon fiable des informations issues des réponses des LLM. Lors du traitement des emails pour des tâches, de l'extraction des détails d'événements de calendrier ou de la détermination de la priorité d'une action, GAIA contraint le modèle à des schémas JSON structurés validés par Pydantic. Cela garantit un traitement fiable en aval sans analyse textuelle fragile.
Concepts liés
Appel de fonction
L’appel de fonction est une fonctionnalité des modèles d’IA qui leur permet de générer des appels structurés et lisibles par machine vers des fonctions prédéfinies, permettant aux systèmes d’IA d’appeler de façon fiable des API et outils externes avec les bons arguments.
Utilisation d’outils
L'utilisation d'outils correspond à la capacité des agents IA à invoquer des fonctions, API, bases de données et services externes afin de récupérer des informations ou d’agir dans le monde réel, au-delà de la simple génération de texte.
Ingénierie de prompt
L’ingénierie de prompt est la pratique qui consiste à concevoir et affiner les instructions données à des modèles linguistiques d’IA afin d’obtenir de manière fiable les résultats souhaités, en influençant leur comportement sans modifier leurs paramètres internes.
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Boucle d'agent
Une boucle d'agent est le cycle d'exécution itératif d'un agent IA, au cours duquel il raisonne sur l'état actuel, sélectionne et exécute une action (souvent l'appel d'un outil), observe le résultat, et répète ce processus jusqu'à ce que la tâche soit terminée ou qu'une condition d'arrêt soit atteinte.


