Inférence
L'inférence est le processus consistant à exécuter un modèle d'IA entraîné sur de nouvelles données afin de générer des prédictions, des réponses ou des décisions, par opposition à l'entraînement, qui est le processus de création du modèle à partir de données.
Comprendre Inférence
Le cycle de développement de l'IA comporte deux phases distinctes : l'entraînement et l'inférence. L'entraînement correspond à l'apprentissage du modèle à partir de vastes ensembles de données et à l'ajustement de milliards de paramètres. L'inférence correspond au déploiement du modèle entraîné afin de traiter de nouveaux inputs et de générer des sorties en temps réel. Pour les utilisateurs d'applications d'IA, toutes les interactions se déroulent lors de la phase d'inférence. La performance en inférence se mesure en termes de latence (la rapidité de génération d'une réponse) et de débit (le nombre de requêtes pouvant être traitées simultanément). Les deux éléments sont cruciaux pour des systèmes IA en production. Un modèle trop lent, prenant 30 secondes à répondre, interrompt complètement le flux de travail. Plusieurs techniques permettent d'améliorer l'efficacité de l'inférence. La quantification réduit la précision des poids du modèle, ce qui diminue fortement l'utilisation mémoire et accélère le calcul avec un minimum de perte de qualité. Le décodage spéculatif utilise un petit modèle provisoire pour prédire plusieurs jetons à la fois. Le batching GPU traite plusieurs requêtes simultanément pour augmenter le débit. L'inférence en streaming envoie les jetons à l'utilisateur dès leur génération au lieu d'attendre la réponse complète. Cela améliore drastiquement la latence perçue et constitue le standard dans les interfaces de chat IA modernes. GAIA diffuse ainsi en temps réel les réponses du LLM vers l'interface utilisateur.
Comment GAIA utilise Inférence
GAIA diffuse en temps réel les résultats d'inférence LLM vers l'interface, ce qui vous permet d'obtenir un retour immédiat à mesure que le modèle génère des réponses. Pour des tâches d'agents en arrière-plan comme le tri des emails ou l'exécution de workflows, GAIA effectue l'inférence de façon asynchrone afin que les tâches longues ne bloquent pas l'interface. Le choix du fournisseur de LLM vous permet également d'équilibrer le coût de l'inférence avec la qualité et la rapidité de la réponse.
Concepts liés
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Modèle fondamental
Un modèle fondamental est un grand modèle d'IA entraîné à grande échelle sur des données variées et pouvant être adapté à un large éventail de tâches via l'ajustement fin, l'invite ou l'intégration dans des architectures applicatives.
Modèle de langage volumineux (LLM)
Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.
Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.


