Transformeur
Un transformeur est une architecture de réseau de neurones introduite en 2017 qui utilise des mécanismes d'auto-attention pour traiter des séquences de données en parallèle, constituant la base de tous les grands modèles de langage modernes.
Comprendre Transformeur
Avant les transformeurs, le traitement des séquences reposait sur les réseaux neuronaux récurrents (RNN), qui traitaient le texte un jeton à la fois. Les transformeurs ont tout changé grâce au mécanisme d'auto-attention, qui permet au modèle d'évaluer la pertinence de chaque jeton d'une séquence par rapport à tous les autres, simultanément. Cette capacité de traitement parallèle a permis d'entraîner sur des jeux de données beaucoup plus vastes et de capturer des dépendances à long terme dans les textes. L'article fondateur « Attention Is All You Need » (Vaswani et al., 2017) a introduit l'architecture encodeur-décodeur. Les modèles LLM modernes comme GPT n'utilisent que le décodeur, tandis que BERT n'utilise que l'encodeur. L'architecture uniquement à base de décodeur s'est révélée particulièrement puissante pour les tâches de génération de texte. L'auto-attention permet aux transformeurs de comprendre les relations contextuelles. Le mot « banque » dans « rive de la rivière » ou dans « compte bancaire » reçoit ainsi des représentations contextuelles différentes en fonction des mots environnants. Cette compréhension contextuelle rend les LLM bien plus performants en traitement du langage que les architectures précédentes. Les transformeurs sont désormais utilisés au-delà du texte : les transformeurs de vision traitent les images, ceux de l’audio gèrent la parole et les transformeurs multimodaux traitent plusieurs types de données en même temps. Cette architecture est devenue le paradigme dominant dans l'apprentissage profond, quel que soit le domaine.
Comment GAIA utilise Transformeur
Chaque grand modèle de langage qui alimente la couche de raisonnement de GAIA repose sur l'architecture transformer. Lorsque GAIA lit vos e-mails, planifie des flux de travail ou rédige des réponses, les mécanismes d'attention du transformer permettent au modèle de comprendre le contexte sur de longs documents et conversations. Cette base architecturale est ce qui permet à GAIA de conserver une compréhension cohérente à travers des tâches complexes en plusieurs étapes.
Concepts liés
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Modèle de langage volumineux (LLM)
Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.
Réseau de neurones
Un réseau de neurones est un modèle computationnel inspiré des systèmes neuronaux biologiques, constitué de couches de nœuds interconnectés qui apprennent à transformer des données d'entrée en sortie en ajustant les poids des connexions lors de l'apprentissage.
Embeddings
Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.
Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.


