Qu'est-ce que l'auto-attention dans un transformer ?

L'auto-attention est le mécanisme qui permet à chaque jeton d'une séquence de prêter attention à tous les autres, afin de capter les relations contextuelles. Cela permet au modèle de comprendre que « il » dans une phrase se réfère à un nom cité plus tôt, ou que l'intention d'une question s'étend sur plusieurs propositions.

Transformeur

Un transformeur est une architecture de réseau de neurones introduite en 2017 qui utilise des mécanismes d'auto-attention pour traiter des séquences de données en parallèle, constituant la base de tous les grands modèles de langage modernes.

Comprendre Transformeur

Avant les transformeurs, le traitement des séquences reposait sur les réseaux neuronaux récurrents (RNN), qui traitaient le texte un jeton à la fois. Les transformeurs ont tout changé grâce au mécanisme d'auto-attention, qui permet au modèle d'évaluer la pertinence de chaque jeton d'une séquence par rapport à tous les autres, simultanément. Cette capacité de traitement parallèle a permis d'entraîner sur des jeux de données beaucoup plus vastes et de capturer des dépendances à long terme dans les textes. L'article fondateur « Attention Is All You Need » (Vaswani et al., 2017) a introduit l'architecture encodeur-décodeur. Les modèles LLM modernes comme GPT n'utilisent que le décodeur, tandis que BERT n'utilise que l'encodeur. L'architecture uniquement à base de décodeur s'est révélée particulièrement puissante pour les tâches de génération de texte. L'auto-attention permet aux transformeurs de comprendre les relations contextuelles. Le mot « banque » dans « rive de la rivière » ou dans « compte bancaire » reçoit ainsi des représentations contextuelles différentes en fonction des mots environnants. Cette compréhension contextuelle rend les LLM bien plus performants en traitement du langage que les architectures précédentes. Les transformeurs sont désormais utilisés au-delà du texte : les transformeurs de vision traitent les images, ceux de l’audio gèrent la parole et les transformeurs multimodaux traitent plusieurs types de données en même temps. Cette architecture est devenue le paradigme dominant dans l'apprentissage profond, quel que soit le domaine.

Comment GAIA utilise Transformeur

Chaque grand modèle de langage qui alimente la couche de raisonnement de GAIA repose sur l'architecture transformer. Lorsque GAIA lit vos e-mails, planifie des flux de travail ou rédige des réponses, les mécanismes d'attention du transformer permettent au modèle de comprendre le contexte sur de longs documents et conversations. Cette base architecturale est ce qui permet à GAIA de conserver une compréhension cohérente à travers des tâches complexes en plusieurs étapes.

Concepts liés

Large Language Model (LLM)

Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.

Modèle de langage volumineux (LLM)

Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.

Réseau de neurones

Un réseau de neurones est un modèle computationnel inspiré des systèmes neuronaux biologiques, constitué de couches de nœuds interconnectés qui apprennent à transformer des données d'entrée en sortie en ajustant les poids des connexions lors de l'apprentissage.

Embeddings

Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.

Fenêtre de contexte

La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.

Questions fréquentes

Les transformers ont permis l'entraînement sur des ensembles de données beaucoup plus vastes en traitant les séquences en parallèle plutôt que séquentiellement. Cet effet d'échelle a directement favorisé l'émergence de puissants grands modèles de langage (LLM) comme GPT-4 et Claude. Sans l'architecture transformer, les assistants IA modernes comme GAIA ne seraient pas possibles.

Transformeur

Comprendre Transformeur

Comment GAIA utilise Transformeur

Concepts liés

Large Language Model (LLM)

Modèle de langage volumineux (LLM)

Réseau de neurones

Embeddings

Fenêtre de contexte

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Transformeur

Comprendre Transformeur

Comment GAIA utilise Transformeur

Concepts liés

Large Language Model (LLM)

Modèle de langage volumineux (LLM)

Réseau de neurones

Embeddings

Fenêtre de contexte

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Transformeur

Comment GAIA utilise Transformeur

Concepts liés

Large Language Model (LLM)

Modèle de langage volumineux (LLM)

Réseau de neurones

Embeddings

Fenêtre de contexte

Questions fréquentes

Pourquoi les transformers sont-ils importants pour l'IA ?

Qu'est-ce que l'auto-attention dans un transformer ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Transformeur

Comment GAIA utilise Transformeur

Concepts liés

Large Language Model (LLM)

Modèle de langage volumineux (LLM)

Réseau de neurones

Embeddings

Fenêtre de contexte

Questions fréquentes

Pourquoi les transformers sont-ils importants pour l'IA ?

Qu'est-ce que l'auto-attention dans un transformer ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle