Transformer
Ein Transformer ist eine 2017 eingeführte neuronale Netzwerkarchitektur, die Selbstaufmerksamkeitsmechanismen nutzt, um Datenfolgen parallel zu verarbeiten, und damit das Fundament aller modernen großen Sprachmodelle bildet.
Verstehen Transformer
Vor den Transformern beruhte die Verarbeitung von Sequenzen auf rekurrenten neuronalen Netzen (RNNs), die Text Zeichen für Zeichen oder Token für Token verarbeiteten. Transformer haben dies grundlegend verändert, indem sie Selbstaufmerksamkeitsmechanismen eingeführt haben. Dadurch kann das Modell die Relevanz jedes Tokens innerhalb einer Sequenz in Bezug auf alle anderen Tokens gleichzeitig bewerten. Diese parallele Verarbeitung ermöglichte das Training mit viel größeren Datensätzen und die Erfassung von langfristigen Abhängigkeiten im Text. Das ursprüngliche Transformer-Papier „Attention Is All You Need“ (Vaswani et al., 2017) stellte die Encoder-Decoder-Architektur vor. Moderne LLMs wie GPT verwenden nur den Decoder, während Modelle wie BERT ausschließlich den Encoder nutzen. Die nur auf Decoder basierende Architektur hat sich insbesondere für Textgenerierungsaufgaben als besonders leistungsfähig erwiesen. Selbstaufmerksamkeit ermöglicht es Transformern, kontextuelle Zusammenhänge zu erfassen. Das Wort „Bank“ in „Flussufer“ versus „Bankkonto“ erhält je nach umgebenden Tokens verschiedene Bedeutungen. Dieses Kontextverständnis macht LLMs bei Sprachaufgaben deutlich besser als vorherige Architekturen. Transformers werden inzwischen auch außerhalb von Text eingesetzt: Vision-Transformer verarbeiten Bilder, Audio-Transformer verarbeiten Sprache und multimodale Transformer ermöglichen das gleichzeitige Verarbeiten verschiedener Datentypen. Die Architektur ist heute das dominierende Paradigma im Deep Learning über nahezu alle Anwendungsbereiche hinweg.
Wie GAIA verwendet Transformer
Jedes LLM, das die Reasoning-Schicht von GAIA antreibt, basiert auf der Transformer-Architektur. Wenn GAIA Ihre E-Mails liest, Arbeitsabläufe plant oder Antworten entwirft, ermöglichen die Aufmerksamkeitsmechanismen des Transformers dem Modell, den Kontext über lange Dokumente und Gespräche hinweg zu erfassen. Diese architektonische Grundlage ermöglicht es GAIA, bei komplexen Aufgaben mit mehreren Schritten einen zusammenhängenden Überblick zu behalten.
Verwandte Konzepte
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.
Neuronales Netz
Ein neuronales Netz ist ein Rechenmodell, das von biologischen Nervensystemen inspiriert ist. Es besteht aus miteinander verbundenen Schichten von Knoten, die lernen, Eingabedaten in Ausgaben umzuwandeln, indem sie beim Training die Verbindungsgewichte anpassen.
Embeddings
Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.
Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.


