Tokenisierung
Tokenisierung ist der Prozess, bei dem Text in kleinere Einheiten, sogenannte Token, zerlegt wird – sie dienen als Basiseinheiten für Sprachmodelle. Token stehen meist für Wortfragmente, vollständige Wörter oder Satzzeichen.
Verstehen Tokenisierung
Bevor ein Sprachmodell Text verarbeiten kann, muss dieser Text in Token umgewandelt werden. Moderne LLMs nutzen Subword-Tokenisierungsalgorithmen wie Byte Pair Encoding (BPE) oder SentencePiece, um ein Gleichgewicht zwischen Vokabulargröße und Abdeckung zu erreichen. Häufige Wörter werden als einzelne Token kodiert, seltene Wörter in mehrere Subwort-Token zerlegt. Im Schnitt entspricht ein Token etwa vier Zeichen oder drei Vierteln eines englischen Wortes. Tokenisierung ist aus drei praktischen Gründen wichtig. Erstens wird das Kontextfenster in Token gemessen, nicht in Wörtern oder Zeichen. Ein Kontextfenster von 128.000 Token umfasst etwa 96.000 englische Wörter. Zweitens werden API-Kosten pro Token berechnet – sowohl für den Input als auch den Output. Drittens beeinflusst die Tokenisierung, wie Modelle verschiedene Sprachen verarbeiten. Tokenizer sind sprachspezifisch. Die OpenAI-tiktoken-Bibliothek, Hugging Face Tokenizer und der Tokenizer von Anthropic nutzen unterschiedliche Vokabulare – das führt dazu, dass derselbe Text bei verschiedenen Modellen unterschiedlich tokenisiert wird. Das wirkt sich auf Kontextfenster-Berechnungen und Kostenschätzungen aus. Spezielle Token markieren den Beginn und das Ende von Sequenzen, trennen System-Prompts von Nutzeranfragen und kennzeichnen Werkzeugaufrufe. Diese strukturellen Tokens sind bei jedem LLM-Einsatz Teil der Daten, auch wenn sie für den Nutzer unsichtbar bleiben.
Wie GAIA verwendet Tokenisierung
GAIA verwaltet Tokenbudgets sorgfältig über die gesamten Agenten-Workflows hinweg. Lange E-Mails und Dokumente werden in token-große Abschnitte unterteilt, bevor sie eingebettet oder zusammengefasst werden. Beim Erstellen von Prompts balanciert GAIA die Menge des abgerufenen Kontexts gegen das Kontextfenster-Limit des LLMs, um eine hohe Informationsdichte zu erreichen und dennoch innerhalb der Modellbeschränkungen zu bleiben. Token-bewusstes Chunking stellt zudem sicher, dass GAIA's semantische Suche auf zusammenhängenden Bedeutungseinheiten basiert.
Verwandte Konzepte
Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Embeddings
Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.


