GAIA Logo
PricingManifesto
Startseite/Glossar/Tokenisierung

Tokenisierung

Tokenisierung ist der Prozess, bei dem Text in kleinere Einheiten, sogenannte Token, zerlegt wird – sie dienen als Basiseinheiten für Sprachmodelle. Token stehen meist für Wortfragmente, vollständige Wörter oder Satzzeichen.

Verstehen Tokenisierung

Bevor ein Sprachmodell Text verarbeiten kann, muss dieser Text in Token umgewandelt werden. Moderne LLMs nutzen Subword-Tokenisierungsalgorithmen wie Byte Pair Encoding (BPE) oder SentencePiece, um ein Gleichgewicht zwischen Vokabulargröße und Abdeckung zu erreichen. Häufige Wörter werden als einzelne Token kodiert, seltene Wörter in mehrere Subwort-Token zerlegt. Im Schnitt entspricht ein Token etwa vier Zeichen oder drei Vierteln eines englischen Wortes. Tokenisierung ist aus drei praktischen Gründen wichtig. Erstens wird das Kontextfenster in Token gemessen, nicht in Wörtern oder Zeichen. Ein Kontextfenster von 128.000 Token umfasst etwa 96.000 englische Wörter. Zweitens werden API-Kosten pro Token berechnet – sowohl für den Input als auch den Output. Drittens beeinflusst die Tokenisierung, wie Modelle verschiedene Sprachen verarbeiten. Tokenizer sind sprachspezifisch. Die OpenAI-tiktoken-Bibliothek, Hugging Face Tokenizer und der Tokenizer von Anthropic nutzen unterschiedliche Vokabulare – das führt dazu, dass derselbe Text bei verschiedenen Modellen unterschiedlich tokenisiert wird. Das wirkt sich auf Kontextfenster-Berechnungen und Kostenschätzungen aus. Spezielle Token markieren den Beginn und das Ende von Sequenzen, trennen System-Prompts von Nutzeranfragen und kennzeichnen Werkzeugaufrufe. Diese strukturellen Tokens sind bei jedem LLM-Einsatz Teil der Daten, auch wenn sie für den Nutzer unsichtbar bleiben.

Wie GAIA verwendet Tokenisierung

GAIA verwaltet Tokenbudgets sorgfältig über die gesamten Agenten-Workflows hinweg. Lange E-Mails und Dokumente werden in token-große Abschnitte unterteilt, bevor sie eingebettet oder zusammengefasst werden. Beim Erstellen von Prompts balanciert GAIA die Menge des abgerufenen Kontexts gegen das Kontextfenster-Limit des LLMs, um eine hohe Informationsdichte zu erreichen und dennoch innerhalb der Modellbeschränkungen zu bleiben. Token-bewusstes Chunking stellt zudem sicher, dass GAIA's semantische Suche auf zusammenhängenden Bedeutungseinheiten basiert.

Verwandte Konzepte

Kontextfenster

Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.

Large Language Model (LLM)

Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.

Embeddings

Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.

Large Language Model (LLM)

Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.

Häufig gestellte Fragen

Das hängt davon ab, welches LLM Sie für GAIA konfigurieren. Kontextfenster reichen je nach Anbieter und Modell von 8.000 bis über 1.000.000 Tokens. Die GAIA-Architektur nutzt Chunking und Retrieval, um auch dann effizient zu arbeiten, wenn Dokumentensammlungen jedes Kontextfenster überschreiten.

Mehr entdecken

GAIA mit Alternativen vergleichen

Sehen Sie, wie GAIA im Vergleich zu anderen KI-Produktivitätstools abschneidet

GAIA für Ihre Rolle

Entdecken Sie, wie GAIA Fachleuten in verschiedenen Rollen hilft

Wallpaper webpWallpaper png
Stopdoingeverythingyourself.
Join thousands of professionals who gave their grunt work to GAIA.
Twitter IconWhatsapp IconDiscord IconGithub Icon
The Experience Company Logo
Do less. Live more. GAIA takes care of the rest.
Product
DownloadFeaturesGet StartedIntegration MarketplaceRoadmapUse Cases
Resources
AlternativesAutomation CombosBlogCompareDocumentationGlossaryInstall CLIRelease NotesRequest a FeatureRSS FeedStatus
Built For
Startup FoundersSoftware DevelopersSales ProfessionalsProduct ManagersEngineering ManagersAgency Owners
View All Roles
Company
AboutBrandingContactManifestoTools We Love
Socials
DiscordGitHubLinkedInTwitterWhatsAppYouTube
Discord IconTwitter IconGithub IconWhatsapp IconYoutube IconLinkedin Icon
Copyright © 2025 The Experience Company. All rights reserved.
Terms of Use
Privacy Policy