Token
In der KI ist ein Token die grundlegende Texteinheit, die von Sprachmodellen verarbeitet wird – etwa gleichbedeutend mit 4 Zeichen oder ¾ eines durchschnittlichen englischen Wortes. Tokens werden verwendet, um die Kapazität des Kontextfensters zu messen und die API-Nutzungskosten zu bestimmen.
Verstehen Token
Sprachmodelle verarbeiten Texte weder Zeichen für Zeichen noch Wort für Wort. Stattdessen arbeiten sie mit Tokens – Untereinheiten von Wörtern, die durch einen Tokenizer erzeugt werden, der Texte anhand von Häufigkeitsmustern im Trainingskorpus in Abschnitte zerlegt. Gängige kurze Wörter wie „the“ oder „is“ sind in der Regel einzelne Tokens, während längere oder seltene Wörter in zwei oder mehr Tokens aufgeteilt werden können. Das Verständnis von Tokens ist aus zwei Gründen wesentlich. Erstens besitzt jedes Modell ein Kontextfenster, das in Tokens gemessen wird – die maximale Textmenge, die das Modell auf einmal berücksichtigen kann. GPT-4o besitzt ein Kontextfenster von 128.000 Tokens, Claude 3.5 Sonnet unterstützt 200.000. Zweitens berechnen die meisten LLM-APIs ihre Gebühren pro verarbeitetem Token (Eingabe + Ausgabe), wodurch ein Bewusstsein für Tokens die Kosten direkt beeinflusst. Als Faustregel gilt: 1.000 Tokens entsprechen ca. 750 Wörtern oder etwa 1.500 Zeichen. Eine durchschnittliche Geschäftsemail umfasst 200–400 Tokens. Ein langes Forschungspapier kann mehr als 8.000 Tokens umfassen. Beim Erstellen von KI-Anwendungen geht es beim Prompt-Design oft darum, den Tokenverbrauch effizient zu gestalten und die Kosten zu kontrollieren.
Wie GAIA verwendet Token
GAIA verwaltet den Tokenverbrauch effizient bei allen Aufrufen von Sprachmodellen, um ein Gleichgewicht zwischen Leistungsfähigkeit und Kosten herzustellen. Beim Verarbeiten langer Dokumente wie E-Mail-Verläufen oder Sitzungsprotokollen verwendet GAIA Chunking- und Zusammenfassungsstrategien, um innerhalb der Kontextfenster der Modelle zu bleiben. Es wird jeweils der passende Modelltyp ausgewählt – von leichten Modellen für einfache Aufgaben bis hin zu fortschrittlichen Modellen für komplexes Schlussfolgern – basierend unter anderem auf dem Token-Budget der jeweiligen Operation.
Verwandte Konzepte
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.
Prompt Engineering
Prompt Engineering ist die Praxis, Eingaben für KI-Sprachmodelle so zu entwerfen und zu verfeinern, dass zuverlässig gewünschte Ausgaben erreicht werden – und das ganz ohne Änderungen an den zugrunde liegenden Modellgewichten.
Halluzination
KI-Halluzination ist das Phänomen, bei dem ein Sprachmodell überzeugend klingende, aber faktisch falsche, erfundene oder unsinnige Informationen erzeugt, die nicht auf den Eingabedaten oder Trainingsdaten basieren.
Feinabstimmung
Feinabstimmung ist der Prozess, bei dem ein vortrainiertes KI-Modell mit einem kleineren, aufgabenspezifischen Datensatz weitertrainiert wird, um dessen Verhalten für einen bestimmten Fachbereich oder eine Anwendung anzupassen.


