Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.
Verstehen Kontextfenster
Das Kontextfenster definiert das Arbeitsgedächtnis eines Sprachmodells. Alles, was das Modell über die aktuelle Aufgabe weiß – einschließlich Anweisungen, Gesprächsverlauf, abgerufener Dokumente und Tool-Ausgaben – muss in dieses Fenster passen. Inhalte außerhalb des Kontextfensters sind dem Modell während dieser Inferenz im Grunde unsichtbar. Kontextfenster haben sich enorm vergrößert. Frühe GPT-Modelle hatten ein Limit von 4.096 Tokens. Moderne Modelle unterstützen 128.000 (GPT-4o), 200.000 (Claude 3.5) und sogar über 1.000.000 Tokens (Gemini 1.5 Pro). Diese erweiterten Fenster erlauben es, komplette Codebasen, Bücher oder lange Gesprächsverläufe in einem einzigen Kontextfenster unterzubringen. Trotz dieses Wachstums haben Kontextfenster weiterhin praktische Grenzen. Die Verarbeitung eines vollen Kontextfensters ist teurer und langsamer als ein kürzerer Kontext. Forschungen zeigen außerdem, dass die Aufmerksamkeit von LLMs für Inhalte in der Mitte sehr langer Kontexte nachlassen kann – ein Phänomen, das als "Lost in the Middle" bezeichnet wird. Retrieval-Strategien, die den relevantesten Inhalt auswählen, sind effektiver als naive Methoden, die alles einbinden. Für KI-Agenten wie GAIA ist das Management des Kontextfensters eine technische Herausforderung. Jeder Tool-Aufruf verbraucht Tokens für Ein- und Ausgabe. Lange Gesprächsverläufe summieren sich. Abgerufene Dokumente erhöhen das Volumen. Effektives Kontextmanagement durch Zusammenfassungen, selektives Retrieval und Gesprächskomprimierung ist entscheidend für eine zuverlässige Performance des Agenten.
Wie GAIA verwendet Kontextfenster
GAIA verwaltet Kontextfenster aktiv, um eine zuverlässige Agentenleistung sicherzustellen. Dabei nutzt es selektives RAG-Retrieval, um nur den relevantesten Kontext einzubeziehen, fasst lange Gesprächsverläufe zusammen, um ältere Inhalte zu komprimieren, und unterteilt große Dokumente vor der Verarbeitung in Abschnitte. Durch dieses sorgfältige Kontextmanagement kann GAIA komplexe, mehrstufige Abläufe verarbeiten, ohne an Token-Grenzen zu stoßen oder die Qualität des Denkens zu beeinträchtigen.
Verwandte Konzepte
Tokenisierung
Tokenisierung ist der Prozess, bei dem Text in kleinere Einheiten, sogenannte Token, zerlegt wird – sie dienen als Basiseinheiten für Sprachmodelle. Token stehen meist für Wortfragmente, vollständige Wörter oder Satzzeichen.
Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist eine Technik, bei der LLM-Antworten durch das Abrufen relevanter Dokumente oder Daten aus einer externen Wissensdatenbank verbessert werden, wobei dieser Kontext in den Prompt des Modells eingespeist wird.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.


