Constitutional AI
Constitutional AI (CAI) ist eine von Anthropic entwickelte Trainingsmethode, bei der KI-Modelle durch einen Abgleich und eine Überarbeitung ihrer eigenen Ausgaben anhand eines festgelegten Regelwerks – einer „Verfassung“ – mit menschlichen Werten in Einklang gebracht werden, anstatt sich ausschließlich auf von Menschen bewertete Präferenzdaten zu stützen.
Verstehen Constitutional AI
Constitutional AI, eingeführt von Anthropic im Jahr 2022, wurde entwickelt, um die Skalierungsgrenzen von RLHF zu adressieren: Da Modelle leistungsfähiger werden, kann es für menschliche Bewerter immer schwieriger werden, zuverlässig zu beurteilen, welche Ausgaben besser sind. CAI ersetzt einen Teil des menschlichen Feedbacks durch KI-Feedback: Das Modell wird dazu angeleitet, seine eigenen Antworten anhand einer Verfassung von Prinzipien zu prüfen (z. B. „Ist diese Antwort schädlich?“, „Ist diese Antwort ehrlich?“) und sie anschließend zu überarbeiten. Der Prozess besteht aus zwei Hauptphasen. Im überwachten Lernen generiert das Modell Antworten, prüft diese anhand der Verfassungsprinzipien und überarbeitet sie – so entsteht ein synthetischer Datensatz verbesserter Antworten. Beim RL aus KI-Feedback (RLAIF) wird ein separates KI-Modell als Präferenzmodell trainiert, das KI-generierte Vergleiche anstelle von menschlichen Vergleichen nutzt und anschließend das Basismodell per Reinforcement Learning feinjustiert. Die „Verfassung“ selbst ist ein von Menschen erstelltes Dokument: eine Liste von Prinzipien, die beschreiben, was die KI tun und nicht tun soll. Die Verfassung von Anthropic basiert unter anderem auf der UN-Menschenrechtserklärung und existierenden Ethikrahmen für KI. Durch die explizite Kodierung von Werten in Sprache – statt implizit durch menschliche Präferenzbewertungen – wird der Ausrichtungsprozess mit CAI transparenter und flexibler. Constitutional AI wird am häufigsten mit Claude, der KI-Modellfamilie von Anthropic, in Verbindung gebracht. Sie ergänzt RLHF, ersetzt es aber nicht – die meisten eingesetzten Modelle nutzen beide Verfahren.
Wie GAIA verwendet Constitutional AI
GAIA kann so konfiguriert werden, dass sie auf Claude läuft, der von Anthropic mit Constitutional AI trainierten Modelfamilie. Dadurch profitiert GAIA bei autonomen Abläufen von den Sicherheits- und Nützlichkeitsgarantien von CAI. Wenn GAIA sensible personenbezogene Daten über E-Mail-, Kalender- und Aufgaben-Systeme hinweg verwaltet, beeinflussen die ethische Ausrichtung und Zurückhaltung des zugrundeliegenden Modells – einschließlich der Vermeidung schädlicher Handlungen oder von Eingriffen in die Privatsphäre – direkt, was GAIA selbstständig tun darf und was nicht.
Verwandte Konzepte
Reinforcement Learning from Human Feedback (RLHF)
Reinforcement Learning from Human Feedback (RLHF) ist eine Methode des maschinellen Lernens, bei der KI-Modelle so trainiert werden, dass sie von Menschen bevorzugte Ausgaben erzeugen, indem sie aus menschlichen Bewertungen oder Rankings lernen, anstatt nur aus Rohdaten.
Human-in-the-Loop
Human-in-the-Loop (HITL) ist ein Designprinzip, bei dem ein KI-System an kritischen Entscheidungspunkten menschliche Kontrolle und Zustimmung vorsieht. So wird sichergestellt, dass sensible oder weitreichende Aktionen erst nach menschlicher Bestätigung ausgeführt werden.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein Deep-Learning-Modell, das auf riesigen Textdatensätzen trainiert wurde. Es kann menschliche Sprache verstehen, generieren und in einer Vielzahl von Aufgaben anwenden.
Feinabstimmung
Feinabstimmung ist der Prozess, bei dem ein vortrainiertes KI-Modell mit einem kleineren, aufgabenspezifischen Datensatz weitertrainiert wird, um dessen Verhalten für einen bestimmten Fachbereich oder eine Anwendung anzupassen.
KI-Agent
Ein KI-Agent ist ein autonomes Softwaresystem, das seine Umgebung wahrnimmt, über Handlungen nachdenkt und Maßnahmen ergreift, um bestimmte Ziele ohne fortlaufende menschliche Anleitung zu erreichen.


