Kann die Verfassung der KI geändert werden?

Ja – das ist einer der Vorteile von Constitutional AI. Da Werte in explizit formulierten Prinzipien hinterlegt sind, können sie geprüft, diskutiert und aktualisiert werden. Das ist transparenter als eine Ausrichtung, die implizit in Millionen von menschlichen Präferenzbewertungen eingebettet ist, bei denen die Kriterien für das, was als „gut“ gilt, oft nicht klar dokumentiert sind.

Constitutional AI

Constitutional AI (CAI) ist eine von Anthropic entwickelte Trainingsmethode, bei der KI-Modelle durch einen Abgleich und eine Überarbeitung ihrer eigenen Ausgaben anhand eines festgelegten Regelwerks – einer „Verfassung“ – mit menschlichen Werten in Einklang gebracht werden, anstatt sich ausschließlich auf von Menschen bewertete Präferenzdaten zu stützen.

Verstehen Constitutional AI

Constitutional AI, eingeführt von Anthropic im Jahr 2022, wurde entwickelt, um die Skalierungsgrenzen von RLHF zu adressieren: Da Modelle leistungsfähiger werden, kann es für menschliche Bewerter immer schwieriger werden, zuverlässig zu beurteilen, welche Ausgaben besser sind. CAI ersetzt einen Teil des menschlichen Feedbacks durch KI-Feedback: Das Modell wird dazu angeleitet, seine eigenen Antworten anhand einer Verfassung von Prinzipien zu prüfen (z. B. „Ist diese Antwort schädlich?“, „Ist diese Antwort ehrlich?“) und sie anschließend zu überarbeiten. Der Prozess besteht aus zwei Hauptphasen. Im überwachten Lernen generiert das Modell Antworten, prüft diese anhand der Verfassungsprinzipien und überarbeitet sie – so entsteht ein synthetischer Datensatz verbesserter Antworten. Beim RL aus KI-Feedback (RLAIF) wird ein separates KI-Modell als Präferenzmodell trainiert, das KI-generierte Vergleiche anstelle von menschlichen Vergleichen nutzt und anschließend das Basismodell per Reinforcement Learning feinjustiert. Die „Verfassung“ selbst ist ein von Menschen erstelltes Dokument: eine Liste von Prinzipien, die beschreiben, was die KI tun und nicht tun soll. Die Verfassung von Anthropic basiert unter anderem auf der UN-Menschenrechtserklärung und existierenden Ethikrahmen für KI. Durch die explizite Kodierung von Werten in Sprache – statt implizit durch menschliche Präferenzbewertungen – wird der Ausrichtungsprozess mit CAI transparenter und flexibler. Constitutional AI wird am häufigsten mit Claude, der KI-Modellfamilie von Anthropic, in Verbindung gebracht. Sie ergänzt RLHF, ersetzt es aber nicht – die meisten eingesetzten Modelle nutzen beide Verfahren.

Wie GAIA verwendet Constitutional AI

GAIA kann so konfiguriert werden, dass sie auf Claude läuft, der von Anthropic mit Constitutional AI trainierten Modelfamilie. Dadurch profitiert GAIA bei autonomen Abläufen von den Sicherheits- und Nützlichkeitsgarantien von CAI. Wenn GAIA sensible personenbezogene Daten über E-Mail-, Kalender- und Aufgaben-Systeme hinweg verwaltet, beeinflussen die ethische Ausrichtung und Zurückhaltung des zugrundeliegenden Modells – einschließlich der Vermeidung schädlicher Handlungen oder von Eingriffen in die Privatsphäre – direkt, was GAIA selbstständig tun darf und was nicht.

Häufig gestellte Fragen

RLHF verwendet menschliche Bewerter, um Ausgaben zu vergleichen und daraus ein Belohnungsmodell zu erstellen. Constitutional AI basiert auf einem schriftlich festgelegten Prinzipiensatz und KI-generiertem Feedback, um eine ähnliche Ausrichtung zu erreichen, wodurch die Abhängigkeit von umfangreicher menschlicher Kennzeichnung verringert wird. In der Praxis nutzen die meisten fortschrittlichen Modelle beide Techniken in Kombination.

Constitutional AI

Verstehen Constitutional AI

Wie GAIA verwendet Constitutional AI

Verwandte Konzepte

Reinforcement Learning from Human Feedback (RLHF)

Human-in-the-Loop

Large Language Model (LLM)

Feinabstimmung

KI-Agent

Häufig gestellte Fragen

Mehr entdecken

GAIA mit Alternativen vergleichen

GAIA für Ihre Rolle

Constitutional AI

Verstehen Constitutional AI

Wie GAIA verwendet Constitutional AI

Verwandte Konzepte

Reinforcement Learning from Human Feedback (RLHF)

Human-in-the-Loop

Large Language Model (LLM)

Feinabstimmung

KI-Agent

Häufig gestellte Fragen

Mehr entdecken

GAIA mit Alternativen vergleichen

GAIA für Ihre Rolle

Verstehen Constitutional AI

Wie GAIA verwendet Constitutional AI

Verwandte Konzepte

Reinforcement Learning from Human Feedback (RLHF)

Human-in-the-Loop

Large Language Model (LLM)

Feinabstimmung

KI-Agent

Häufig gestellte Fragen

Worin unterscheidet sich Constitutional AI von RLHF?

Kann die Verfassung der KI geändert werden?

Mehr entdecken

GAIA mit Alternativen vergleichen

GAIA für Ihre Rolle

Verstehen Constitutional AI

Wie GAIA verwendet Constitutional AI

Verwandte Konzepte

Reinforcement Learning from Human Feedback (RLHF)

Human-in-the-Loop

Large Language Model (LLM)

Feinabstimmung

KI-Agent

Häufig gestellte Fragen

Worin unterscheidet sich Constitutional AI von RLHF?

Kann die Verfassung der KI geändert werden?

Mehr entdecken

GAIA mit Alternativen vergleichen

GAIA für Ihre Rolle