Garde-fous
Les garde-fous sont des contraintes de sécurité appliquées aux systèmes d'IA qui limitent, filtrent ou redirigent les sorties du modèle afin d'éviter des comportements nuisibles, incorrects ou non désirés, tout en permettant une utilisation bénéfique.
Comprendre Garde-fous
À mesure que les systèmes d'IA deviennent plus performants et autonomes, les garde-fous gagnent en importance. Un modèle sans garde-fous pourrait générer du contenu dangereux, prendre des mesures irréversibles, divulguer des données sensibles ou poursuivre des objectifs contraires à l'intention de l'utilisateur. Les garde-fous posent des limites qui maintiennent le comportement de l'IA dans des paramètres acceptables. Les garde-fous opèrent à plusieurs niveaux. Les garde-fous d'entrée filtrent les invites avant qu'elles n'atteignent le modèle : ils bloquent les tentatives de contournement ou les demandes sur des sujets sensibles. Les garde-fous de sortie filtrent les réponses du modèle avant leur livraison : ils écartent les contenus nuisibles ou vérifient la véracité des affirmations en les comparant à des sources. Les garde-fous d'action limitent les actions autonomes d'un agent : ils exigent une validation humaine avant d'envoyer des emails, de supprimer des fichiers ou d'effectuer des achats. Pour les agents IA capables d'agir dans le monde réel, les garde-fous d'action sont particulièrement critiques. Un agent pouvant envoyer des emails en votre nom doit être limité sur ce qu'il peut faire de façon autonome, le contenu autorisé et savoir quand il doit s'arrêter pour demander confirmation. Les approches techniques pour mettre en place des garde-fous incluent les filtres à base de règles, des modèles de classification entraînés à détecter les violations de politique, des vérifications par un humain pour les opérations sensibles, ainsi que des techniques d'IA constitutionnelle où l'on entraîne les modèles à s'autoévaluer selon des principes définis.
Comment GAIA utilise Garde-fous
GAIA met en place des garde-fous pour toutes les opérations sensibles. L'envoi d'e-mails, la création d'événements dans le calendrier, la modification de tâches et le déclenchement d'automatisations sont soumis à des exigences d'approbation configurables. Vous définissez quelles actions GAIA peut effectuer de façon autonome et lesquelles nécessitent votre confirmation, afin que l'IA n'agisse jamais hors du cadre que vous lui avez autorisé.
Concepts liés
Humain dans la boucle
L'humain dans la boucle (HITL) est un modèle de conception dans lequel un système IA inclut une supervision et une validation humaines à des points de décision clés, garantissant que les actions sensibles ou à fort impact nécessitent une confirmation humaine avant exécution.
Alignement de l'IA
L'alignement de l'IA est un domaine de recherche et d'ingénierie qui vise à ce que les systèmes d'IA poursuivent des objectifs bénéfiques, sûrs et alignés sur les valeurs et intentions humaines, même lorsqu'ils deviennent plus puissants et autonomes.
IA agentique
L'IA agentique décrit des systèmes d'intelligence artificielle conçus pour fonctionner de manière autonome, prendre des décisions et exécuter des tâches en plusieurs étapes avec un minimum d'intervention humaine.
Agent autonome
Un agent autonome est un système d’IA capable de percevoir son environnement, de prendre des décisions et d’entreprendre des actions de façon indépendante afin d’atteindre ses objectifs, sans intervention humaine à chaque étape.
IA proactive
L'IA proactive est un système d'intelligence artificielle qui anticipe les besoins de l'utilisateur, surveille les événements pertinents et prend des mesures de façon autonome avant même qu'on le lui demande.


