Guardrails
Guardrails são restrições de segurança aplicadas a sistemas de IA para limitar, filtrar ou redirecionar as respostas do modelo, prevenindo comportamentos nocivos, incorretos ou indesejados, ao mesmo tempo permitindo usos benéficos.
Entendendo Guardrails
À medida que os sistemas de IA tornam-se mais capazes e autônomos, os guardrails tornam-se cada vez mais importantes. Um modelo sem guardrails pode gerar conteúdos prejudiciais, tomar ações irreversíveis, vazar dados sensíveis ou seguir objetivos de formas que contrariem a intenção do usuário. Os guardrails impõem limites que mantêm o comportamento da IA dentro de parâmetros aceitáveis. Os guardrails atuam em múltiplos níveis. Guardrails de entrada filtram prompts antes de chegarem ao modelo — bloqueando tentativas de jailbreak ou solicitações sobre temas sensíveis. Guardrails de saída filtram respostas do modelo antes da entrega — removendo conteúdos nocivos ou conferindo informações factuais em fontes. Guardrails de ação restringem ações autônomas que um agente pode executar — exigindo aprovação humana antes de enviar e-mails, deletar arquivos ou fazer compras. Para agentes de IA que tomam ações no mundo real, guardrails de ação são especialmente críticos. Um agente que pode enviar e-mails em seu nome precisa de restrições sobre quando pode agir de forma autônoma, qual conteúdo é apropriado e quando pausar para confirmação antes de prosseguir. As abordagens técnicas para guardrails incluem filtros baseados em regras, classificadores treinados para identificar violações de políticas, pontos de controle com humanos para operações sensíveis e técnicas de IA constitucional que treinam modelos para autoavaliação segundo princípios especificados.
Como GAIA usa Guardrails
O GAIA implementa guardrails de ação para todas as operações sensíveis. O envio de e-mails, a criação de eventos no calendário, a modificação de tarefas e a execução de automações possuem requisitos de aprovação configuráveis. Você define quais ações o GAIA pode realizar de forma autônoma e quais exigem sua confirmação, garantindo que a IA nunca aja além do escopo autorizado por você.
Conceitos relacionados
Human-in-the-Loop
Human-in-the-loop (HITL) é um padrão de design em que um sistema de IA inclui supervisão e aprovação humana em pontos críticos de decisão, garantindo que ações sensíveis ou de grande impacto exijam confirmação humana antes de serem executadas.
Alinhamento de IA
Alinhamento de IA é o campo de pesquisa e engenharia dedicado a garantir que sistemas de IA busquem objetivos que sejam benéficos, seguros e consistentes com os valores e intenções humanas, mesmo à medida que se tornam mais capazes e autônomos.
IA Agente
IA Agente descreve sistemas de inteligência artificial projetados para operar de forma autônoma, tomando decisões e executando tarefas em múltiplas etapas com o mínimo de supervisão humana.
Agente Autônomo
Um agente autônomo é um sistema de IA capaz de perceber seu ambiente, tomar decisões e agir de forma independente para alcançar objetivos específicos sem precisar de intervenção humana em cada etapa.
IA Proativa
IA Proativa é um sistema de inteligência artificial que antecipa as necessidades do usuário, monitora eventos relevantes e toma atitudes de forma autônoma antes mesmo de ser solicitada.


