가드레일
가드레일은 AI 시스템에 적용되는 안전 제약으로, 유해하거나 잘못된 행동 그리고 원치 않는 출력을 제한, 필터링 또는 방향을 바꿔 유익한 사용만 가능하도록 만드는 장치입니다.
이해하기 가드레일
AI 시스템이 점점 더 강력하고 자율적으로 발전함에 따라, 가드레일의 중요성도 커지고 있습니다. 가드레일이 없는 모델은 유해한 내용을 생성하거나, 되돌릴 수 없는 행동을 하거나, 민감한 데이터를 유출하거나, 사용자 의도와 어긋나는 방식으로 목표를 추구할 수 있습니다. 가드레일은 AI 행동에 허용 가능한 범위를 설정해 이러한 위험을 방지합니다. 가드레일은 여러 단계에서 동작합니다. 입력 가드레일은 모델에 도달하기 전 프롬프트를 선별하며, 탈옥 시도나 민감한 주제 요청을 차단합니다. 출력 가드레일은 모델의 응답이 전달되기 전에 유해한 내용을 필터링하거나, 사실인지 출처와 대조해 검증합니다. 행동 가드레일은 에이전트가 수행할 수 있는 자율 행동을 제한하여, 이메일 송신, 파일 삭제, 구매와 같은 중요한 작업 전에는 반드시 사용자의 확인을 필요로 합니다. 가드레일을 구현하는 기술적 방법에는 규칙 기반 필터, 정책 위반을 감지하는 분류기 모델, 민감한 작업에 대한 사람의 검토, 그리고 명시된 원칙에 따라 모델이 스스로 평가하도록 학습시키는 헌법적 AI 기법 등이 있습니다.
GAIA 활용 방법 가드레일
GAIA는 모든 민감한 작업에 대해 액션 가드레일을 구현하고 있습니다. 이메일 전송, 캘린더 이벤트 생성, 작업 수정, 자동화 트리거 등 모든 중요한 조치에 대해 승인 요건을 설정할 수 있습니다. 사용자는 GAIA가 자동으로 처리할 수 있는 작업과 반드시 확인을 거쳐야 하는 작업을 구분하여 정의할 수 있어, AI가 허용된 범위를 넘어서 행동하지 않도록 보장합니다.
관련 개념
휴먼 인 더 루프(Human-in-the-Loop)
휴먼 인 더 루프(HITL)는 AI 시스템이 중요한 의사결정 단계에서 인간의 감독과 승인을 반드시 포함하도록 설계된 패턴입니다. 민감하거나 영향이 큰 작업은 실행 전 반드시 인간의 확인을 받게 되어 있습니다.
AI 정렬
AI 정렬은 AI 시스템이 더욱 강력하고 자율적이 되더라도 인간의 가치와 의도에 부합하며, 유익하고 안전한 목표를 추구하도록 보장하는 연구 및 엔지니어링 분야입니다.
에이전틱 AI
에이전틱 AI는 최소한의 사람 개입으로 독립적으로 의사결정하고 복잡한 여러 단계의 작업을 수행하도록 설계된 인공지능 시스템을 일컫습니다.
자율 에이전트
자율 에이전트는 환경을 독립적으로 인식하고, 판단하고, 목표 달성을 위해 사람의 개입 없이 스스로 행동할 수 있는 AI 시스템입니다.
능동형 AI
능동형 AI는 사용자의 요구를 사전에 예측하고, 관련 이벤트를 모니터링하며, 명시적 요청이 없어도 자율적으로 행동하는 인공지능 시스템입니다.


