컨텍스트 윈도우
컨텍스트 윈도우는 시스템 프롬프트, 대화 내역, 검색 문서, 생성 결과를 포함하여 한 번의 추론 호출에서 언어 모델이 처리할 수 있는 최대 토큰 수를 의미합니다.
이해하기 컨텍스트 윈도우
컨텍스트 윈도우는 언어 모델의 작동 메모리를 정의합니다. 모델이 현 작업에 대해 알고 있는 것(명령어, 대화 이력, 검색된 문서, 도구 실행 결과 등)은 모두 이 윈도우 안에 들어가야 합니다. 윈도우를 벗어난 콘텐츠는 해당 추론 시점에서 모델이 접근할 수 없습니다. 컨텍스트 윈도우 크기는 크게 증가해 왔습니다. 초기 GPT 모델은 4,096개 토큰이 한계였으며, 최신 모델은 128,000개(GPT-4o), 200,000개(Claude 3.5), 1,000,000개 이상(Gemini 1.5 Pro)까지 지원합니다. 이처럼 윈도우가 확장됨에 따라 전체 코드베이스, 책, 긴 대화 기록 등도 한 번에 포함할 수 있게 되었습니다. 하지만 여전히 컨텍스트 윈도우에는 한계가 존재합니다. 모든 윈도우를 다 채운 상태로 처리하면 비용과 속도가 더 많이 소모됩니다. 또 연구에 따르면, 너무 긴 컨텍스트의 중간 즈음에 위치한 정보에 대해 LLM의 주의력이 저하되는 '중간에서 사라짐(lost in the middle)' 현상이 나타나기도 합니다. 따라서 모든 정보 대신, 가장 관련성 높은 내용을 선별해 사용하는 검색 전략이 더 효과적임이 입증되었습니다. GAIA 같은 AI 에이전트에게 컨텍스트 윈도우 관리는 중요한 엔지니어링 과제입니다. 각 도구 호출마다 입력과 출력에 토큰이 소모되고, 대화 이력이 누적되며, 검색된 문서로 분량이 증가합니다. 요약, 선택적 검색, 대화 압축 등 효과적인 컨텍스트 관리가 신뢰할 수 있는 에이전트 성능을 위해 필수적입니다.
GAIA 활용 방법 컨텍스트 윈도우
GAIA는 신뢰할 수 있는 에이전트 성능 유지를 위해 컨텍스트 윈도우를 적극적으로 관리합니다. 가장 관련성 높은 컨텍스트만 선별적으로 RAG로 불러오고, 긴 대화 이력은 요약해 오래된 내용을 압축하며, 대용량 문서는 처리 전 분할하여 다룹니다. 이런 꼼꼼한 컨텍스트 관리로 GAIA는 토큰 한도에 다다르거나 추론 품질이 저하되지 않고 복잡한 다단계 작업도 처리할 수 있습니다.
관련 개념
토크나이제이션
토크나이제이션은 텍스트를 '토큰'이라고 불리는 더 작은 단위로 분해하는 과정으로, 이 토큰이 언어 모델의 기본 입력 단위가 됩니다. 토큰은 주로 단어의 일부분이나 전체, 혹은 구두점을 나타냅니다.
검색 증강 생성(RAG)
검색 증강 생성(RAG)은 외부 지식 기반에서 관련 문서나 데이터를 먼저 검색하고 그 컨텍스트를 모델 프롬프트에 주입하여, LLM 응답을 더욱 향상시키는 기법입니다.
대형 언어 모델 (LLM)
대형 언어 모델(LLM)은 방대한 텍스트 데이터셋으로 훈련되어, 다양한 작업에서 인간의 언어를 이해하고 생성하며 추론할 수 있는 딥러닝 모델입니다.
대형 언어 모델 (LLM)
대형 언어 모델(LLM)은 방대한 텍스트 데이터를 학습해 인간의 언어를 놀라울 정도로 자연스럽게 이해하고 생성하며 추론할 수 있는 인공지능 모델입니다.


