「컨텍스트 윈도우(context window)」는 LLM이 한 번에 볼 수 있는 토큰의 최대 수입니다.
모델의 「작업 메모리 크기」와 같은 개념으로, 컨텍스트가 클수록 한 번에 더 많은 정보를 이해하고 일관성 있게 답할 수 있습니다.
초기 GPT-3는 4K(약 3,000단어), GPT-3.5는 16K, GPT-4는 8K부터 128K(GPT-4 Turbo), Claude 3는 200K, Gemini 1.5 Pro는 1M~2M까지 빠르게 확장됐습니다.
1M 토큰은 한국어 책 5~7권, 또는 1~2시간 분량의 비디오 자막에 해당합니다.
긴 컨텍스트의 장점은 분명합니다.
책 한 권을 통째로 읽혀 「3장의 내용을 7장과 비교해 줘」 같은 질문을 할 수 있고, 회의 녹음 1시간을 보내 「우리가 합의한 결정 사항만 추려 줘」 같은 작업이 가능해집니다.
코드 분석에서도 프로젝트 전체를 한 번에 보여 줄 수 있습니다.
기술적 어려움은 「self-attention의 계산량이 시퀀스 길이의 제곱으로 늘어난다」는 점입니다.
1K → 2K가 4배가 아니라 2배지만, 1K → 1M은 100만 배가 됩니다.
그래서 FlashAttention·sliding window·sparse attention 같은 기법으로 효율을 끌어올린 결과 1M 컨텍스트가 가능해졌습니다.
주의할 점은 「컨텍스트가 길다고 모든 정보를 잘 활용하는 건 아니다」라는 점입니다.
「Lost in the Middle」 — 중간에 있는 정보는 상대적으로 잘 잊는 경향 — 이라는 현상이 자주 보고됩니다.
그래서 긴 컨텍스트를 쓸 때도 중요한 정보를 앞이나 뒤에 두는 등의 프롬프트 설계가 필요합니다.
한 줄 요약
컨텍스트 윈도우는 LLM이 한 번에 볼 수 있는 토큰 수로, 4K → 1M으로 빠르게 확장되며 긴 문서·코드·비디오 자막을 통째로 다룰 수 있게 됐습니다.
더 알아볼 것
- Lost in the Middle — 긴 컨텍스트의 함정
- FlashAttention — 컨텍스트 확장의 기술
- RAG vs 긴 컨텍스트 — 두 접근의 트레이드오프