요즘 느낀 트랜드: 컨텍스트 롯(Context Rot)이라는 새로운 문제

AI 모델의 컨텍스트 윈도우가 4K에서 1M, 심지어 10M 토큰까지 확장되면서, 많은 사람들이 “이제 뭐든 다 넣으면 되겠네”라고 생각했습니다. 하지만 2025년, 연구자들이 불편한 진실을 체계적으로 증명했습니다. LLM에 더 많은 정보를 넣을수록, 성능은 오히려 저하된다는 것. 이 현상을 “컨텍스트 롯(Context Rot)”이라고 부릅니다.

“컨텍스트 롯”이란?

컨텍스트 롯은 입력 컨텍스트 길이가 증가함에 따라 발생하는 LLM 성능 저하입니다. 컨텍스트 윈도우가 가득 차지 않았는데도, 모델은 더 긴 입력을 처리할 때 덜 정확하고 덜 신뢰할 수 있는 출력을 생성합니다.

이 용어는 2025년 6월, Hacker News의 한 댓글에서 처음 등장했고, 7월에 Chroma가 발표한 대규모 연구를 통해 널리 알려졌습니다.

출처: Understanding AI — Context rot: the emerging challenge (Tim Lee, 2025.11.10)

발견의 역사: “Lost in the Middle”에서 Context Rot까지

기원: Stanford의 “Lost in the Middle” (2023년 7월)

모든 것은 Stanford 대학교 Nelson F. Liu 등의 연구에서 시작되었습니다. 연구팀은 LLM에서 관련 정보의 위치를 변경하기만 해도 성능이 크게 저하되는 것을 발견했습니다. 특히 정보가 입력의 시작이나 끝에 있을 때는 잘 찾았지만, 중간에 있으면 크게 놓쳤습니다. “U자형 곡선”이라 불리는 이 패턴이 최초로 보고된 것이죠.

구체적 수치로 보면, 같은 사실을 위치 1에 놓으면 정확도 75%, 위치 10에 놓으면 55% — 15~20 퍼센트 포인트의 하락이 순전히 위치에 의해 발생했습니다.

출처: Liu et al. — Lost in the Middle (arXiv, 2023 / TACL 2024)

NoLiMa: 더 어려운 테스트 (ICML 2025)

LMU Munich과 Adobe Research의 연구팀이 기존 Needle-in-a-Haystack 테스트의 한계를 넘어서는 NoLiMa 벤치마크를 만들었습니다. 기존 테스트에서는 모델이 질문과 답 사이의 단어 매칭으로 “편법”을 쓸 수 있었거든요.

NoLiMa는 질문과 답 사이에 어휘적 중복이 거의 없도록 설계했습니다. 예를 들어, 텍스트에 “Yuki는 Kiasma 박물관 옆에 산다”고 적혀 있고, 질문은 “어떤 캐릭터가 헬싱키에 가본 적이 있나?”입니다. 정답을 맞추려면 Kiasma 박물관이 헬싱키에 있다는 세계 지식이 필요하죠.

결과는 충격적이었습니다. 32K 토큰에서 12개 모델 중 10개가 짧은 컨텍스트 대비 50% 미만으로 떨어졌고, 최상위인 GPT-4o조차 99.3%에서 69.7%로 하락했습니다. 추론 전용 모델(o1, o3-mini, DeepSeek-R1)조차 32K에서 50% 미만을 기록했습니다.

출처: NoLiMa GitHub (Adobe Research, ICML 2025)

Chroma 연구: Context Rot의 결정적 증거 (2025년 7월)

Chroma Research의 Kelly Hong, Anton Troynikov, Jeff Huber 팀이 18개 프론티어 LLM(GPT-4.1, Claude 4, Gemini 2.5, Qwen3 포함)을 대상으로 대규모 체계적 실험을 수행했습니다. 총 194,480회의 LLM 호출을 분석한 이 연구는, 컨텍스트 롯에 대한 가장 포괄적인 증거를 제시했습니다.

발견 1: “균일한 컨텍스트” 신화의 붕괴

모든 모델이 컨텍스트를 균일하게 처리하지 않으며, 입력이 길어질수록 성능이 비균일하고 예측 불가능하게 저하됩니다. 전체 대화 기록(약 113K 토큰)을 추가했을 때, 집중된 300 토큰 버전 대비 정확도가 30% 떨어졌습니다.

발견 2: “절벽형” 성능 하락

성능은 선형적으로 서서히 떨어지는 게 아니라, 특정 지점에서 갑자기 급락합니다. 95% 정확도를 유지하다가 갑자기 60%로 떨어질 수 있으며, 이 절벽은 모델마다 다르게 나타납니다.

발견 3: 교란자(Distractors)의 파괴적 효과

주제적으로 관련이 있지만 사실적으로 무관한 “교란자”를 추가하면, 컨텍스트 길이만으로 설명되는 것 이상의 추가적 저하가 발생합니다. 교란자를 하나만 추가해도 성능이 눈에 띄게 떨어졌고, 4개를 추가하면 급락했습니다.

흥미로운 발견: GPT 모델은 혼란스러울 때 환각(hallucination)하는 경향이 있고, Claude 모델은 답변을 거부하는 경향이 있었습니다.

발견 4: 논리적 구조가 오히려 해롭다 (가장 반직관적)

일관된 에세이의 문장을 무작위로 재배열했더니, 모델이 정보를 찾는 데 오히려 더 좋은 성능을 보였습니다. 모든 18개 모델에서 일관되게 나타난 이 현상의 가설은, 논리적 흐름이 있는 텍스트가 주의(attention) 메커니즘을 산만하게 하는 패턴을 만든다는 것입니다. 모델이 서사를 “따라가는 데 빠져들어” 정작 필요한 정보를 놓치는 셈이죠.

발견 5: “최고의 모델”은 없다

모든 과제에서 1위를 차지한 단일 모델은 없었습니다. Claude Sonnet 4는 반복 단어 과제에서, GPT-4.1은 Needle-in-a-Haystack에서 최고였습니다. 성능은 과제에 매우 의존적이었죠.

출처: Chroma — Context Rot 연구 보고서 (2025.07) / GitHub 재현 코드

왜 컨텍스트 롯이 발생하는가?

세 가지 기술적 원인이 복합적으로 작용합니다.

1. “Lost in the Middle” 효과 (위치적 편향): 모델은 컨텍스트의 시작과 끝에 있는 토큰에 강하게 주의를 기울이지만, 중간은 제대로 처리하지 못합니다.

2. 2차(Quadratic) 어텐션 스케일링: 1,000 토큰에서 각 토큰은 999개의 다른 토큰에 주의를 기울여야 합니다. 100,000 토큰에서는 99,999개로 늘어나죠. 주의 “예산”이 점점 얇게 분산됩니다.

3. 의미론적 교란자 간섭: 의미론적으로 유사하지만 무관한 내용이 모델의 관련 정보 식별 능력을 방해합니다. 코딩 에이전트가 웹훅 핸들러를 찾을 때, 테스트 픽스처와 더 이상 쓰이지 않는 구현과 유사한 이름의 함수들이 컨텍스트를 채우는 것과 같은 상황이죠.

Tim Lee는 인간의 뇌에 비유해서 이를 설명합니다.

“이 글을 쓰면서 나는 2019년에 아침으로 무엇을 먹었는지, 2002년의 불쾌한 이별, 1990년대에 본 수많은 스타트렉 에피소드를 생각하지 않는다. 내 뇌가 이 모든 것을 끊임없이 생각한다면, 일관된 에세이를 쓸 수 없을 것이다. 하지만 LLM은 컨텍스트 윈도우에 더 많은 토큰이 추가되면 실제로 주의가 산만해진다.”— Tim Lee, Understanding AI (2025.11.10)

출처: Understanding AI — Context rot / Morph — What Is Context Rot?

더 큰 컨텍스트 윈도우가 해답이 아닌 이유

Gemini의 1M, GPT-4.1의 1M, Llama 4의 10M… 컨텍스트 윈도우 경쟁은 뜨겁습니다. 하지만 연구 결과는 명확합니다.

“1M 토큰 컨텍스트 윈도우도 여전히 50K 토큰에서 컨텍스트 롯을 보인다. 해결책은 컨텍스트 용량을 늘리는 것이 아니라 컨텍스트 노이즈를 줄이는 것이다.”— Morph LLM

에이전틱 AI에서 이 문제는 특히 치명적입니다. 코딩 에이전트는 다단계 작업 중에 컨텍스트를 계속 축적합니다. 일반 채팅이 수천 토큰 수준이라면, 코딩 에이전트는 일상적으로 100K를 넘깁니다. Microsoft와 Salesforce의 테스트에서 다회전 대화 정확도가 90%에서 51%까지 떨어진 것도 이 때문입니다.

해결 방향: 컨텍스트 엔지니어링

Anthropic은 2025년 9월, “컨텍스트는 한계 수익이 체감하는 유한한 자원으로 취급되어야 한다”는 핵심 원칙을 제시했습니다. 이것이 “컨텍스트 엔지니어링”의 출발점입니다.

가장 효과적인 해결 전략은 서브에이전트 아키텍처를 통한 컨텍스트 격리입니다. 검색 작업을 자체 컨텍스트 윈도우에서 작동하는 전문 에이전트에 위임하고, 관련 결과만 메인 모델에 반환하는 방식이죠. Anthropic의 멀티에이전트 시스템은 이 접근 방식으로 성능을 90% 향상시켰습니다.

하지만 근본적 문제는 여전히 남아있습니다. Tim Lee는 이렇게 묻습니다.

“What if attention isn’t all you need? (어텐션이 필요한 전부가 아니라면?)”

LLM이 훨씬 더 긴 컨텍스트에 대해 효과적으로 추론하려면, LLM이 작동하는 방식 자체를 근본적으로 재고해야 할 수도 있다는 것이 현재의 열린 질문입니다.


📚 주요 출처

댓글 남기기

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.