요즘 느낀 트랜드: 추론(Reasoning) 모델의 보편화

2024년 9월, AI 역사에서 조용하지만 결정적인 전환이 일어났습니다. “더 큰 모델을 만드는 것”이 아니라 “모델이 더 오래 생각하게 하는 것”이 성능 향상의 새로운 축이 될 수 있다는 발견이었죠. 불과 1년 반 만에, “생각하기(thinking)”는 모든 주요 AI 모델의 표준 기능이 되었습니다. 이 글에서는 그 여정을 정리해 봅니다.

패러다임 전환: 추론 시간 스케일링(Inference-Time Scaling)

전통적인 AI 스케일링은 간단했습니다. 더 큰 모델, 더 많은 훈련 데이터, 더 많은 학습 시간 컴퓨트. 하지만 2024년, OpenAI가 새로운 축을 발견했습니다. 답을 생성할 때 더 많은 시간을 쓰면, 예측 가능하게 성능이 향상된다는 것이죠.

이것이 추론 시간 스케일링(Inference-Time Scaling)입니다. 핵심 통찰은 이렇습니다.

“추론 시간 컴퓨트를 15배 증가시키면, 훈련 시간 컴퓨트를 10배 증가시킨 것과 같은 효과가 있다.”— Dr. Noam Brown (OpenAI)

인간의 사고 방식으로 비유하면, Daniel Kahneman의 시스템 1/시스템 2 프레임워크와 같습니다. 기존 LLM은 시스템 1(자동적, 직관적 응답)이었다면, 추론 모델은 시스템 2(느리지만 분석적인 사고)를 가능하게 합니다.

NVIDIA CEO Jensen Huang은 이 변화의 사업적 함의를 이렇게 요약했습니다: “추론이 오늘 매출의 40%이다. 추론 체인과 함께, 10억 배 증가할 것이다.”

출처: tanayj.com — OpenAI o1 and Inference-Time Scaling / lifearchitect.ai — o1 분석

타임라인: 추론 모델의 등장과 확산

2024년 9월 12일 — OpenAI o1: 추론 모델의 시작

OpenAI가 o1 Preview를 공개했습니다. “Q*”(2023년 11월), “Strawberry”(2024년 7월)라는 코드네임을 거쳐 나온 최초의 “추론 모델”이었습니다.

  • 강화학습(RL)을 통해 Chain-of-Thought(CoT) 추론을 수행하도록 훈련
  • 물리학, 화학, 생물학 벤치마크에서 박사 수준 성능
  • Codeforces 89번째 백분위, AIME 상위 500위

출처: Wikipedia — OpenAI o1

2025년 1월 20일 — DeepSeek R1: “AI의 스푸트니크 모먼트”

추론 모델 역사에서 가장 파장이 컸던 사건입니다.

기술적 돌파구: DeepSeek-R1-Zero는 Supervised Fine-Tuning(SFT) 워밍업 없이 순수 RL만으로 훈련되었는데, 모델이 자발적으로 Chain-of-Thought 추론, 자기 검증, 성찰을 발전시켰습니다. 누군가 예시를 보여주지 않아도 스스로 “생각하는 법”을 배운 셈이죠.

비용 혁명: o1 대비 약 95% 저렴한 비용으로 비슷한 성능을 달성했습니다. 671B 파라미터(MoE 아키텍처, 추론 시 37B만 활성화), 2,048개의 H800 GPU로 2개월간 훈련. API 가격은 입력 $0.55/1M 토큰, 출력 $2.19/1M 토큰이었습니다.

시장 충격: 1월 27일까지 DeepSeek는 미국 Apple App Store에서 무료 앱 다운로드 1위를 차지했고, NVIDIA는 하루 만에 약 $600B의 시가총액을 잃었습니다.

Marc Andreessen은 이를 “내가 본 가장 놀라운 돌파구 중 하나 — 오픈소스로서, 세계에 대한 깊은 선물”이라고 평가했습니다. MIT 라이선스로 공개된 R1은 1.5B부터 70B까지의 증류(distilled) 모델도 함께 제공하여, 추론 능력의 민주화를 이끌었습니다.

출처: DeepSeek R1 GitHub / Wikipedia — DeepSeek / SitePoint — DeepSeek R1 기술 분석

2025년 2월 — Anthropic Claude 3.7 Sonnet “확장된 사고(Extended Thinking)”

Anthropic은 다른 접근 방식을 택했습니다. 별도의 추론 모델을 만드는 대신, 같은 모델에 “생각하는 모드”를 토글할 수 있게 한 것이죠.

사용자는 “확장된 사고 모드”를 켜고 끌 수 있고, 개발자는 “생각 예산(thinking budget)”을 설정해 Claude가 문제에 얼마나 오래 생각할지 제어할 수 있습니다. 수학 문제에 허용하는 “생각 토큰”이 많을수록 정확도가 로그 함수적으로 향상되었습니다.

투명성 측면에서도 특별한 시도가 있었습니다. 사고 과정이 원시 형태로 공개되었지만, 동시에 “성실성(faithfulness)” 문제도 확인되었습니다. 모델이 생각 과정에서 명시적으로 논의하지 않은 요인에 기반해 결정을 내리는 경우가 있었던 것이죠.

출처: Anthropic — Visible Extended Thinking

2025년 5월 — Claude 4: 하이브리드 추론의 확립

Claude Opus 4와 Sonnet 4 모두 즉시 응답 + 확장된 사고의 두 가지 모드를 제공했습니다. 특히 확장된 사고 중 도구 사용(tool use) 기능이 베타로 도입되어, 모델이 생각하는 도중에 웹 검색 같은 도구를 사용할 수 있게 되었습니다.

벤치마크에서도 인상적이었습니다. Opus 4는 SWE-bench 72.5%, Terminal-bench 43.2%로 코드 작업 최고 성적을 기록했고, 수천 단계가 필요한 장기 실행 작업에서도 수 시간 연속 작업이 가능했습니다.

출처: Anthropic — Claude 4

2025년 11~12월: “25일 전쟁” — 프론티어 모델 러시

2025년 말, 전례 없는 밀도로 프론티어 모델이 쏟아졌습니다.

날짜모델특징
11.17xAI Grok 4.1LMArena 1483 Elo
11.18Google Gemini 310-15단계 추론 체인을 일관성 있게 실행
11.24Anthropic Claude Opus 4.5SWE-bench 80.9%, OSWorld 66.3%
12.11OpenAI GPT-5.2GPQA Diamond 93.2%, FrontierMath 40.3%

Sam Altman은 Gemini 3가 리더보드 상위를 차지한 후 사내 “코드 레드” 메모를 발행한 것으로 알려졌습니다. 경쟁이 정말 치열해졌죠.

출처: Vertu — The AI Model Race Reaches Singularity Speed

핵심 기술: RL로 “생각하는 법”을 배우다

추론 모델의 기술적 핵심을 간단히 설명하면 이렇습니다.

Andrej Karpathy의 설명이 가장 명확합니다.

“자동으로 검증 가능한 보상(수학/코드 퍼즐)에 대해 LLM을 훈련시키면, LLM은 인간에게 ‘추론’처럼 보이는 전략을 자발적으로 개발한다 — 문제 해결을 중간 계산으로 분해하는 법, 이리저리 시도하며 해결책을 찾아가는 전략 등.”— Andrej Karpathy

DeepSeek R1이 이를 극적으로 보여주었습니다. 순수 RL(GRPO — Group Relative Policy Optimization)만으로 훈련된 R1-Zero 모델이 아무 예시 없이 Chain-of-Thought 추론, 자기 검증, 되돌아가기, 복잡한 문제를 하위 단계로 분해하기 등의 전략을 자발적으로 발전시켰습니다.

출처: Simon Willison — The Year in LLMs (2025)

수렴: “추론 모델”은 사라지고 “생각 모드”가 남다

가장 중요한 트렌드는, “추론 모델”과 “일반 모델”의 경계가 사라지고 있다는 것입니다.

2025년 중반 이후, 모든 주요 모델이 “생각하기”를 표준 기능으로 제공합니다.

제공업체추론 접근 방식
OpenAI별도 o-시리즈 + GPT의 Thinking 모드 (Instant/Thinking/Pro)
AnthropicExtended Thinking (같은 모델에서 예산 조절)
GoogleThinking + Deep Think 모드
DeepSeek오픈소스, thinking/non-thinking 하이브리드
xAIthinking 토큰

“2025년은 추론 모델과 에이전트의 해였다. 2026년은 그것을 실용적으로 만드는 해가 될 것이다.”

업계에서는 표준 아키텍처가 수렴하고 있습니다. “플래너” 모델(GPT-5.2, Gemini 3 Deep Think, Claude Sonnet 4.5 등)이 어려운 추론과 도구 오케스트레이션을 담당하고, “실행자” 모델(Haiku 4.5, DeepSeek-V3.2, Qwen3-30B)이 대량·저지연 작업을 처리하는 구조죠.

출처: CodeGPT — AI Coding Models 2025 가이드 / Adaline Labs — AI Research Landscape in 2026

마무리: 지능은 파라미터 수만의 문제가 아니었다

추론 모델의 보편화가 증명한 것은 이것입니다.

“추론 시간 스케일링은 지능이 순전히 파라미터 수에 관한 것이 아님을 증명했다. 더 작은 모델이 더 오래 생각하면, 덜 생각하는 더 큰 모델과 맞먹을 수 있다.”

이것은 실용적으로도 의미가 큽니다. 예전에는 최고 성능을 얻으려면 가장 큰 모델을 사용해야 했지만, 이제는 상황에 맞게 “생각 예산”을 조절할 수 있습니다. 간단한 질문에는 빠르게, 복잡한 문제에는 충분히 오래 생각하게 — 이것이 2026년의 AI 사용 방식입니다.


📚 주요 출처

댓글 남기기

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.