2025년 초, 개발자 커뮤니티를 뜨겁게 달궜던 단어가 하나 있었습니다. “바이브 코딩(Vibe Coding)”이죠. 불과 1년 만에 이 용어는 사전에도 올라가고, 논쟁을 불러일으키고, 결국 새로운 패러다임에 자리를 내주었습니다. 이 글에서는 바이브 코딩의 탄생부터 한계, 그리고 에이전틱 엔지니어링이라는 새로운 시대까지의 여정을 정리해 봅니다.
바이브 코딩의 탄생 — Andrej Karpathy의 트윗 하나 (2025년 2월)
2025년 2월 2일, 전 Tesla AI 디렉터이자 OpenAI 공동 창립자인 Andrej Karpathy가 X(구 Twitter)에 올린 트윗에서 모든 것이 시작되었습니다.
“나는 이걸 ‘바이브 코딩’이라 부른다. 바이브에 완전히 몸을 맡기고, 지수적 성장을 받아들이고, 코드가 존재한다는 사실 자체를 잊어버리는 것이다. LLM(예: Cursor Composer + Sonnet)이 너무 좋아져서 가능해졌다.”— Andrej Karpathy, X (2025.02.02)
Karpathy는 SuperWhisper로 음성으로만 대화하며 키보드를 거의 만지지 않았고, “항상 Accept All을 누르고, 더 이상 diff를 읽지 않는다”고 묘사했습니다. 에러가 나면 그냥 복사해서 붙여넣으면 대부분 해결되었다고요.
이 트윗의 파급력은 어마어마했습니다.
- 450만 회 이상의 조회수를 기록하며 순식간에 퍼졌고
- Merriam-Webster가 2025년 3월 “슬랭 & 트렌딩” 용어로 등재했으며
- Collins 사전이 2025년 올해의 단어로 선정했고
- Y Combinator의 Winter 2025 배치 스타트업 중 25%가 코드베이스의 95%를 AI가 생성했다고 보고했습니다
출처: Karpathy X 포스트 / BBC / Collins Dictionary / Y Combinator
바이브 코딩의 한계가 드러나다 (2025년 중~하반기)
흥분이 가시면서, 꽤 심각한 문제들이 보고되기 시작했습니다.
보안 취약점
2025년 5월, 스웨덴의 바이브 코딩 앱 Lovable이 생성한 코드 중 1,645개 웹 앱 가운데 170개에서 개인정보가 누구나 접근 가능한 보안 취약점이 발견되었습니다.
코드 품질 저하
2025년 12월 CodeRabbit의 분석에 따르면, AI가 공동 작성한 코드는 인간이 작성한 코드 대비 “주요(major)” 이슈가 약 1.7배, 보안 취약점은 2.74배, 로직 에러는 75% 더 많았습니다.
“바이브 코딩 숙취”
2025년 9월, Fast Company는 시니어 소프트웨어 엔지니어들이 바이브 코딩된 코드를 작업할 때 “개발 지옥”을 겪고 있다고 보도했습니다. 유지보수가 사실상 불가능한 코드베이스가 쌓여가고 있었죠.
AI가 지시를 무시한 실제 사고
2025년 7월, SaaStr 창업자는 Replit의 AI 에이전트가 “아무것도 변경하지 말라”는 명시적 지시에도 불구하고 데이터베이스를 삭제한 사례를 기록했습니다.
출처: Fast Company / CodeRabbit 2025 리포트
에이전틱 코딩 도구의 급부상 (2025년)
바이브 코딩의 한계가 드러나는 동시에, 한 차원 다른 AI 코딩 도구들이 빠르게 등장했습니다.
- Claude Code (Anthropic): 2025년 2월 터미널 앱으로 출시. SWE-bench에서 중간 난이도 GitHub 이슈의 72%를 8분 이내에 해결
- OpenAI Codex: 2025년 4월 커맨드라인 앱 출시, 5월 웹 버전 공개
- Cursor: 40,000 기업 사용자 확보, 2024~2025년 300% 채택 성장
- GitHub Copilot: 2026년 기준 180만 유료 구독자
이 도구들의 핵심 차별점은 자율성(autonomy)입니다. 전통적 LLM은 코드의 줄이나 블록을 완성해주는 수준이었지만, 코딩 에이전트에게는 “버그 찾기 → 수정 → 새 기능 구현”이라는 전체 작업을 위임할 수 있습니다.
채택 속도도 놀라웠는데요. GitHub 129,134개 프로젝트를 분석한 대규모 연구에서, 코딩 에이전트의 추정 채택률이 15.85%~22.60%로 나타났습니다. 불과 몇 개월 된 기술치고는 상당히 높은 수치죠. 2025년 말 기준으로 약 85%의 개발자가 정기적으로 AI 도구를 코딩에 사용하고 있었습니다.
출처: Anthropic Claude Code / GitHub 대규모 연구 (arXiv)
Karpathy가 직접 선언 — “바이브 코딩은 지나간 것” (2026년 2월)
정확히 1년 뒤인 2026년 2월 4일, Karpathy가 회고 포스트를 올렸습니다. 원래의 바이브 코딩 트윗을 “샤워 중에 떠오른 생각을 그냥 던진 것”이라고 묘사하면서, 핵심적인 선언을 합니다.
“오늘(1년 후), LLM 에이전트를 통한 프로그래밍이 점점 전문가의 기본 워크플로우가 되고 있다. 다만 더 많은 감독과 검토를 동반한다. 목표는 에이전트 사용의 레버리지는 취하되 소프트웨어 품질에는 타협하지 않는 것.”— Andrej Karpathy, X (2026.02.04)
그리고 새로운 이름을 제안했습니다.
“개인적으로 가장 좋아하는 이름은 ‘에이전틱 엔지니어링(Agentic Engineering)’이다. ‘agentic(에이전트적)’인 이유는 새로운 기본값이 99%의 시간 동안 직접 코드를 쓰지 않고 에이전트를 오케스트레이션하며 감독하는 것이기 때문이다. ‘engineering(엔지니어링)’은 여기에 기술과 과학과 전문성이 있음을 강조하기 위해서.”
출처: Karpathy X 회고 포스트 (2026.02.04)
바이브 코딩 vs 에이전틱 엔지니어링: 핵심 차이
| 구분 | 바이브 코딩 (2025 초) | 에이전틱 엔지니어링 (2026) |
|---|---|---|
| 인간의 역할 | 프롬프트 작성자, 결과 수용자 | 아키텍트이자 감독자 |
| 코드 리뷰 | “Accept All”, diff 안 읽음 | 구조적 감독, 품질 게이트, 자동 테스트 |
| 적합한 범위 | 프로토타입, 주말 프로젝트 | 프로덕션 시스템, 엔터프라이즈 |
| AI 동작 방식 | 단일 LLM에 프롬프트 → 코드 | 여러 에이전트가 병렬로 리서치, 빌드, 테스트, 디버그 |
| 품질 관리 | 없음 (버그가 안 고쳐지면 회피) | 품질 게이트, 자동 테스트, 감사 추적 내장 |
| 새로운 위험 | 보안 취약점, 기술 부채 | “인지 부채(cognitive debt)” — 잘못 관리된 AI 상호작용의 누적 비용 |
프롬프트 엔지니어링에서 컨텍스트 엔지니어링으로
이 변화를 가장 체계적으로 정리한 것은 Anthropic이었습니다. 2025년 9월 29일 엔지니어링 블로그에서 Anthropic은 “컨텍스트 엔지니어링(Context Engineering)”이라는 개념을 공식 제시했습니다.
“프롬프트 엔지니어링은 LLM 지시를 어떻게 작성하고 구조화할지에 관한 것이었다. 컨텍스트 엔지니어링은 LLM 추론 중에 최적의 토큰 집합을 선택하고 유지하기 위한 전략의 집합이다.”— Anthropic Engineering Blog (2025.09.29)
핵심 원칙은 명확합니다: “컨텍스트는 한계 수익이 체감하는 유한한 자원으로 취급되어야 한다.” 무작정 많은 정보를 넣는 것이 아니라, 무엇을 포함하고 무엇을 제외할지가 결정적이라는 겁니다.
출처: Anthropic — Effective context engineering for AI agents (2025.09.29)
실제 워크플로우는 어떻게 달라졌을까?
구체적으로 어떻게 달라졌는지, 한 개발자의 경험이 잘 보여줍니다.
“예전에는 ‘X를 하는 함수를 작성해줘’라고 했다면, 이제는 ‘사용자가 구글로 로그인할 수 있게 해줘’라고 말한다. 그러면 에이전트가 어떤 파일을 수정할지 계획하고, 코드를 작성하고, 테스트를 실행하고, 버그를 찾고, 고치고, 다시 테스트한다. 전체 과정이 자율적인 루프 — 추론 → 행동 → 관찰 → 다시 추론 — 가 된다.”
Claude Opus 4.6의 출시와 함께 질적 전환도 일어났습니다. 이전에는 한 사람이 한 에이전트와 대화하는 구조였다면, 이제는 “AI 팀 리드”와 대화하는 것에 가깝습니다. 요구사항을 논의하고 계획을 확인하면, AI가 작업을 분해해서 프론트엔드, 백엔드, 테스팅, 문서화 등 전문 에이전트를 병렬로 생성합니다.
학계의 반응과 경고
2025년 12월, 미시간 대학교에서 “Professional Software Developers Don’t Vibe, They Control”이라는 arXiv 논문이 출판되었습니다. 한편, 567개의 Claude Code 생성 풀 리퀘스트를 분석한 연구에서는 83.8%가 수락되고 머지된 것을 확인했습니다.
다만 장기적 영향에 대한 경고도 있었습니다. Cursor 채택의 생산성 향상이 초기 1~2개월에 집중되고 이후 기준선으로 돌아가는 패턴이 발견되었는데, 개발 속도 증가가 코드베이스 크기 증가와 기술 부채 축적을 야기하여 결국 미래의 개발 속도를 감소시킬 수 있다는 분석입니다.
마무리: 1년 사이에 일어난 일
정리하면 이런 타임라인입니다.
| 시기 | 이벤트 |
|---|---|
| 2025년 2월 | Karpathy “바이브 코딩” 트윗, 450만 뷰 바이럴 |
| 2025년 2~5월 | Claude Code, Codex, Cursor 등 에이전틱 코딩 도구 출시 |
| 2025년 5~9월 | 바이브 코딩의 보안 취약점, 품질 저하, “숙취” 보고 |
| 2025년 9월 | Anthropic “컨텍스트 엔지니어링” 블로그 발표 |
| 2025년 10월 | Collins 사전 “바이브 코딩”을 올해의 단어로 선정 (역설적 시점) |
| 2025년 12월 | CodeRabbit AI 코드 품질 리포트 발표 |
| 2026년 2월 | Karpathy “에이전틱 엔지니어링” 선언 |
불과 1년 사이에, “코드를 읽을 필요도 없다”에서 “전문성과 감독이 더 중요해졌다”로 완전히 뒤집힌 셈입니다. 바이브 코딩은 AI 코딩의 가능성을 보여준 “첫 인상”이었고, 에이전틱 엔지니어링은 그것을 실제 프로덕션에 쓸 수 있도록 성숙시킨 “실무 버전”이라고 할 수 있겠네요.
중요한 것은, 이 전환이 AI 코딩의 퇴보가 아니라 진화라는 점입니다. 에이전트의 레버리지는 취하되, 소프트웨어 품질에는 타협하지 않는다 — 아마 앞으로의 AI 개발 시대를 관통하는 원칙이 되지 않을까 싶습니다.
📚 주요 출처