터보퀀트 — 메모리를 아끼는 기술이 메모리를 더 귀하게 만드는 이유

2026년 3월 24일, 구글이 TurboQuant이라는 알고리즘을 발표했다. 이름부터 좀 괴랄하다 싶었는데, 내용을 읽어보니 AI 추론에 쓰이는 메모리를 확 줄여주는 기술이었다. 수치도 인상적이었다. 메모리 사용량 1/6, 연산 속도 최대 8배. 당연히 해외 기술 미디어들이 일제히 다뤘다.

그런데 한국 언론들의 반응이 흥미로웠다. 대부분의 기사가 “SK하이닉스 -6%, 삼성 -4%, 마이크론 -3%”라는 주가 하락 숫자로 시작해서 끝났다. 틀린 건 아닌데, 그게 전부였다. 왜 주가가 빠졌는지, 그 논리가 맞는지, 실제로 메모리 수요에 영향이 있을지 — 이런 맥락은 대부분 빠져 있었다. (쓰레기 언론개혁을 해야만 하는 이유다.)

VentureBeat, TechCrunch, The Next Web 같은 곳들은 기술 한계와 반론까지 같은 기사 안에 담았는데, 서울경제 영문판조차 “bulls counter AI adoption will boost demand”를 제목에 넣었다는 게 아이러니했다.

그래서 좀 제대로 파봤다. 기술부터 시작해서 차근차근 하나하나.

TurboQuant이 뭐냐고?

2026년 3월 24일, 구글 리서치가 발표한 알고리즘이다. KAIST 한인수 교수 팀, NYU, Google DeepMind가 같이 만들었고, ICLR 2026과 AISTATS 2026에서 발표될 예정이다.

AI가 텍스트를 생성할 때 “지금까지 이야기한 내용”을 임시로 기억해두는 공간이 있는데, 이걸 KV 캐시(Key-Value Cache)라고 부른다. 컨텍스트가 길어질수록 이 캐시가 메모리를 어마어마하게 잡아먹는다. TurboQuant은 이 KV 캐시를 3비트로 압축하는 기술이다. 기존 방식 대비 메모리 사용량을 최소 1/6로 줄이고, H100 GPU에서 연산 속도는 최대 8배 빨라진다. 정확도 손실은 없다고 한다.

VentureBeat는 AI 추론 비용 50% 이상 절감 가능성을 보도했고, Cloudflare CEO가 이걸 “구글의 딥시크 모먼트”라고 불렀다. 커뮤니티에서는 이미 llama.cpp에 포팅하는 사람들이 나왔다. 기술 자체는 진짜다.

근데 여기서 멈추면 안 된다.

기술적으로 봤을 때 한계가 있다

TurboQuant이 압축하는 건 추론(inference) 중 KV 캐시뿐이다. 모델 가중치가 차지하는 HBM, 학습(training) 워크로드에는 아무 영향이 없다. TechCrunch도 “학습에 필요한 대규모 RAM 수요에는 아무런 도움이 되지 않는다”고 짚었다.

게다가 현업에서는 AI 추론의 70~80%가 이미 FP8(8비트)로 돌아가고 있다. 비압축 32비트 대비 6배 절감이라는 수치는 실질적으로는 현재 실무 대비 약 2.6배 수준이다. 숫자가 과장돼서 퍼진 측면이 있다.

그리고 결정적으로, 지금까지 컴퓨팅 역사에서 “효율이 좋아지면 수요가 줄었던” 적이 단 한 번도 없었다.

제본스 역설 — 1865년에 이미 증명된 것

1865년 경제학자 윌리엄 스탠리 제본스는 The Coal Question에서 이런 관찰을 적었다. 증기기관의 효율이 좋아졌는데 석탄 소비가 줄기는커녕 폭발적으로 늘었다. 효율적인 엔진 덕분에 이전에는 경제성이 없던 수많은 곳에 증기력이 퍼졌기 때문이다.

이게 제본스 역설(Jevons Paradox)이다. 자원이 효율화될수록 총 소비가 늘어나는 현상. 수요의 탄력성이 높은 영역에서 작동한다.

2025년 1월 딥시크 발표 직후, 사티아 나델라(MS CEO)가 소셜미디어에 올린 글이 있다.

“제본스 역설이 다시 작동한다! AI가 효율적이고 접근 가능해질수록 사용량이 폭등해 결코 충분해지지 않을 것.”

수사가 아니다. 실증 데이터가 있다. AI 추론 비용은 2023년 초 이후 약 92% 하락했는데, 전 세계 AI 자본지출은 2026년 기준 약 6,500억 달러에 달한다. 영국 정부 기술전략가의 증언에 따르면 추론 비용이 50% 절감될 때마다 배포 요청은 200~300% 증가한다고 한다.

컴퓨팅 역사 80년이 똑같은 패턴이었다

메모리. Windows 1.0(1985) 최소 RAM이 256KB였다. Windows 11은 4GB를 요구한다. 36년간 약 16,000배 증가다. 지금 크롬 탭 하나가 약 240MB를 쓰는데, 이건 Windows XP 권장 RAM(128MB)의 2배다.

CPU. 1995년 프로그래밍 언어 Pascal을 만든 니클라우스 비르트가 이런 말을 남겼다. “소프트웨어는 하드웨어가 빨라지는 것보다 더 빠르게 느려진다.” Intel 80×86 프로세서가 335배 성능 향상을 이뤘지만, 소프트웨어 비대화가 이를 상쇄했다. 비르트의 법칙(Wirth’s Law)이라고 부른다. “앤디가 주는 것을 빌이 빼앗는다(Andy and Bill’s Law)”는 업계 격언도 같은 현상을 포착한다.

스토리지. 전 세계 생성·복제 데이터 총량은 2010년 2 제타바이트에서 2024년 149 제타바이트로 14년간 약 75배 폭증했다. 저장 공간이 늘어날수록 더 많이 저장했다.

통신 대역폭. 야콥 닐슨의 법칙에 따르면 인터넷 속도는 연 50%씩 성장했다. 300bps 모뎀 시절부터 지금까지, 빨라질 때마다 4K 스트리밍, 화상회의, 유튜브 같은 이전엔 불가능했던 것들이 생겨났다. 대역폭을 절약하거나 반납한 적은 없다.

AI에서도 같은 일이 벌어지고 있다

양자화로 모델 크기를 줄여도 모델 자체가 훨씬 빠르게 커지고 있다. GPT-1(2018)이 1.17억 파라미터, GPT-3(2020)이 1,750억, Llama 4 Behemoth(2025)는 약 2조 파라미터다. 양자화가 4~8배를 절감해도 모델은 10~40배씩 커졌다.

컨텍스트 윈도우도 마찬가지다. GPT-1의 512토큰에서 Gemini와 Llama 4 Scout는 1,000만 토큰을 지원한다. 7년간 약 20,000배 증가다. LLaMA 70B에서 128K 토큰 쿼리 하나만 처리해도 KV 캐시가 약 80GB를 잡아먹는다. H100 80GB GPU 한 대를 거의 다 쓴다는 얘기다.

그리고 메모리가 절약되면? 기업들은 같은 돈으로 더 많은 사용자에게 서비스하고, 더 많은 모델을 동시에 올리고, 더 큰 배치를 돌린다. 실증 데이터가 있다. Qwen3-32B 모델 BF16(61GB) 기준으로는 동시 사용자 4명밖에 못 받는데, INT4(18.1GB)로 양자화하면 47명 동시 서비스가 가능해진다. 처리량이 12배 증가다. 메모리를 반납하는 기업은 없다.

시장 데이터는 뭐라고 하나

NVIDIA GPU의 HBM 탑재량이 답해준다. A100(2020)에서 80GB HBM2e, H200(2024)에서 141GB HBM3e, B200(2025)에서 192GB HBM3e, 그리고 2026년 하반기 출시 예정 Vera Rubin은 288GB HBM4를 탑재한다. 6년간 GPU당 메모리가 3.6배 늘었다.

HBM 시장 자체가 폭발하고 있다. 매출이 2024년 약 170~180억 달러에서 2025년 약 340억 달러로 2배 성장했고(Yole Group 집계), 뱅크오브아메리카는 2026년을 546억 달러로 전망한다. HBM이 전체 DRAM 매출에서 차지하는 비중은 2023년 8%에서 2025년 33%로 뛰었다.

SK하이닉스의 2025년 실적이 이 흐름의 실체를 보여준다. 매출 97조 1,500억 원(+47% YoY), 영업이익 47조 2,100억 원(+101% YoY). 2025년 4분기 영업이익률이 58%다. 반도체 역사상 전례 없는 수준이다.

공급 측면은 더 빡빡하다. ADATA 회장이 “DRAM, NAND, HDD가 동시에 부족한 건 업계 30년 역사상 전례 없는 일”이라고 했고, SK하이닉스는 2025년 10월 실적 발표에서 2026년 HBM·DRAM·NAND 생산능력이 “사실상 완판”이라고 공시했다. 삼성 평택 P5와 SK하이닉스 용인 클러스터가 본격 가동되는 2028년 전까지는 의미 있는 공급 증가가 어렵다는 분석이 지배적이다.

월가의 반응

TurboQuant 발표 직후 주가가 빠졌을 때 주요 애널리스트들의 반응을 살펴보면 흥미롭다.

모건스탠리는 제본스 역설을 직접 인용하며 이렇게 말했다. “TurboQuant이 AI 운영 비용을 6분의 1로 낮추면, 비용 부담으로 AI 도입을 망설이던 기업들이 진입할 것이다. 총 메모리 수요를 줄이는 게 아니라 전체 AI 시장 파이를 키우는 촉매제가 될 것.”

삼성증권 이종욱 애널리스트는 더 직설적이었다. “AI 기업들이 비용이 아닌 성능을 놓고 경쟁하는 한, 비용 최적화가 반도체 수요에 영향을 주지 않는다. 걱정해야 할 때는 AI 기업들이 경쟁을 멈출 때다.”

Citrini Research의 비유가 특히 날카롭다. “이는 도요타가 차세대 하이브리드 엔진을 출시했다고 아람코 주가가 폭락해야 한다고 말하는 것과 같다.”

뱅크오브아메리카는 2026년을 “1990년대 붐과 유사한 슈퍼사이클”로 명명했고, 골드만삭스는 2026년 HBM 수요가 82% 급증할 것으로 전망한다.

그래서 결론은

TurboQuant은 기술적으로 훌륭하다. KV 캐시를 3비트로 압축하면서 정확도 손실 제로라는 건 진짜 인상적인 결과다.

근데 이게 메모리 수요를 줄인다는 건 160년 치 역사와 정면으로 충돌하는 주장이다. 효율이 좋아지면 → 비용이 낮아지면 → 이전엔 못 하던 것들을 하게 된다 → 총 수요가 늘어난다. 이 패턴은 석탄, 전력, 반도체, 인터넷 대역폭, 스토리지 어디에서도 예외 없이 반복됐다.

처음에 인용한 지인분의 글의 일부로 마무리한다.

“늘 메모리가 모자랐고, 늘 CPU 성능이 모자랐고, 늘 통신 속도가 모자랐다. 메모리는 더 귀해진다. 보나마나.”

딥시크 쇼크 때도 메모리 주가가 똑같이 빠졌다. 그 이후 12개월간 HBM 매출은 2배로 뛰었고 SK하이닉스 영업이익은 101% 성장했다. 역설이 또 작동할 차례다.

터보퀀트 — 메모리를 아끼는 기술이 메모리를 더 귀하게 만드는 이유

TurboQuant이 뭐냐고?

기술적으로 봤을 때 한계가 있다

제본스 역설 — 1865년에 이미 증명된 것

컴퓨팅 역사 80년이 똑같은 패턴이었다

AI에서도 같은 일이 벌어지고 있다

시장 데이터는 뭐라고 하나

월가의 반응

그래서 결론은

참고 자료

이것이 좋아요:

관련

댓글 남기기응답 취소

TurboQuant이 뭐냐고?

기술적으로 봤을 때 한계가 있다

제본스 역설 — 1865년에 이미 증명된 것

컴퓨팅 역사 80년이 똑같은 패턴이었다

AI에서도 같은 일이 벌어지고 있다

시장 데이터는 뭐라고 하나

월가의 반응

그래서 결론은

참고 자료

이 글 공유하기:

이것이 좋아요:

관련

댓글 남기기응답 취소