딥시크 쇼크 때도, SaaSpocalypse 때도지난주 TurboQuant 때도 시장은 먼저 팔았다그리고 거의 매번더 중요한 질문은 한참 뒤에야 등장했다효율이 높아졌다는 사실이 아니라그 효율이 수요와 병목을 어디로 옮기느냐는 질문이다.

 

기술 혁신은 수요를 없애지 않는다수요의 위치를 바꾼다비용이 내려간 층에서는 사용량이 폭증하고병목이 된 층에서는 가치가 쏠린다.

 

세 사건을 다시 들여다보면 공통된 구조가 보인다.

 

 

딥시크·Kimi K2 — 스케일링은 끝난 것이 아니라 분산됐다

 

2025 1월 딥시크 충격으로 엔비디아 시가총액은 하루 만에 약 5,900억 달러 증발했다중국 스타트업이 미국 대비 1/30 비용으로 동급 모델을 만들었다는 소식에 시장은 즉각 결론을 냈다. GPU가 덜 필요해질 것이다같은 해 7 Moonshot AI Kimi K2가 코딩·추론 벤치마크에서 GPT 계열을 앞서자 유사한 공포가 반복됐다. Nature지가 "또 하나의 딥시크 모멘트"라고 부른 바로 그 사건이다.

 

시장의 논리는 단순했다효율이 좋아졌다 → GPU 수요가 줄어든다인과 사슬의 첫 번째 고리에서 멈춘 것이다.

 

그러나 딥시크와 K2가 실제로 증명한 것은 무엇인가스케일링 법칙의 종말이 아니었다스케일링의 위치가 바뀌었다는 것이다거대 모델을 한 번 훈련(pre-training)하는 데 집중되던 컴퓨트가이제는 추론 단계에서 강화학습(RL)을 수백만 번 반복하며 모델이 스스로 개선하는 데 쓰인다파라미터와 데이터컴퓨트를 더 많이 투입할수록 능력이 도약한다는 원리 자체는 그대로다달라진 것은 그 컴퓨트가 소비되는 위치다.

 

더 정확히 말하면 이렇다딥시크 이전에는 훈련 단계가 컴퓨트의 중심이었다딥시크 이후에는 추론 단계가 새로운 컴퓨트 소비처로 부상했다추론 트래픽은 오히려 폭증했다비용이 낮아지자 더 많은 서비스가 더 많은 추론 요청을 쏟아냈다엔비디아 주가는 한 달 남짓한 기간에 낙폭 대부분을 만회했다.

시장은 이를 수요 파괴로 읽었지만실제로는 수요의 이동이었다.

 

 

SaaSpocalypse — 에이전트는 판단을 자동화하지만책임은 자동화할 수 없다

2026 2 Anthropic발 워크플로우 자동화 공포는 하루 만에 약 2,850억 달러 규모의 소프트웨어·금융주 매도를 촉발했다. 3월에도 유사한 불안이 다시 고개를 들었다. AI 에이전트가 소프트웨어를 통째로 대체할 것이라는 공포에 Workday, ADP, Intuit, ServiceNow가 무차별 투매됐다.

이번에도 시장은 인과 사슬의 첫 번째 고리에서 멈췄다에이전트가 소프트웨어 기능을 수행한다 → 소프트웨어가 필요 없어진다.

 

그러나 여기에는 세 겹의 잠금 구조가 있다.

 

첫째공학적 잠금이다Workday가 급여를 계산하는 로직은 Workday 서버 내부에서 실행된다. AI 에이전트는 Workday가 허용한 API를 통해 결과를 받을 수 있을 뿐그 계산 로직 자체를 대체할 수 없다. 150개국의 세율과 퇴직금 규정을 처리하는 수만 줄의 비즈니스 규칙이 서버사이드에 내장돼 있다에이전트는 이 시스템의 입력 창구를 대체할 수 있어도시스템 자체를 우회할 수 없다.

 

둘째법적·제도적 잠금이다AI가 급여 계산에서 오류를 냈을 때 누가 책임지는가기업은 여전히 SOX 체계 아래서 통제승인감사 추적을 증빙해야 하며확률적 AI의 출력만으로 이를 대체하기는 어렵다. EU AI Act 역시 고위험 AI 시스템에 인간 감독과 추적 가능성을 요구한다보험업계 역시 AI 관련 책임 범위를 더 명확히 구분하는 방향으로 움직이고 있다이는 기업들이 핵심 프로세스에서 결정론적 시스템을 유지해야 할 경제적 유인을 강화한다.

 

셋째구조적 수요 증가다에이전트가 늘어날수록 기업 내 확률적 프로세스가 증가한다오류 가능성이 올라가면 핵심 프로세스에서 결정론적 시스템의 역할은 줄어드는 것이 아니라 오히려 커진다에이전트가 늘어날수록 이 시스템을 통과하는 트랜잭션은 오히려 늘어날 가능성이 크다.

에이전트는 판단을 자동화하지만그 판단의 책임 소재는 자동화할 수 없다시장은 소프트웨어의 소멸을 상상했지만실제로 강화되는 것은 system of record의 가치다.

 

 

TurboQuant — 6배 줄여도, 10·15배 늘어나면

 

지난주 구글 리서치가 발표한 TurboQuant — KV 캐시 메모리를 6배 압축하는 알고리즘으로당일 삼성전자·SK하이닉스 주가를 끌어내린 그 논문 — 는 이 구조를 가장 선명하게 보여줬다시장은 또 같은 논리를 적용했다. 6배 압축 → 메모리 수요 감소 → 메모리 반도체를 팔아라.

 

여기서 먼저 기술적 사실을 확인할 필요가 있다. LLM 추론은 두 단계로 나뉜다. Prefill 단계는 입력 전체를 한 번에 처리하는 연산 집약적 구간이고, Decode 단계는 토큰을 하나씩 생성하면서 이전에 계산한 KV 캐시를 반복해서 참조하는 메모리 집약적 구간이다사용자가 체감하는 응답 속도는 대부분 Decode 단계가 결정한다. TurboQuant가 압축하는 것은 바로 이 Decode 단계의 KV 캐시다.

 

문제는 TurboQuant가 건드리지 않는 것들이다모델 학습 가중치(weights)는 압축 대상이 아니다훈련 워크로드는 KV 캐시와 무관하다 "6배 압축"은 전체 메모리 수요의 6분의 1이 아니라추론 과정의 특정 구간에 국한된 이야기다.

 

다시 말해시장은 "무엇이 압축됐는가"만 봤고, "무엇이 훨씬 더 빠르게 팽창하고 있는가"는 놓쳤다.

 

지난 20년간 서버 연산 능력은 2년마다 약 3배씩 증가했지만 메모리 대역폭은 같은 기간 1.6배 증가에 그쳤다. GPU는 데이터를 처리하는 속도가 데이터를 받아오는 속도보다 훨씬 빠르다업계 연구에 따르면 Decode 단계에서 Attention 연산 사이클의 50% 이상이 메모리 응답을 기다리는 대기 시간이다. GPU가 이론 성능의 절반을 메모리 기다리는 데 낭비하고 있는 것이다이 격차는 알고리즘 하나로 사라지지 않는다.

 

그리고 수요 측면에서 두 가지가 동시에 폭발하고 있다하나는 컨텍스트 창의 팽창이다상용 AI 모델의 컨텍스트 창은 불과 1~2년 만에 128K 토큰에서 1M~2M 토큰급으로 확대됐다같은 구글 딥마인드는 연구에서 이를 다시 10M 토큰까지, 5배 이상 더 확장하는 실험을 했다컨텍스트 창이 커질수록 KV 캐시 수요는 그 이상으로 증가한다다른 하나는 에이전트 폭발이다에이전트 하나가 수십 단계의 판단을 반복하며 도구를 호출하고 결과를 기억하는 과정에서 생성하는 KV 캐시는 단순 대화와 비교할 수 없을 만큼 크다에이전트 수가 수백 배 늘어나면, KV 캐시를 6배 줄여도 총수요는 오히려 폭발한다.

 

시장이 착각하는 것은 메모리 수요의 종말이 아니라메모리 수요가 줄어들 것이라는 착시다.

 

 

세 사건이 말하는 하나의 구조

효율이 개선된다 → 단위 비용이 낮아진다 → 사용량이 폭증한다 → 병목이 이동한다 → 새로운 병목을 가진 자산의 가치가 올라간다.

 

시장은 첫 번째 고리에서 멈추고투자자는 마지막 고리를 봐야 한다.

 

딥시크는 훈련에서 추론으로 컴퓨트 수요를 옮겼다. SaaSpocalypse는 인간 사용자에서 에이전트로 소프트웨어 사용 주체를 바꿨지만 back-end 시스템의 중요성을 강화했다. TurboQuant KV 캐시를 압축했지만 컨텍스트 창과 에이전트 수요가 그 절감분을 훨씬 빠르게 다시 흡수하고 있다세 경우 모두 병목은 사라지지 않았다단지 더 뒤로 밀렸을 뿐이다.

 

물론 모든 자산이 살아남는 것은 아니다일부 UI-layer 소프트웨어와 특정 하드웨어 수요는 단기 압박을 받을 수 있다그러나 시장이 반복해서 틀리는 지점은 개별 제품의 약세를 산업 전체의 소멸로 오독한다는 데 있다.

 

술은 수요를 없애기보다 병목을 옮긴다. AI는 지능의 희소성을 낮추지만물리와 제도의 희소성까지 없애지는 못한다그래서 승자는 늘 병목의 끝에서 나온다.

AI 시대의 승자는 지능을 파는 자가 아니라지능이 반드시 통과해야 하는 병목을 쥔 자다.

 

다음 편에서 다룰 질문

이 글이 던지는 다음 질문은 명확하다지능이 반드시 통과해야 하는 병목은 구체적으로 어디에 있는가.

나는 미국 비상장 프리IPO 기업에 집중하는 사모펀드 고릴라PE를 운영한다. SpaceX, xAI 등에 국내 최초로 초기 투자한 경험을 바탕으로, AI가 산업 구조를 바꾸는 과정에서 실제로 돈이 어디에 있는지를 쓴다.

다음 편: "지능이 반드시 통과해야 하는 병목 — 그 이름은 Memory Wall이다."

컨텍스트 창이 계속 커지고 에이전트가 폭발적으로 늘어날 때그 병목의 실체가 어디에 있는지그리고 지금 어느 비상장 기업이 그 자리에 서 있는지.