Originally written: August 2025 | Published on Gorilla PE Insights: March 2026
본 아티클은 2025년 8월 내부 파트너 공유 메모의 공개본입니다.
2025년 8월. 딥시크 쇼크가 있었던 1월로부터 7개월이 지났다. 그 사이 시장은 빠르게 움직였다. 일부는 예상한 방향으로, 일부는 예상보다 복잡하게.
이 글은 "우리가 맞았다"는 기록이 아니다. 지금 AI 인프라 시장에서 실제로 무슨 일이 일어나고 있는지를 보고, 다음 관찰 대상이 어디로 이동하고 있는지를 쓴다.
1부. 딥시크 이후 — 병목의 위치가 바뀌었다
추론이 새로운 전장이 됐다
딥시크 쇼크 직후 시장은 하나의 결론으로 달려갔다. 훈련 컴퓨트가 필요 없어졌다, GPU 수요가 꺾인다. 엔비디아 주가가 하루에 17% 빠졌다.
7개월이 지난 지금, 실제로 무슨 일이 일어났는가. 추론 트래픽이 폭발했다. 비용이 낮아지자 AI를 적용하는 서비스 수가 급증했고, 총 GPU 수요는 줄지 않았다. 변한 것은 방향이다. 거대 모델을 한 번 훈련하는 데 집중되던 컴퓨트가, 추론 단계에서 모델이 스스로 생각하는 시간(test-time compute scaling)으로 분산됐다. 이것이 수요 위치 이동이다.
HBM — Memory Wall의 1차 파도
추론 컴퓨트가 폭발하면서 새로운 병목이 드러났다. KV Cache다. 컨텍스트 창이 128K에서 1M 토큰 이상으로 확장되면서, 단일 추론 세션이 H100 VRAM(80GB)을 수백 GB 단위로 초과하기 시작했다. HBM(High Bandwidth Memory) 수요가 사상 최대 수준으로 올라갔다. SK하이닉스 HBM3E 공급이 수요를 따라가지 못해 웨이팅리스트가 6개월 이상이 됐다.
Compute가 노는 경우가 생겼다
그런데 여기서 예상하지 못한 현상이 나타나기 시작했다. 클러스터가 설치됐는데 풀가동을 못 하는 사례들이 나오고 있다. GPU가 부족해서가 아니다. 전기가 부족하고, 열을 충분히 뺏지 못해서다.
NVIDIA Rubin GPU 한 개의 TDP(열설계전력)는 약 1,200W다. H100 클러스터로 꽉 찬 데이터센터 하나가 소비하는 전력은 중소도시 수준이다. 미국의 데이터센터 신규 전력 연결 대기 기간은 일부 지역에서 5년 이상이다. 병목이 실리콘에서 물리 인프라로 이동하기 시작하는 신호다.
2부. AI 모델 레이스 — 예상보다 복잡해진 구도
중소 플레이어의 탈락
2023~2024년 "차세대 ChatGPT"를 자처했던 중소형 파운데이션 모델 회사들이 대부분 독립 사업자로 살아남지 못했다. Inflection AI는 Microsoft로 핵심 인력이 흡수됐고, Adept AI는 Amazon에 기술·인력이 이전됐다. 독점적 데이터, 충분한 컴퓨팅, 수익화 채널 — 이 세 가지 중 하나라도 없으면 경쟁이 어렵다는 것이 실증됐다.
대형 플레이어 간 구도 — 예상보다 어렵다
OpenAI: ARR $3.4B+, GPT-4o와 o 시리즈로 성능 개선이 이어지고 있다. Microsoft 통합으로 기업 시장에서 가장 넓은 분배 채널을 갖고 있다.
Google Gemini: 예상보다 강하게 반등했다. 100만 토큰 컨텍스트 창은 경쟁사를 구조적으로 앞선 도약이었다. 자체 TPU 인프라, YouTube 데이터, Search 트래픽의 수직통합이 실제로 작동하기 시작했다.
Meta: Llama 오픈소스 전략이 생태계 표준화를 실제로 이끌기 시작했다. AI 인력 시장에서 최고 수준 연구자들이 Meta로 이동하는 속도가 빠르다.
Anthropic: 엔터프라이즈 계약 성장이 가파르다. Constitutional AI와 Interpretability 연구가 일부 기업 조달 기준에서 차별화 요인으로 등장하고 있다.
결론 — Foundation Model Gate에 일찍 진입한 것 자체는 방향이 맞았다. 그 안에서 누가 최종 승자인지는 오히려 더 불확실해졌다.
3부. 우리가 다음으로 보고 있는 것 — 물리 병목
열 · 전기 · 메모리
추론 컴퓨트가 폭발하고 AI 클러스터가 빠르게 증설되는데, GPU는 전기가 부족해서, 열을 못 뺏어서 노는 경우가 생기기 시작했다.
열 — 냉각 병목: 기존 공랭 방식이 한계에 달하고 있다. 액체냉각, 이머전 쿨링으로의 전환이 불가피해지는 구간이 오고 있다.
전기 — 전력 주권: 데이터센터 건설 속도보다 전력 연결 속도가 느리다. SMR은 방향은 맞지만 상용화까지 5~10년이 필요하다. 그 사이를 메우는 전력 솔루션이 필요하다.
메모리 — 인터커넥트 병목: HBM 수요 폭발이 1차 파도라면, 서버 간 메모리 공유와 고속 인터커넥트(CXL 등)를 통한 메모리 풀링이 2차 파도가 될 것이다. 에이전트 수가 폭발적으로 늘어나고 컨텍스트 창이 계속 커지면, 메모리와 대역폭 수요는 또 한 번 폭발한다.
Compute 증설 속도는 사상 최대지만, 그 Compute를 실제로 돌리는 데 필요한 전기와 냉각이 따라가지 못하고 있다. 가치는 병목에 쌓인다는 원칙은 여기서도 작동한다.
결론
과점 수렴은 맞았다. 추론 컴퓨트 이동은 맞았다. 승자 구도는 예상보다 복잡해졌다. 다음 병목은 물리 인프라다. 관찰은 계속된다.
[이후 전개]
2026년 3월, TurboQuant 사건(구글의 KV Cache 6배 압축 알고리즘 발표로 SK하이닉스·삼성전자 주가 급락)이 이 글의 논리를 다시 한번 확인시켜줬다. 효율 혁신은 메모리 수요를 없애지 않는다. 컨텍스트 창 확장과 에이전트 폭발이 절감분을 빠르게 재흡수했다.
투자 권유가 아닙니다.