Originally written: August 2025 | Published on Gorilla PE Insights: March 2026
본 아티클은 2025년 8월 내부 파트너 공유 메모의 공개본입니다.
2025년 8월. DeepSeek 쇼크가 있었던 1월로부터 7개월이 지났다. 그 사이 시장은 빠르게 움직였다. 일부는 예상한 방향으로, 일부는 예상보다 복잡하게.
이 글은 "우리가 맞았다"는 기록이 아니다. 지금 AI 인프라 시장에서 실제로 무슨 일이 일어나고 있는지를 보고, 다음 관찰 대상이 어디로 이동하고 있는지를 쓴다.
1부. DeepSeek 이후 — 병목의 위치가 바뀌었다
추론이 새로운 전장이 됐다
DeepSeek 쇼크 직후 시장은 하나의 결론으로 달려갔다. 훈련 컴퓨트가 필요 없어졌다, GPU 수요가 꺾인다. NVIDIA 주가가 하루에 17% 빠졌다.
7개월이 지난 지금, 실제로 무슨 일이 일어났는가.
추론 트래픽이 폭발했다. 비용이 낮아지자 AI를 적용하는 서비스 수가 급증했고, 총 GPU 수요는 줄지 않았다. 변한 것은 방향이다. 거대 모델을 한 번 훈련하는 데 집중되던 컴퓨트가, 추론 단계에서 모델이 스스로 생각하는 시간(test-time compute scaling)으로 분산됐다. DeepSeek의 GRPO가 훈련 효율을 혁신했다면, 그 효율화된 기법 위에 다시 대규모 추론 컴퓨팅이 쌓이는 구조다.
이것이 수요 위치 이동이다. 컴퓨트의 총량이 줄어든 것이 아니라, 소비되는 레이어가 바뀌었다.
HBM — Memory Wall의 1차 파도
추론 컴퓨트가 폭발하면서 새로운 병목이 드러났다. KV Cache다. 컨텍스트 창이 128K에서 1M 토큰 이상으로 확장되면서, 단일 추론 세션이 H100 VRAM(80GB)을 수백 GB 단위로 초과하기 시작했다. HBM(High Bandwidth Memory) 수요가 사상 최대 수준으로 올라갔다. SK하이닉스는 HBM3E 공급이 수요를 따라가지 못해 웨이팅리스트가 6개월 이상이 됐다.
DeepSeek가 "GPU가 필요 없어졌다"는 공포를 촉발했지만, 그 귀결은 메모리 수요를 더 키웠다.
컴퓨트가 노는 경우가 생겼다
그런데 여기서 예상하지 못한 현상이 나타나기 시작했다.
클러스터가 설치됐는데 풀가동을 못 하는 사례들이 나오고 있다. GPU가 부족해서가 아니다. 전기가 부족하고, 열을 충분히 뺏지 못해서다.
NVIDIA Rubin GPU 한 개의 TDP(열설계전력)는 약 1,200W다. H100 클러스터로 꽉 찬 데이터센터 하나가 소비하는 전력은 중소도시 수준이다. 미국의 데이터센터 신규 전력 연결 대기 기간은 일부 지역에서 5년 이상이다. 건물은 지었는데 전기가 없어서 기다리는 상황이 실제로 발생하고 있다.
컴퓨트(GPU)가 병목이 아닌 구간이 처음으로 나타나기 시작했다. 병목이 실리콘에서 물리 인프라로 이동하기 시작하는 신호다.
2부. AI 모델 레이스 — 예상보다 복잡해진 구도
중소형 플레이어의 탈락
2023~2024년 "차세대 ChatGPT"를 자처했던 중소형 파운데이션 모델 회사들이 대부분 독립 사업자로 살아남지 못했다. Inflection AI는 Microsoft로 핵심 인력이 흡수됐고, Adept AI는 Amazon에 기술·인력이 이전됐다. 독점적 데이터, 충분한 컴퓨팅, 수익화 채널 — 이 세 가지 중 하나라도 없으면 경쟁이 어렵다는 것이 실증됐다.
이 방향이 예상보다 훨씬 빠르게, 더 극단적으로 일어났다.
대형 플레이어 간 구도 — 예상보다 어렵다
문제는 살아남은 플레이어들이다. 여기서 순위를 매기는 것이 18개월 전보다 훨씬 어려워졌다.
OpenAI: ARR $3.4B+, GPT-4o와 o 시리즈로 성능 개선이 이어지고 있다. Microsoft 통합으로 기업 시장에서 가장 넓은 분배 채널을 갖고 있다.
Google Gemini: 예상보다 강하게 반등했다. 100만 토큰 컨텍스트 창은 경쟁사를 구조적으로 앞선 도약이었다. 자체 TPU 인프라, YouTube 데이터, Search 트래픽의 수직통합이 실제로 작동하기 시작했다. 단순한 2위 추격자가 아닐 수 있다.
Meta: 가장 예상 밖이었다. Llama 오픈소스 전략이 생태계 표준화를 실제로 이끌기 시작했다. Ray-Ban 스마트글래스에 AI를 통합해 물리 세계 접점을 확보했고, 자체 광고 시스템에 AI를 전면 도입해 ROI를 실증했다. AI 인력 시장에서 최고 수준 연구자들이 Meta로 이동하는 속도가 빠르다.
Anthropic: 엔터프라이즈 계약 성장이 가파르다. Constitutional AI와 Interpretability 연구가 일부 기업 조달 기준에서 차별화 요인으로 등장하고 있다.
결론 — Foundation Model Gate에 일찍 진입한 것 자체는 방향이 맞았다. 그 안에서 누가 최종 승자인지는 오히려 더 불확실해졌다. 경쟁 자체가 더 복잡해졌다.
Physical AI — 방향은 옳고, 타임라인은 더 길다
2024년 4월 우리가 제시한 두 파도의 비대칭 방향은 유효하다. Tesla FSD v13.2가 고속도로 구간에서 700마일 이상 무개입 주행을 달성했고, Optimus 2세대의 공장 내 작업 영상이 공개됐다.
그러나 솔직하게 말하면, Physical AI의 본격적인 경제적 영향은 우리가 처음에 생각했던 것보다 2~3년은 더 걸릴 것 같다. 방향이 맞지만, 상업적 규모에 도달하는 시점이 밀리고 있다.
3부. 우리가 다음으로 보고 있는 것 — 물리 병목
열 · 전기 · 메모리
추론 컴퓨트가 폭발하고 AI 클러스터가 빠르게 증설되는데, GPU는 전기가 부족해서, 열을 못 뺏어서 노는 경우가 생기기 시작했다. 이것이 우리가 2025년 하반기부터 가장 주목하는 신호다.
열 — 냉각 병목: 기존 공랭 방식이 한계에 달하고 있다. 액체냉각, 이머전 쿨링으로의 전환이 불가피해지는 구간이 오고 있다.
전기 — 전력 주권: 데이터센터 건설 속도보다 전력 연결 속도가 느리다. 재생에너지는 간헐적이다. SMR은 방향은 맞지만 상용화까지 5~10년이 필요하다. 그 사이를 메우는 전력 솔루션이 필요하다. 우리가 검토했던 Amogy의 암모니아→수소→전력 기술이 이 맥락에서 나온 딜이다.
메모리 — 인터커넥트 병목: HBM 수요 폭발이 1차 파도라면, 서버 간 메모리 공유와 고속 인터커넥트(CXL 등 차세대 메모리 버스 표준들)를 통한 메모리 풀링이 2차 파도가 될 것이다. 에이전트 수가 폭발적으로 늘어나고 컨텍스트 창이 계속 커지면, 메모리와 대역폭 수요는 또 한 번 폭발한다.
컴퓨트 증설 속도는 사상 최대지만, 그 컴퓨트를 실제로 돌리는 데 필요한 전기와 냉각이 따라가지 못하고 있다. 실리콘이 병목이 아닌 구간이 처음으로 나타나기 시작했다. 가치는 병목에 쌓인다는 원칙은 여기서도 작동한다.
결론: 이 글을 처음 읽는 사람을 위한 정리
과점 수렴은 맞았다: 중소형 플레이어 대부분이 탈락하거나 대형 회사에 흡수됐다.
추론 컴퓨트 이동은 맞았다: DeepSeek 이후 HBM 수요가 사상 최대가 됐다.
승자 구도는 예상보다 복잡해졌다: OpenAI, Google Gemini, Meta, Anthropic — 각각이 서로 다른 경로에서 타당한 포지션을 구축하고 있다. 특정 회사를 지목하기는 어렵다.
다음 병목은 물리 인프라다: 전기, 열, 메모리·인터커넥트. 이 세 레이어에서 다음 제약이 형성되고 있다.
Foundation Model Gate 프리미엄은 유효하다: 일찍 진입한 회사들에 대한 프리미엄은 유지된다. 그 안의 순위는 더 지켜봐야 한다.
관찰은 계속된다. 다음 주제는 물리 병목이다.
[이후 전개]
2026년 3월, TurboQuant 사건(구글의 KV Cache 6배 압축 알고리즘 발표로 SK하이닉스·삼성전자 주가 급락)이 이 글의 논리를 다시 한번 확인시켜줬다. 효율 혁신은 메모리 수요를 없애지 않는다. 컨텍스트 창 확장과 에이전트 폭발이 절감분을 빠르게 재흡수했다.
본 글은 2025년 8월 기준 공개된 정보를 바탕으로 작성된 Gorilla PE의 시각을 기록한 것입니다. 투자 권유가 아닙니다.