'딥시크 쇼크': AI 군비 경쟁 본격화의 신호탄
이용권 | 고릴라PE 파트너 | 2025.02
실리콘밸리를 뒤흔든 지진
2025년 1월 말, 기술 업계의 심장부인 실리콘밸리는 전례 없는 충격에 휩싸였다. 1월 27일, 나스닥 지수는 3.1% 급락했으며, AI 칩의 제왕 엔비디아(NVIDIA)는 단 하루 만에 약 6,000억 달러에 달하는 시가총액을 잃었다. 미국 증시 역사상 단일 기업 최대 일일 손실 기록이었다. 미국 기술 시장 전체에서 1조 달러 이상이 증발했다.
이 사건의 진원지는 시장 붕괴나 경제 위기가 아니었다. 설립된 지 불과 1년, 직원이 200명도 채 되지 않는 중국의 작은 스타트업 딥시크(DeepSeek)가 발표한 모델 하나였다.
이 글의 핵심 질문은 이것이다. 딥시크의 성과는 값비싼 AI 개발 경쟁의 완화를 예고하는 것처럼 보였다. 그러나 우리는 정반대의 결론을 제시한다. 이 사건은 오히려 전략적 지형을 명확히 했으며, 미국 하이퍼스케일러(HyperScaler)들이 주도하는 막대한 자본 기반의 AI 군비 경쟁을 전례 없는 수준으로 격화시키는 기폭제가 됐다.
딥시크 쇼크는 중국의 혁신 역량을 증명했지만, 역설적으로 스케일링 법칙(Scaling Law)의 절대적 우위를 재확인시켜 주었다. '충분히 좋은(good enough)' AI 모델 개발의 진입 장벽은 낮아졌지만, 시장을 지배할 진정한 프론티어(frontier) 모델 개발 비용은 그 어느 때보다 높아졌다.
딥시크의 혁신 전략
What: 파격적인 가격의 프론티어 모델
딥시크 쇼크의 핵심은 2025년 1월 20일에 공개된 R1 모델이다. 이 모델은 추론, 수학, 코딩과 같은 핵심 벤치마크에서 OpenAI의 o1 모델과 대등하거나 일부 능가하는 성능을 보였다. 가장 충격적인 부분은 비용이었다. GPT-4와 같은 미국 모델의 훈련 비용이 약 1억 달러로 추정되는 반면, 딥시크 R1의 훈련 비용은 약 600만 달러에 불과했다. 이는 16,000개 이상의 최고 사양 엔비디아 H100 GPU를 사용하는 미국 모델과 달리, 미국의 무역 제재 하에 중국 수출용으로 설계된 저사양 칩인 H800 GPU 약 2,000개만으로 달성한 성과였다.
How to (1): 강화학습(RL)으로의 패러다임 전환
딥시크의 성공은 단순히 비용을 절감한 것을 넘어, AI 훈련 방법론 자체에 대한 근본적인 질문을 던졌다. 기존 미국 모델들이 주로 사용하는 방식은 인간 피드백 기반 강화학습(RLHF)이다. 이는 방대한 양의 인간 레이블링 데이터를 통해 별도의 보상 모델(reward model)을 훈련시킨 후, 이를 이용해 언어 모델을 최적화하는 복잡하고 비용이 많이 드는 프로세스다.
딥시크는 이와 다른 두 가지 혁신적인 경로를 개척했다. 첫째, 딥시크-R1-제로(DeepSeek-R1-Zero) 모델을 통해 지도 미세조정(SFT) 단계 없이 순수한 강화학습만으로 추론 능력을 이끌어낼 수 있음을 세계 최초로 증명했다. 이는 AI 연구 분야의 근본적인 돌파구다.
둘째, 실제 출시된 딥시크-R1 모델에는 그룹 상대적 정책 최적화(GRPO)라는 새로운 기법을 적용했다. GRPO는 인간이 만든 보상 모델에 의존하는 대신, '코드가 컴파일되었는가?', '수학 문제의 답이 맞는가?'와 같이 자동으로 검증 가능한 보상을 사용하여 모델을 직접 최적화한다. 이 방식은 데이터 레이블링에 드는 막대한 비용과 시간을 극적으로 줄여준다.
How to (2): 전문가 혼합(MoE)을 통한 아키텍처 효율성 극대화
딥시크는 또한 전문가 혼합(MoE, Mixture of Experts) 아키텍처를 효과적으로 활용했다. MoE는 거대한 단일 모델 대신, 다수의 작은 '전문가' 하위 네트워크로 모델을 구성하는 기술이다. 특정 입력이 주어지면 게이팅 네트워크가 가장 관련성 높은 소수의 전문가만을 활성화하여 작업을 처리한다. 핵심 목표는 모델의 전체 파라미터 수를 늘리면서도, 추론 시에는 모델의 일부만 활성화하여 연산 비용의 비례적 증가를 억제하는 것이다.
오픈소스 채택의 전략적 승부수
결정적으로 딥시크는 R1 모델의 가중치(weights)를 즉시 오픈소스로 공개했다. 미국 대통령 취임일과 맞물린 이 발표는 명백한 전략적 신호였다. 이는 딥시크를 단순한 경쟁자를 넘어 글로벌 개발자 커뮤니티의 기여자로 포지셔닝했으며, OpenAI와 Anthropic이 주도하는 폐쇄형 모델 패러다임에 정면으로 도전했다.
이러한 기술적, 전략적 움직임은 딥시크의 혁신이 단순한 모방이 아닌, 주어진 제약 조건에 대한 창의적인 대응이었음을 보여준다. 미국의 수출 통제로 최고 사양 H100 GPU에 접근이 제한되자, 딥시크는 저사양 H800 칩의 성능을 극대화해야 했다. 동시에 막대한 비용이 드는 RLHF 방법론을 감당할 수 없었기에 GRPO라는 새로운 대안을 개발했다.
제약이 비대칭적 혁신을 촉발한 것이다.
빅테크 제국의 역습: 스케일링 법칙이 깨지지 않는 이유
흔들리지 않는 규모의 법칙
딥시크의 효율성 혁신이 시장을 강타했지만, AI 개발의 근본 원리는 변하지 않았다. 스케일링 법칙(Scaling Law)이다. 모델의 성능이 파라미터 수(N), 데이터셋 크기(D), 컴퓨팅 양(C)이 증가함에 따라 예측 가능한 방식으로 향상된다는 경험적으로 관찰된 법칙이다. AI 성능의 절대적인 최전선에 도달하기 위해서는 이 세 가지 요소 모두를 전례 없는 수준으로 확장해야 하고, 이 비용은 기하급수적으로 증가한다.
딥시크 개발진들조차 스케일링 법칙에 근거해서 모델을 개발했음을 직접적으로 시인했다. 딥시크 출시와 함께 발표한 논문 "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism"의 첫 문단이다.
"Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective."
더욱이 딥시크의 비용 효율성에는 공개되지 않은 부분이 존재한다. 훈련 과정에서 활용한 콜드 스타트 데이터와 합성 데이터는 모델 가중치와 달리 오픈소스로 공개되지 않았으며, 이를 생성하는 데 필요한 비용 역시 알려지지 않았다. 딥시크가 발표한 600만 달러라는 훈련 비용은 전체 개발 비용의 일부에 불과할 수 있다.
공황에서 재확신으로: 하이퍼스케일러의 대응
초기의 시장 급락은 작은 스타트업이 이토록 효과적으로 경쟁할 수 있다면, AI 인프라에 투자된 수십억 달러가 잘못된 베팅일 수 있다는 공포에 대한 반사적인 반응이었다. 그러나 시장은 빠르게 반등했다. 딥시크가 경쟁력 있는 AI의 '바닥(floor)'은 낮췄지만, 진정으로 시장을 지배할 차세대 AI의 '천장(ceiling)'은 여전히 스케일링 법칙에 의해 결정된다는 점을 시장이 이해하기 시작했기 때문이다.
딥시크 쇼크 이후 오히려 더욱 확고해진 하이퍼스케일러들의 자본 지출(capex) 계획이 이를 증명한다.
• 마이크로소프트: 2025 회계연도 약 800억 달러, 이듬해 1,000억 달러 이상 예정
• 메타: 600억~650억 달러
• 아마존: 1,000억 달러 목표
• 알파벳(구글): 850억 달러
이 숫자들은 단순한 예산이 아니다. 논점은 '이 지출이 현명한가?'에서 '이 지출은 국가 및 경제 안보를 위한 전략적 필수 요소인가?'로 전환됐다. 딥시크는 역설적으로 하이퍼스케일러들에게 전략적 정당성을 부여했다.
데이터와 유통망이라는 해자
컴퓨팅 파워 외에도 하이퍼스케일러들은 두 가지 결정적인 우위를 점하고 있다. 방대한 독점 데이터와 글로벌 유통 채널이다. xAI는 X(구 트위터)의 실시간 데이터 스트림을 Grok 모델 훈련에 활용하고, 마이크로소프트는 OpenAI의 기술을 자사의 방대한 기업 소프트웨어 제품군에 직접 통합한다. 컴퓨팅, 독점 데이터, 고객 접근성의 결합은 단순한 효율성만으로는 넘을 수 없는 다층적 해자를 구축한다.
AI 경쟁의 두 가지 층위
딥시크 쇼크는 글로벌 AI 시장을 두 개의 층으로 명확히 분화시켰다.
1계층: 프론티어 모델 계층. 최첨단 성능을 차지하기 위한 고위험, 자본 집약적 전쟁이다. 미국 하이퍼스케일러들과 잠재적으로 중국의 국가 지원을 받는 챔피언들 사이에서 벌어지는 지정학적 'AI 군비 경쟁'이 실제로 펼쳐지는 무대다.
2계층: 오픈소스 기반 응용 계층. 딥시크 R1이나 메타의 Llama 같은 고품질 오픈소스 모델 덕분에, 혁신과 가치 창출이 응용 계층에서 일어나는 생태계가 부상하고 있다. 기업들은 최고의 기반 모델을 만드는 대신, 이러한 모델을 특정 제품과 서비스에 통합하는 데서 경쟁하게 될 것이다.
AI 경쟁의 본질은 알고리즘 경쟁에서 산업 규모의 공급망 경쟁으로 전환되고 있다. 핵심 경쟁 지표는 자본 지출 예산, GPU 클러스터 규모, 데이터 처리량으로 바뀌고 있다. 이는 소수의 조 단위 기업만이 참여할 수 있는 게임이다.
맺는말
2025년 1월의 '딥시크 쇼크'는 미국 AI 패권 종말을 알리는 서곡이 아니었다. 초기 국면의 종결, 본격적인 경쟁 시대의 개막이었다.
딥시크의 경이적인 효율성은 스케일링 법칙을 부정한 것이 아니라, 그것의 유효성과 한계를 동시에 입증했다. 단호한 기술 추격자가 얼마나 빠르게 혁신을 실현할 수 있는지를 보여줌으로써, 딥시크는 역설적으로 미국 하이퍼스케일러들에게 그들의 핵심 경쟁력인 자본력과 인프라를 총동원할 수 있는 전략적 정당성을 부여했다.
그런데 여기서 글을 쓰며 남긴 질문이 있었다. 스케일링이 끝난 것이 아니라 강화됐다면 — 그 컴퓨트는 어디서 소비되는가. 딥시크 이후 훈련 중심이던 컴퓨트는 추론, 에이전트, 툴 사용 전반으로 분산되기 시작했다. 그 분산이 어디서 새로운 병목을 만들고, 누가 그 병목을 갖게 되는가
※ 이 글은 필자의 개인적 견해이며, 특정 종목에 대한 투자 권유가 아닙니다.