실리콘밸리를 뒤흔든 지진

2025년 1월 말, 기술 업계의 심장부인 실리콘밸리는 전례 없는 충격에 휩싸였다. 1월 27일, 나스닥 지수는 3.1% 급락했으며, AI 칩의 제왕 엔비디아(NVIDIA)는 단 하루 만에 약 6,000억 달러에 달하는 시가총액을 잃었다. 이는 미국 증시 역사상 단일 기업 최대 일일 손실 기록이었다. 이 여파로 미국 기술 시장 전체에서 1조 달러 이상이 증발했다.1 ‘딥시크 쇼크(DeepSeek Shock)’라 명명된 이 사건의 진원지는 시장 붕괴나 경제 위기가 아니었다. 설립된 지 불과 1년, 직원이 200명도 채 되지 않는 중국의 작은 스타트업, 딥시크(DeepSeek)가 발표한 보도자료 하나가 그 원인이었다.3
이 Article의 핵심은 바로 이 사건이 내포한 역설을 분석하는 데 있다. 딥시크의 R1 모델은 세계 최고 수준의 독점 모델들과 거의 대등한 성능을 극히 일부의 비용으로 달성했다.5 자본과 자원의 ‘효율성’을 극적으로 증명한 이 성과는 값비싼 AI 개발 경쟁의 완화를 예고하는 것처럼 보였다. 그러나 본 보고서는 정반대의 결론을 제시한다. 이 사건은 오히려 전략적 지형을 명확히 했으며, 미국 하이퍼스케일러(HyperScaler)들이 주도하는 막대한 자본 기반의 AI 군비 경쟁을 전례 없는 수준으로 격화시키는 기폭제가 될 것이다.
딥시크 쇼크는 중국의 부상하는 혁신 역량을 증명했지만, 역설적으로 스케일링 법칙(Scaling Law)의 절대적 우위를 재확인시켜 주었다. ‘충분히 좋은(good enough)’ AI 모델 개발의 진입 장벽은 낮아졌지만, 시장을 지배할 진정한 프론티어(frontier) 모델 개발 비용은 그 어느 때보다 높아졌다는 사실이 명백해졌다. 이는 결국 미국 하이퍼스케일러들의 전략적 우위를 공고히 하고, 더욱 격렬한 자본 중심의 지정학적 경쟁 시대를 열고 있다.
 


딥시크의 혁신 전략

What: 파격적인 가격의 프론티어 모델

딥시크 쇼크의 핵심은 2025년 1월 20일에 공개된 R1 모델이다.5 이 모델은 추론, 수학, 코딩과 같은 핵심 벤치마크에서 OpenAI의 o1 모델과 대등하거나 일부 능가하는 성능을 보였다.6 가장 충격적인 부분은 비용이었다. GPT-4와 같은 미국 모델의 훈련 비용이 약 1억 달러로 추정되는 반면, 딥시크 R1의 훈련 비용은 약 600만 달러에 불과했다.1 이는 프론티어 모델 훈련에 1억 달러 이상을 지출하는 미국 빅테크 기업들과 비교해 90% 이상 비용을 절감한 수치다. 이는 16,000개 이상의 최고 사양 엔비디아 H100 GPU를 사용하는 미국 모델과 달리, 미국의 무역 제재 하에 중국 수출용으로 설계된 저사양 칩인 H800 GPU 약 2,000개만으로 달성한 성과였다.1 당시 애널리스트 추정가로 개당 25,000달러에서 30,000달러에 달했던 H100 GPU와 달리 34, H800 GPU는 성능에 제약이 있었지만 딥시크는 이를 알고리즘의 효율성으로 극복했다.

How to (1): 강화학습(RL, Reinforced Learning)으로의 패러다임 전환

딥시크의 성공은 단순히 비용을 절감한 것을 넘어, AI 훈련 방법론 자체에 대한 근본적인 질문을 던졌다. 기존 미국 모델들이 주로 사용하는 방식은 인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback)이다. 이는 방대한 양의 인간 레이블링 데이터를 통해 별도의 ‘보상 모델(reward model)’을 훈련시킨 후, 이를 이용해 언어 모델을 최적화하는 복잡하고 비용이 많이 드는 프로세스다.8
딥시크는 이와 다른 두 가지 혁신적인 경로를 개척했다. 첫째, 딥시크-R1-제로(DeepSeek-R1-Zero) 모델을 통해 지도 미세조정(SFT, Supervised Fine-Tuning) 단계 없이 순수한 강화학습만으로 추론 능력을 이끌어낼 수 있음을 세계 최초로 증명했다.7 이는 AI 연구 분야의 근본적인 돌파구다.
둘째, 실제 출시된 딥시크-R1 모델에는 그룹 상대적 정책 최적화(GRPO, Group Relative Policy Optimization)라는 새로운 기법을 적용했다. GRPO는 인간이 만든 보상 모델에 의존하는 대신, ‘코드가 컴파일되었는가?’, ‘수학 문제의 답이 맞는가?’와 같이 자동으로 검증 가능한 보상을 사용하여 모델을 직접 최적화한다.11 이 방식은 PPO(Proximal Policy Optimzation: 근접정책 최적화)/RLHF 접근법에 비해 데이터 레이블링에 드는 막대한 비용과 시간을 극적으로 줄여준다. 이는 기존의 AI 훈련 방식이 가진 병목 현상을 우회하는 독창적인 해결책이다.

How to (2): 전문가 혼합(MoE)을 통한 아키텍처 효율성 극대화

딥시크는 또한 전문가 혼합(MoE, Mixture of Experts) 아키텍처를 효과적으로 활용했다.1 MoE는 거대한 단일 모델 대신, 다수의 작은 ‘전문가’ 하위 네트워크로 모델을 구성하는 기술이다. 특정 입력이 주어지면 ‘게이팅 네트워크(gating network)’가 가장 관련성 높은 소수의 전문가(예: 8개 중 2개)만을 활성화하여 작업을 처리한다.13 MoE의 핵심 목표는 모델의 전체 파라미터 수(즉, 지식 용량)를 늘리면서도, 추론 시에는 모델의 일부만 활성화하여 연산 비용의 비례적 증가를 억제하는 데 있다.15 이는 제한된 컴퓨팅 자원으로 최대의 성능을 끌어내기 위한 핵심 전략이다. MoE 아키텍처 자체는 새로운 개념이 아니었지만, 이전의 시도들이 단순히 학문적 발견에 그쳤다면 딥시크는 이를 통해서 상용성 높은 준(準) 프론티어 모델을 구현해냈다는 점에서 중요한 의미를 갖는다.

오픈소스 채택의 전략적 승부수

결정적으로 딥시크는 R1 모델의 가중치(weights)를 즉시 오픈소스로 공개했다.4 미국 대통령 취임일과 맞물린 이 발표는 명백한 전략적 신호였다.5 이는 딥시크를 단순한 경쟁자를 넘어 글로벌 개발자 커뮤니티의 기여자로 포지셔닝했으며, OpenAI와 앤스로픽(Anthropic)이 주도하는 폐쇄형 모델 패러다임에 정면으로 도전했다. 그 결과, 딥시크 앱은 며칠 만에 미국 iOS 앱스토어에서 ChatGPT를 제치고 다운로드 1위를 차지하는 기염을 토했다.1
이러한 기술적, 전략적 움직임은 딥시크의 혁신이 단순한 모방이 아닌, 주어진 제약 조건에 대한 창의적인 대응이었음을 보여준다. 미국의 수출 통제로 인해 최고 사양의 H100 GPU에 대한 접근이 제한되자 16, 딥시크는 저사양 H800 칩의 성능을 극대화해야 했다. 동시에 막대한 비용이 드는 RLHF 방법론을 감당할 수 없었기에, GRPO라는 새로운 대안을 개발했다. 이는 제약이 어떻게 비대칭적 혁신을 촉발할 수 있는지 보여주는 명백한 사례다.
더 나아가, 딥시크 쇼크가 시장에 던진 충격은 단순히 비용 효율성에 대한 놀라움이 아니었다. 이는 미국이 가진 ‘방법론적 해자(methodological moat)’가 침식될 수 있다는 인식에서 비롯되었다. 그동안 미국의 AI 리더십은 우월한 하드웨어(엔비디아), 막대한 자본, 그리고 선도적인 개발 방법론(RLHF)이라는 세 기둥 위에 서 있다고 여겨졌다. 그러나 딥시크는 열등한 하드웨어와 적은 자본으로도 프론티어급 성능에 도달할 수 있음을 증명했고, 더 중요하게는 GRPO와 순수 강화학습 실험을 통해 RLHF가 고도의 추론 능력을 달성하는 유일한 길이 아님을 보여주었다. 이는 미국의 기술적 우위가 생각보다 취약할 수 있다는 위기감을 불러일으켰다.




 

빅테크 제국의 역습: 스케일링 법칙이 깨지지 않는 이유

 

흔들리지 않는 규모의 법칙

딥시크의 효율성 혁신이 시장을 강타했지만, AI 개발의 근본 원리는 변하지 않았다. 바로 스케일링 법칙(Scaling Law)이다. 이는 모델의 성능(테스트 손실로 측정)이 세 가지 핵심 요소, 즉 모델 파라미터 수(N), 데이터셋 크기(D), 그리고 훈련에 사용되는 컴퓨팅 양(C)이 증가함에 따라 예측 가능한 방식으로 향상된다는 경험적으로 관찰된 법칙이다.17 핵심은 AI 성능의 절대적인 최전선에 도달하기 위해서는 이 세 가지 요소 모두를 전례 없는 수준으로 확장해야 하고 이 비용은 성능 개선폭의 세제곱 이상으로 기하급수적으로 증가함에 있다



딥시크 개발진들 조차 scaling law에 근거해서 모델을 개발했음을 직접적으로 시인하고 있으며, 딥시크 출시와 함께 발표한 자체 논문들 중 - "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism"은 딥시크의 기술 철학을 가장 직접적으로 보여주는 핵심자료이자 첫문단부터 스케일링 법칙이 이들 기술의 근간임을 밝히고 있다

 "Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective."
"스케일링 법칙의 안내에 따라, 우리는 장기적인 관점에서 오픈소스 언어 모델을 발전시키기 위한 프로젝트인 딥시크 LLM을 소개합니다."
더욱이 딥시크의 비용 효율성에는 공개되지 않은 부분이 존재한다. 딥시크 R1 모델은 훈련 과정에서 소량의 '콜드 스타트(cold-start)' 데이터와 합성 데이터를 활용했다고 밝혔지만 7, 이 데이터들은 모델 가중치와 달리 오픈소스로 공개되지 않았으며, 이를 생성하는 데 필요한 비용 역시 알려지지 않았다. 고품질의 RLHF용 데이터를 구축하는 데는 상당한 비용이 수반된다는 점을 고려할 때 9, 딥시크가 발표한 600만 달러라는 훈련 비용은 전체 개발 비용의 일부에 불과할 수 있다. 이는 딥시크의 혁신조차 상당한 초기 투자를 필요로 함을 의미하며, 스케일링 법칙의 중요성을 더욱 부각시킨다.

 

공황에서 재확신으로: 하이퍼스케일러의 대응 - 압도적인 자본력의 투하 선언 

초기의 시장 급락은 작은 스타트업이 이토록 효과적으로 경쟁할 수 있다면, AI 인프라에 투자된 수십억 달러가 잘못된 베팅일 수 있다는 공포에 대한 반사적인 반응이었다.2 그러나 시장은 빠르게 반등했다.2 이 반등은 비이성적인 것이 아니라, 정교한 재평가의 결과였다. 시장은 딥시크가 경쟁력 있는 AI의 ‘바닥(floor)’은 낮췄지만, 진정으로 시장을 지배할 차세대 AI의 ‘천장(ceiling)’은 여전히 스케일링 법칙에 의해 결정된다는 점을 이해하기 시작했다.
스케일링 법칙에 따라 규모의 우위를 통해 프론티어 개발 모델의 우위를 점하는 전략의 유효성을  가장 확실하게 보여주는 증거는 딥시크 쇼크 이후 오히려 더욱 확고해진 미국 Hyper-Sclaer들의 자본 지출(capex) 계획이다.
  • 마이크로소프트는 2025 회계연도에 약 800억 달러의 자본 지출을 계획 중이며, 이듬해에는 이를 1,000억 달러 이상으로 늘릴 예정이다. 대부분 AI 데이터센터 구축에 투입된다.22
  • 메타는 600억~650억 달러를 예고했다.4
  • 아마존은 1,000억 달러 지출을 목표로 하고 있으며, 이미 2024년 12월 자체 프론티어 모델군인 아마존 노바(Amazon Nova)를 출시하며 경쟁에 대한 의지를 분명히 했다.23
  • 알파벳(구글)은 2025년에 850억 달러를 지출할 것이라고 발표했다.23
이 숫자들은 단순한 예산이 아니다. 이는 미국이 이 AI 대전쟁에서 전술적인 알고리즘 혁신을 흡수하고 압도적인 산업 및 금융 역량으로 승리하겠다는 전략적 선언이다.

 

데이터와 유통망이라는 해자

컴퓨팅 파워 외에도 하이퍼스케일러들은 스케일링 법칙과 시너지를 내는 두 가지 결정적인 우위를 점하고 있다. 바로 방대한 독점 데이터와 글로벌 유통 채널이다. xAI는 X(구 트위터)의 실시간 데이터 스트림을 Grok 모델 훈련에 활용하고, 마이크로소프트는 OpenAI의 기술을 자사의 방대한 기업 및 소비자 소프트웨어 제품군에 직접 통합한다. 구글과 메타의 전세계인을 아우르는 사용자 기반은 독점 데이터 소스이자 이들의 천문학전 자본을 뒷받침할 수익 기반이기도 하다. 이처럼 컴퓨팅, 독점 데이터, 고객 접근성의 결합은 단순한 효율성만으로는 넘을 수 없는 다층적이고 견고한 해자를 구축한다.
이러한 상황은 딥시크 쇼크가 역설적으로 하이퍼스케일러들의 대규모 지출 전략을 정당화하고 AI 군비 경쟁을 가속화했음을 시사한다. 딥시크 이전에는 막대한 자본 지출이 일부 투자자들에게 투기적이고 비효율적으로 보일 수 있었다. 그러나 딥시크의 성공은 실체적이고 신뢰할 수 있는 외부 경쟁자의 등장을 알렸고, 위협은 더 이상 이론이 아니게 되었다. 이는 미국 기술 대기업들과 투자자들을 결집시켰다. 논점은 ‘이 지출이 현명한가?’에서 ‘이 지출은 국가 및 경제 안보를 위한 전략적 필수 요소인가?’로 전환되었다. 시장의 반등은 이러한 새로운 공감대를 반영한다. 이제 지출의 목적은 단순히 혁신을 넘어, 매우 효율적인 경쟁자조차 따라올 수 없을 만큼 거대한 격차를 만드는 것이 되었다.
결과적으로, AI 경쟁의 본질은 알고리즘 경쟁에서 산업 규모의 공급망 경쟁으로 전환되고 있다. 초기 AI 개발은 트랜스포머 아키텍처와 같은 알고리즘적 돌파구가 주도했다. 딥시크의 GRPO 역시 알고리즘적 혁신이지만, 그 영향력은 하드웨어와 데이터에 대한 접근성에 의해 제한된다. 반면, 하이퍼스케일러들의 대응은 주로 물류 및 산업적 측면에 초점을 맞추고 있다. 이는 수십만 개의 GPU를 확보하고, 도시 규모의 데이터센터를 건설하며, 에너지 계약을 확보하고, 데이터 파이프라인을 통제하는 전방위적인 경쟁이다. 이제 핵심 경쟁 지표는 자본 지출 예산, GPU 클러스터 규모, 데이터 처리량 등으로 바뀌고 있다. 이는 소수의 조 단위 기업만이 참여할 수 있는 게임이며, 사실상 다른 모든 경쟁자들을 프론티어 경쟁에서 배제시키는 효과를 낳는다.


 

[예측] 이중 AI 군비 경쟁

 

미국의 대응: 규모에 대한 총력 집중
딥시크 쇼크는 실리콘밸리가 주도하는 단선적인 AI 발전 경로라는 개념을 산산조각 냈다. 이는 중국이 미국의 제재 압력 하에서도 단순히 ‘빠른 추격자(fast follower)’가 아니라 자신만의 길을 개척할 수 있는 진정한 혁신가임을 증명했다.16 

하드웨어 제약을 우회하여 혁신할 수 있는 경쟁자에 직면한 미국, 특히 하이퍼스케일러들의 전략적 대응은 중국이 쉽게 복제할 수 없는 단 하나의 우위, 즉 압도적인 자본과 기존의 글로벌 인프라에 총력을 기울이는 것이다.31 이제 AI 경쟁은 미중 강대국 경쟁의 핵심 기둥으로 명확히 자리 잡았다.32

 

AI LLM 시장의 경쟁의 장 분화 가능성

이러한 역학 관계는 글로벌 AI 시장을 두 개의 층으로 분화시킬 것이다.
  • 1계층: 프론티어 모델 계층. 이는 최첨단(SOTA) 성능을 차지하기 위한 고위험, 자본 집약적 전쟁이다. 이 경쟁은 미국 하이퍼스케일러(마이크로소프트/OpenAI, 구글, 아마존, 메타, xAI, Anthropic)들과 잠재적으로 중국의 국가 지원을 받는 챔피언들 사이에서 벌어질 것이다. 이는 지정학적 ‘칩 워(Chip War)’와 ‘AI 군비 경쟁’이 실제로 벌어지는 무대다.16 여기서의 목표는 상업적 성공을 넘어 전략적이고 구조적인 지배력 확보이다.
  • 2계층: 오픈소스에 기반한 상용화된 응용 계층. 딥시크 R1이나 메타의 Llama와 같은 고품질의 효율적인 오픈소스 모델 덕분에, 혁신과 가치 창출이 응용 계층에서 일어나는 활기찬 생태계가 부상할 것이다.4 기업들은 최고의 기반 모델을 만드는 대신, 이러한 상용화된 모델을 특정 제품과 서비스에 통합하는 데서 경쟁하게 될 것이다. 

 

군비 경쟁의 격화

이제 경쟁은 모든 전선에서 가속화될 것이다. 컴퓨팅에 대한 지출은 폭발적으로 증가할 것이며(표 2 참조), 기업들이 최고의 연구자들을 영입하기 위해 막대한 보상을 제시하는 ‘AI 인재 전쟁’이 격화될 것이다.23 또한, 국가적 우위를 확보하기 위한 미국 AI 실행 계획(US AI Action Plan)과 같은 정부 차원의 조치가 강화되고, 모델 복제 및 지적 재산권 탈취를 막기 위한 노력도 증대될 것이다.30  딥시크 R1과 같은 모델의 오픈소스화는 미국 입장에서 양날의 검이다. 한편으로는 글로벌 혁신을 가속화하고 미국 기업들이 강력한 무료 모델을 기반으로 애플리케이션을 구축하게 하여 R&D 비용을 절감시킨다. 다른 한편으로는 미국 기업들이 수십억 달러를 들여 개발한 기술을 상용화시켜 모델 수준에서의 경쟁 우위를 약화시킨다. 더 결정적으로, 이는 비미국 기술 표준에 대한 글로벌 의존도와 친숙도를 높이는, 일종의 소프트 파워를 형성한다. 마이크로소프트의 브래드 스미스 사장이 지적했듯이, 이는 중국에게 글로벌 개발자 커뮤니티라는 중요한 전쟁터에서 상당한 발판을 마련해준다.31
궁극적으로 장기적인 경쟁 구도는 ‘미국 대 중국’이 아니라, 기술 발전의 두 가지 상충하는 철학, 즉 ‘규모(Scale)’와 ‘효율성(Efficiency)’의 대결로 볼 수 있다. 미국 하이퍼스케일러들은 압도적인 자원을 투입하여 스케일링 법칙을 논리적 귀결까지 밀어붙이는 ‘규모’ 철학을 대표한다. 딥시크는 적은 비용으로 대부분의 성능을 제공하는 영리한 알고리즘 및 아키텍처적 지름길을 만드는 ‘효율성’ 철학을 상징한다. 단기적으로는 ‘규모’가 궁극의 프론티어 모델 경쟁에서 승리하겠지만, 일상적인 AI 응용이라는 훨씬 더 큰 시장은 ‘효율성’ 패러다임이 지배할 가능성이 높다. 미래는 2계층에서의 효율성 혁신이 주기적으로 1계층의 거인들에게 흡수되고 확장되는, 파괴와 통합의 순환 주기를 보일 것이다.

 

맺는말 - AI 산업 경쟁 본격화의 신호탄

2025년 1월의 '딥시크 쇼크'는 미국의 AI 패권 종말을 알리는 서곡이 아니었다. 오히려 그것은 초기 국면의 종결, 본격적인 경쟁 시대의 개막이었다. 이 사건은 업계 전반의 자기만족을 걷어내고, 기술 경쟁의 본질과 방향성을 보다 명료하게 드러냈다.
딥시크의 경이적인 효율성은 스케일링 법칙을 부정한 것이 아니라, 오히려 그것의 유효성과 한계를 동시에 입증했다. 즉, 단호하고 급진적인 기술 추격자가 얼마나 빠르게 혁신을 실현할 수 있는지를 보여줌으로써, 딥시크는 역설적으로 미국 하이퍼스케일러들에게 그들의 핵심 경쟁력인 자본력과 인프라를 총동원할 수 있는 전략적 정당성을 부여했다.
그 결과, 글로벌 AI 경쟁은 단순한 알고리즘 성능을 넘어, 인프라, 공급망, 자본, 규제 프레임워크, 심지어 외교 전략까지 포괄하는 총체적이고 고강도의 산업·지정학적 경쟁 구도로 재편되었다. '충격' 자체는 일회적 사건이었으나, 그 여진은 향후 10년 이상 AI 산업과 국제질서의 형세를 구조적으로 규정할 것이다.