Gorilla PE Insights · Beyond 시리즈 · 3편

 

비약과 도약 사이 — 인과의 사다리와 물리 인프라의 통행료

 

[Abstract]


 

2024년 10월, Tesla는 핸들도 페달도 없는 Cybercab 콘셉트를 공개했다. 2026년 들어 Tesla는 Cybercab 생산과 Robotaxi 확장을 동시에 추진하고 있지만, 완전 자율주행의 상용화는 여전히 규제·안전·책임·발생 빈도는 낮지만 종류가 무수한 예외 상황(long-tail edge case)의 경계 위에 있다. FSD Supervised 누적 주행 거리는 100억 마일을 넘겼고, 중국 시장에는 시뮬레이션 기반 학습으로 출시(launch)했으며, Robotaxi 서비스는 Austin을 시작으로 복수 도시로 확장됐다. 그럼에도 소비자용 FSD는 여전히 감독형 Level 2 시스템이고, 핸들·페달 없는 Cybercab의 공공도로 운행과 판매에는 규제 승인과 책임 구조 문제가 남아 있다. 진척과 천장이 같은 회사 안에서 동시에 일어난다.

 

질문은 여기서 출발한다. AI의 인과 추론 능력은 어디까지 와 있는가, 그리고 그 능력의 천장은 어디서 결정되는가. Judea Pearl이 정식화한 인과의 사다리(Ladder of Causation)에서 현재 최전선 LLM(frontier LLM)은 첫 칸(연관)을 압도적으로 흡수했고, 둘째 칸(개입)은 도메인별로 빠르게 진척 중이며, 셋째 칸(반사실)에서는 구조적 취약성이 남아 있다. 이 사다리의 윗칸으로 가는 길은 현재 네 방향으로 분기되어 진행 중이며 — 추론 시점에 더 길게 사고하기, 별도의 인과 모듈로 학습 데이터를 큐레이션하기, 시뮬레이션 환경에서 자동으로 인과 신호를 생성하기, 트랜스포머 자체를 다른 모델 구조(architecture)로 교체하기 — 네 길 모두에서 부분 진척과 천장이 동시에 관찰된다.

 

금번 시리즈의 투자 논제(thesis)는 이 미해결성 자체를 인식론적 토대(epistemic foundation)로 삼는다. AI 모델 구조가 무엇이든 — 트랜스포머든 JEPA든 시뮬레이션+강화학습(Simulation+RL)이든 — 물리 인프라 4 Wall(메모리·인터커넥트·열·전력)은 통행료를 받는다. 우리가 찾는 것은 승자의 이름이 아니라, 모든 승자가 결국 내야 하는 통행료다.

 

[1. Cybercab의 약속과 현재 — Tesla 한 회사가 보여주는 두 면]


 

2024년 10월 10일, Tesla는 Warner Bros 스튜디오에서 We, Robot 이벤트를 열고 Cybercab 콘셉트를 공개했다. 핸들도 페달도 없는 2인승 자율주행 전용 차량, $30,000 이하 가격, 마일당 낮은 운영비. 디자인이 의미하는 바는 명확했다. Tesla가 완전 자율주행에 도달하겠다는 자기 선언이었다.


이후 Tesla의 자율주행 처리 역량(capacity)은 여러 지표에서 빠르게 확장됐다. FSD Supervised 누적 주행 거리는 2026년 5월 100억 마일을 넘겼고, Tesla는 Austin을 시작으로 Robotaxi 서비스의 제한적 확장 단계에 들어섰다. 중국 시장에서는 데이터 현지화(localization) 제약 속에서 공개 비디오를 활용한 시뮬레이션 기반 학습으로 FSD 출시가 추진됐다는 설명도 나왔다. 자율주행 패러다임(paradigm)의 가장 공격적이고 광범위한 베팅이 글로벌 단위에서 진행 중이다.


그러나 같은 시점 다른 신호들은 완전 자율주행의 종착점이 아직 열리지 않았음을 보여준다. 소비자용 FSD는 여전히 감독형 Level 2 시스템으로 분류되고, 핸들·페달 없는 Cybercab의 공공도로 운행과 판매에는 규제 승인과 책임 구조 문제가 남아 있다. NHTSA 면제 승인(exemption), 안전 감독관(safety monitor), 지리적 운행 제한(geofencing), 법적 책임, long-tail edge case는 여전히 풀어야 할 문제다. 초기 Robotaxi 서비스에 대해서는 주행 오류, 안전 모니터, 규제 승인, 법적 책임을 둘러싼 외부 검증과 논쟁이 이어지고 있다. Tesla CFO 역시 2026년 robotaxi 매출이 당장 회사 전체 실적에 중대한 기여를 하기는 어렵다는 취지로 설명했다.


이것은 Tesla 한 회사의 실패담이 아니다. 오히려 Tesla는 자율주행 패러다임을 가장 공격적으로 밀어붙인 회사다. 그럼에도 진척과 천장이 같은 회사 안에서 동시에 관찰된다. 이 간극이 출발점이다.
 

[2. 사다리의 윗칸 — AI가 인과를 다루는 자리]


 

Judea Pearl은 Causality(2009)와 The Book of Why(2018)에서 인과 추론을 세 층위로 정식화했다. 이를 인과의 사다리(Ladder of Causation)라고 한다.


첫 번째 칸은 연관(Association)이다. "X와 Y가 같이 나타난다" 수준의 통계적 상관관계다. 어떤 환자가 항생제를 먹은 다음에 회복했다는 관찰, 어떤 광고를 본 사용자가 그 다음에 제품을 구매했다는 로그 — 이 데이터들이 모두 첫 번째 칸에 속한다. 현재 최전선 LLM이 흡수한 학습 데이터의 대부분은 이 층위의 관찰 패턴에 가깝다.


두 번째 칸은 개입(Intervention)이다. "X를 했을 때 Y는 어떻게 되는가"에 대한 추론이다. 무작위 통제 임상시험에서 환자에게 항생제를 처방했을 때 회복 확률이 얼마인지, A/B 테스트에서 광고를 노출시켰을 때 구매 전환율이 어떻게 변하는지 — 이런 능동적 개입에 대한 데이터다. 단순 관찰과 달리, 어떤 행동을 했을 때 결과가 어떻게 달라지는지를 다룬다. OpenAI o1·o3, Anthropic Claude의 확장 사고(extended thinking), DeepSeek R1 같은 추론 모델(reasoning model)들이 사고 연쇄 추론 과정(chain-of-thought reasoning trace)으로 시도하는 것이 이 두 번째 칸의 영역이다.


세 번째 칸은 반사실(Counterfactual)이다. "X를 하지 않았더라면 Y는 어떻게 되었을까"에 대한 추론이다. 환자가 항생제를 복용하지 않았다면 회복했을 것인지, 광고를 보지 않았다면 그래도 구매했을 것인지를 추론하는 능력이다. 이 세 번째 칸은 실제로 일어나지 않은 사건의 결과를 다룬다. 인간 전문가의 의사결정 과정에 일부 내재하지만, 데이터로는 거의 라벨링되지 않은 영역이다.


현재 최전선 LLM이 사다리의 어디에 있는지는 정량 평가로 확인된다. 현재 최전선 LLM은 통계적 연관의 흡수에서는 압도적으로 강하고, 개입형 문제에서는 도메인별로 빠르게 진척되고 있다. 그러나 반사실 추론, 새 변수 정의, 도메인 밖 일반화가 필요한 문제에서는 여전히 구조적 취약성이 남아 있다. 최근 학계 평가들에서 최전선 모델의 반사실 추론 영역 정확도는 일반 추론 정확도 대비 큰 격차를 보였다. 인과 앵무새(causal parrots)라는 학계 용어가 이 간극을 한 단어로 압축한다 — 인과적 표현 언어를 통계적으로 재현하는 능력과 진짜 인과 구조를 추론하는 능력 사이에는 측정 가능한 차이가 존재한다.
 

“인과의 언어를 말하는 것과, 인과의 구조를 소유하는 것은 다르다.”

 

 

[3. 사다리를 오르는 네 가지 길]


 

사다리의 윗칸으로 가는 길은 현재 네 방향으로 분기되어 있다.


첫 번째 길은 추론 시점에 더 길게 사고하는 것이다. 트랜스포머 모델 구조를 유지한 채, 모델이 답을 생성하는 순간 더 많은 연산을 투입한다. OpenAI o1·o3, Anthropic Claude의 확장 사고, DeepSeek R1이 모두 이 길에 속한다. 더 긴 사고는 복잡 문제의 해결률을 올리지만, 그 대가로 추론 연산(inference compute)과 KV 캐시(추론 시 누적되는 메모리)(KV Cache)가 늘어난다. 추론 모델의 경제성은 결국 메모리와 추론 인프라의 문제로 돌아온다.


두 번째 길은 별도의 인과 모듈로 학습 데이터를 큐레이션하는 것이다. 최근 연구들은 인과 구조로 큐레이션된 데이터가 모델 크기보다 더 큰 성능 차이를 만들 수 있음을 보여준다. 좁은 인과 추론 평가(causal benchmark)에서는 작은 모델이 최전선 모델군을 능가하는 사례도 보고됐다. 다만 이 길은 변수와 공리(axiom)가 사전에 정의된 영역에서 강하게 작동한다. 새 영역에서 애초에 무엇을 변수로 볼 것인지까지 자동으로 발견하는 문제는 여전히 남아 있다.


세 번째 길은 시뮬레이션 환경에서 자동으로 인과 신호를 생성하는 것이다. AlphaGo와 AlphaZero가 원형이다. 수학과 게임처럼 상태공간과 검증 규칙이 명확한 영역에서는 시뮬레이션·탐색·강화학습(simulation + search + RL)이 빠르게 성과를 내고 있다. IMO 수준 수학에서도 은메달·금메달 수준 결과가 보고됐다. 이 길은 상태공간과 검증 규칙이 명확한 영역에서 가장 빠르게 성과를 냈고, 자율주행은 그 경계까지 확장하려는 가장 공격적인 사례다. Tesla FSD가 정확히 이 세 번째 길의 베팅이며, 1절의 진척이 모두 이 방향의 표현이다. 그 경계에서 무엇이 막히는지는 4절에서 다룬다.


네 번째 길은 트랜스포머 자체를 다른 모델 구조로 교체하는 것이다. JEPA와 세계 모델(world model) 계열은 언어가 아니라 비디오와 물리 세계를 직접 학습하려는 방향이다. Yann LeCun이 Meta를 떠나 2025년 AMI Labs(Advanced Machine Intelligence)를 창업한 것이 이 흐름의 상징적 사건이다. V-JEPA 2처럼 대규모 비디오 학습과 로봇 계획 수립(planning)을 결합한 사례가 등장했지만, 이 길은 저장·메모리·디코드 인프라 수요를 다른 형태로 밀어올린다. JEPA 계열 접근은 수년간 진행됐지만, 아직 GPT-5, Claude Opus, Gemini 3 같은 최상위 최전선 모델군이 보여주는 범용 언어·코딩·추론 능력의 일반성을 입증하지는 못했다.


네 길은 서로 다르다. 그러나 네 길 모두 같은 곳으로 돌아온다 — 더 많은 메모리, 더 빠른 데이터 이동, 더 높은 전력, 더 강한 냉각이다.
 

[4. 네 길 모두에서 같은 천장이 보인다]


 

네 길이 다른 방향으로 진척 중이지만, 각각 천장의 신호가 명확히 드러난다. 그리고 그 천장들이 사실은 같은 본질의 다른 표현이다.


첫 번째 길의 천장은 인과 표현 언어의 상관 학습(correlation-of-causation-language)이다. 추론 모드를 켜고 더 길게 사고하더라도, 모델이 생성하는 사고 연쇄가 진짜 인과 추론인지 아니면 인터넷에 떠다니는 인과 표현 언어의 패턴 매칭인지가 모델 구조 안에서 구분되지 않는다. 반사실 정확도의 간극이 여기서 발생한다. 추론 연산을 늘려도 사다리의 윗칸으로는 일정 수준 이상 올라가지 못한다.


두 번째 길의 천장은 변수 정의의 사전 제공이다. 작은 모델이 좁은 인과 추론 평가에서 최전선 모델군을 능가하는 사례들도, 변수와 공리가 연구자에 의해 사전 정의된 영역에서만 작동한다. 인과 그래프에서 어떤 변수들이 화살표로 연결되는지를 통계적으로 추정하거나 형식 공리로 추론하는 일은 가능하지만, 애초에 어떤 변수를 봐야 하는지를 새 영역에서 도약적으로 발견하는 능력은 부재하다.


세 번째 길의 천장은 시뮬레이션 가능 도메인의 경계다. 게임·수학·자율주행·단백질·분자처럼 환경이 명시적으로 모델링 가능한 영역에서는 작동한다. 그러나 시뮬레이션 가능 도메인 안에서도 long-tail edge case가 남는다. 자율주행처럼 현실의 long-tail을 모두 모델링해야 하는 영역에서는, 시뮬레이션 가능성과 공공도로 상용화 사이의 간극이 남는다. Tesla Cybercab의 콘셉트와 현재 생산·규제 현실 사이의 거리가 정확히 이 천장의 표현이다. 누적 100억 마일의 실제 도로 데이터, 글로벌 최대 규모의 시뮬레이션 버퍼를 만들어낸 패러다임이, 모든 외부 변수를 모델링해야 하는 long tail에 닿으면 핸들 없는 완전 자율주행의 종착점에 도달하지 못한다. 같은 회사가 진척의 최전선과 패러다임의 천장을 동시에 드러내는 이유가 여기 있다. 그리고 시뮬레이션 불가능 도메인 — 역사적 비즈니스 결정, 환자의 장기 치료 결과, 사회 정책 — 으로 넘어가면 패러다임 자체가 작동하지 않는다.


네 번째 길의 천장은 최전선 도달 시점(timeline)의 미지다. LeCun이 말한 언어 모델은 막다른 길이라는 논제가 옳더라도, 그 막다른 길에서 만들어진 일반 지능 기반(base) 없이 새 모델 구조가 일반 지능에 도달해야 한다는 더 큰 문제가 남는다. JEPA 패러다임은 수년간 진행됐지만 현재 최상위 최전선 모델군의 일반성에는 도달하지 못했다. 펀드 보유 기간(hold period) 안에 도달 가능 여부는 미해결 질문이다.


네 천장이 다 다른 모양으로 나타나지만, 한 자리로 모이면 같은 본질을 가리킨다 — 사다리의 윗칸에 오르려면 형식 논리 적용으로는 부족하고, 도약적 사고가 함께 작동해야 한다는 사실이다.

 

[5. 비약과 도약 사이 — 도약 사고의 미복제]


 

여기서 한 단계 더 들어가야 한다. 사다리의 윗칸이 어려운 이유는 연산량이 부족해서만이 아니다. 무엇을 변수로 볼 것인지, 어떤 유추를 따라갈 것인지, 어느 방향을 제1원리로 잡을 것인지를 정하는 — 인간 전문가의 도약 사고가 아직 데이터셋 안에 충분히 라벨링되어 있지 않기 때문이다.


여기서 말하는 도약은 천재성의 문제가 아니다. 산업 현장과 과학 연구, 임상 의사결정, 투자 판단에서 반복적으로 나타나는 인간 전문가의 암묵적 변수 선택 능력이다. 문제는 이 능력이 대부분 데이터셋에 라벨링되어 있지 않고, 명시적 규칙으로 분리되어 있지도 않다는 점이다.


이 도약 사고를 풀어보면 세 가지 능력이 함께 작동한다.


첫째, 암묵지(tacit knowledge)다. "이런 상황에서는 이런 게 작동하더라"는 명시화되지 않은 패턴 인식이다. 책에 쓰여 있지 않고, 학교에서 가르치지 않고, 데이터셋에 라벨링되지 않는 지식이다. 마이클 폴라니가 1958년 Personal Knowledge에서 "우리는 우리가 말할 수 있는 것보다 더 많이 안다"는 한 문장으로 정식화한 영역이다.


둘째, 영역 간 유추(cross-domain analogy)다. 한 영역의 구조를 다른 영역으로 매핑하는 능력이다. 메모리 사이클의 가격결정권 보호를 양봉업자의 벌집 생산 절제로, 인과 사다리를 미답의 99.99% 데이터로 — 표면적으로 전혀 다른 영역들 사이의 깊은 구조적 유사성(deep structural similarity)을 발견하는 능력이다. Douglas Hofstadter는 2001년 Analogy as the Core of Cognition에서 인간 사고의 핵심이 모든 순간 무의식적으로 작동하는 유추 메커니즘 위에 서 있다고 정식화했다.


셋째, 비유와 상징을 통한 도약의 방향 선택이다. 새 영역에서 가능한 변수 조합은 사실상 무한하다. 그중에서 맞는 방향을 찾아내는 능력이 셋째다. "X가 Y와 비슷하다"는 직관이 도약의 방향을 결정한다. 무한한 가능성 중 어느 곳을 제1원리(first principle)로 잡을지를 비유의 첫 한 줄이 정해준다.


다시 말해, 문제는 답을 계산하는 능력이 아니라 문제를 올바른 변수 공간으로 재구성하는 능력이다.


이 세 능력이 결합되어야 사다리의 윗칸으로 올라가는 도약이 가능하다. 그런데 정확히 여기서 문제가 발생한다.


세 능력은 별도의 추론 모듈(reasoning module)로 분리해서 구축할 수 있는 것이 아니다. 왜냐하면 영역 간 유추를 하려면 먼저 두 도메인을 잠재공간에서 통합적으로 표현하고 있어야 하고, 그 통합 표현이 바로 일반 지능의 본질이기 때문이다. 도약의 방향을 직관하려면 두 도메인 모두에서 깊은 본질을 인식하고 있어야 하고, 그 인식이 일반 지능의 또 다른 측면이기 때문이다. 즉 도약 사고를 만드는 모듈을 따로 구축하려고 해도, 그 모듈이 작동하려면 이미 일반 지능 기반이 그 자리에 있어야 한다.


여기에 닭과 달걀 문제가 따라온다. 사다리의 윗칸으로 가는 추론기를 만들려면 도약 사고 능력이 필요하고, 도약 사고 능력은 일반 지능 기반 위에서만 작동하고, 일반 지능 기반은 현재 트랜스포머만이 잠재공간 통합을 구현하고 있고, 하지만 트랜스포머는 사다리의 윗칸에서 구조적 취약성을 보인다. 어느 쪽도 자력으로는 풀리지 않는다. 이것이 학계에서 자기기동 문제(bootstrapping problem) — 서로가 서로의 전제가 되어 어느 쪽도 먼저 시작할 수 없는 문제 — 라 부르는 영역이다.


LLM이 표면적 유추(예: "태양과 행성의 관계는 원자핵과 전자의 관계와 같다")는 인간 수준에서 처리하지만, 의미적으로 풍부한 추상 영역에서의 깊은 구조적 대응(deep structural mapping)에서는 인간 수준에 도달하지 못한다는 평가가 학계에서 반복 보고됐다. LLM은 유추적 추론의 가능성의 설명(how-possibly)은 제공하지만, 실제의 설명(how-actually)에는 도달하지 못한다는 것이 이 연구들의 종합 결론이다.
 

비약과 도약 사이의 영역이 가장 깊은 미답지다.

 

[6. 그래서 Gorilla PE는]


 

여기까지의 분석이 Gorilla PE의 투자 논제에 직접 연결된다.


시장의 일반적 사고 흐름은 다음과 같다 — AGI가 곧 도래한다 → 사다리의 윗칸이 풀린다 → 어느 단일 모델 구조가 지배적이 된다 → 그 모델 구조에 베팅하자. 이 흐름이 시장에서 Magnificent 7 베팅, NVIDIA 단독 베팅, OpenAI 단독 베팅으로 표현된다.


금번 분석은 다른 흐름으로 판단한다. 사다리의 윗칸은 본질적으로 자기기동 문제이며, 네 길이 모두 부분 진척과 천장을 동시에 드러내는 중이다. 어느 길이 지배적이 될지는 미지이고, 단기간에 결정되지 않는다. 그러므로 단일 모델 구조에 베팅하는 것은 인식론적 함정(epistemic 함정)이다.


Gorilla PE의 결론은 단일 모델 구조가 아니다. 사다리를 오르는 길이 무엇이든, 네 길 모두 메모리·인터커넥트·열·전력이라는 물리 인프라를 더 강하게 요구한다. 우리가 찾는 것은 승자의 이름이 아니라, 모든 승자가 결국 내야 하는 통행료다.


네 길의 기술적 언어는 다르다. 그러나 투자자의 언어로 번역하면, 모두 같은 네 개의 청구서로 돌아온다.
 

 

네 길에서 4 Wall이 작동하는 방식은 다음과 같이 정리된다.

 

 

네 길 어디서 지배적 방향이 결정되든, 통행료는 이 네 자리에서 부과된다. 그리고 5절의 자기기동 문제가 단기간에 풀리지 않는다는 사실이 이 베팅의 시간 지평(horizon)을 길게 받쳐준다.


02편 분석에서 인류 데이터의 99.99%가 미답지로 남아 있고, 그 잠금 해제가 학습 측과 추론 측에서 동시에 메모리 수요를 폭증시킨다는 논제를 제시했다. 금번 분석에서 한 단계 더 들어간 함의는 이것이다. 그 99.99%가 풀린다는 것만으로 사다리의 윗칸이 자동으로 정복되지 않는다. 데이터의 원천(raw) 양이 늘어나는 것과 그 데이터에 부여되는 인과 라벨링이 깊어지는 것은 별개의 사건이며, 더 깊은 차원에서 도약 사고의 복제라는 미해결 문제가 남는다. 데이터 잠금 해제가 진척의 동력이라면, 자기기동 문제가 그 동력의 한계 조건이다. 두 가지가 함께 작동하면서 슈퍼사이클(supercycle)의 시간 지평이 시장의 컨센서스보다 훨씬 길어진다.
 

[결론]


 

2024년 10월에 핸들 없이 공개됐던 Cybercab은 2026년 들어 생산 라인과 규제 현실의 경계 위에서 약속한 종착점에 아직 도달하지 못한 채 확장 중이다. 같은 회사가 누적 주행 거리를 두 배로 늘렸고, 시뮬레이션 기반으로 중국 시장에 출시했으며, Austin을 시작으로 Robotaxi를 확장했다. 그럼에도 완전 자율주행은 여전히 규제·안전·책임·long-tail edge case의 경계 위에 있다. 같은 회사가 같은 시점에 패러다임의 가장 강력한 진척과 패러다임의 분명한 천장을 동시에 보여주는 이유는, 사다리의 윗칸이 단일 패러다임으로 정복되지 않는 영역이기 때문이다.


Gorilla PE는 어느 패러다임이 결국 사다리를 끝까지 오를지에 베팅하지 않는다. 모든 패러다임이 그 사다리를 오르려고 시도하는 동안, 모든 패러다임이 통과해야 하는 물리 인프라에 베팅한다. 비약과 도약 사이의 영역이 미답지로 남아 있는 한, 그 통행료는 계속 부과된다.

 

“Causal, not casual. 사다리의 윗칸은 아직 비어 있고, 그곳으로 향하는 모든 길에는 물리 인프라의 통행료가 부과된다.”

 

 

 

 

 

 

[출처]


 

[1] Tesla We, Robot event (2024.10.10) — Cybercab 콘셉트 공개, 핸들·페달 없는 디자인, $30,000 이하 가격 (The Guardian, 2024.10.11)
[2] Tesla 공식 발표 — FSD Supervised 누적 100억 마일 (The Verge, 2026.05). 소비자용 FSD는 Level 2 감독형 시스템 유지
[3] Tesla Robotaxi (2026.05 기준) — Austin을 시작으로 제한적 확장 (Barron's, 2026)
[4] Tesla now has AI training capability in China (Electrek, 2026.02.06) — 중국 시장 시뮬레이션 기반 학습 추진 (Musk: "just used publicly available video of roads and signs in China and used that to train in simulation")
[5] Tesla's Grand Plan for the Future Is a Car With No Steering Wheel (WSJ, 2026) — Cybercab 핸들·페달 없는 디자인. Tesla says the first Cybercab just rolled off the production line at Gigafactory Texas (Business Insider, 2026.02)
[6] Tesla Q1 2026 earnings call (2026.04.22) — Vaibhav Taneja: "Robotaxi revenue not super material this year"
[7] Judea Pearl, Causality (Cambridge University Press, 2009) · The Book of Why (with Dana Mackenzie, Basic Books, 2018) — Ladder of Causation 정식 정의
[8] CounterBench (Chen et al., Rutgers, 2025) · CausalProbe (NeurIPS 2024) · Executable Counterfactuals (2025) — 최전선 모델의 반사실 추론 영역 정확도가 일반 추론 대비 큰 격차를 보인 사례
[9] Zecevic et al. — Causal Parrots: Large Language Models May Talk Causality But Are Not Causal (2023)
[10] Let's Verify Step by Step (Lightman et al., OpenAI, 2023) — Process Reward Model, PRM800K 데이터셋, process supervision이 outcome supervision 대비 정확도 우위를 보인 사례
[11] Teaching Transformers Causal Reasoning through Axiomatic Training (Vashishtha et al., ICML 2025) — 소형 트랜스포머가 인과 공리의 symbolic demonstration 학습으로 대형 모델과 동등하거나 우위를 보인 사례
[12] CauGym: Can Post-Training Transform LLMs into Causal Reasoners? (OpenCausaLab, 2026.02) — 좁은 인과 벤치마크에서 소형 모델이 대형 추론 모델을 상회한 사례
[13] AlphaProof + AlphaGeometry 2, IMO 2024 (DeepMind, Nature 2025.11) — 4/6 문제, 28점 silver medal 수준
[14] Advanced Gemini Deep Think Achieves Gold-Medal Standard at IMO 2025 (DeepMind, 2025) — 5/6 문제, gold-level, 자연어 end-to-end
[15] Yann LeCun confirms his new 'world model' startup (TechCrunch, 2025); AMI Labs seed funding (Sifted, 2026.01)
[16] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning (Meta FAIR · Mila, 2025-2026) — 대규모 인터넷 비디오 학습, zero-shot robot planning 사례
[17] Michael Polanyi, Personal Knowledge (1958) — tacit knowledge 정식화. "We can know more than we can tell"
[18] Douglas Hofstadter, Analogy as the Core of Cognition, in The Analogical Mind (MIT Press, 2001)
[19] LLMs as Models for Analogical Reasoning (ScienceDirect, 2025) · Semantic Structure-Mapping in LLM and Human Analogical Reasoning (2024) — "how-possibly explanation but not how-actually"

 

 

금번 분석은 Gorilla PE Insights Beyond 시리즈의 3편이다. 01편 BEAR AND FEAR가 공급 측 thesis(한국 메모리 양사의 가격결정권 보호)를, 02편 SCALE UNSEALED가 수요 측 thesis(99.99% 미답지)를 형성했다면, 금번 분석은 비약과 도약 사이의 미답지가 모델 구조에 무관한(architecture-agnostic) 베팅의 인식론적 토대임을 짚는다.