게임으로 AI에 직관력을 심는 2.3조 원의 대담한 베팅, 현장에서 본 General Intuition의 야망

여러분은 게임이 단순한 오락을 넘어, 인공지능이 복잡한 현실 세계를 이해하고 행동하는 데 필요한 **직관(intuition)**을 가르치는 강력한 교육장이 될 수 있다고 상상해 보셨나요? 솔직히 말해서, 저는 그 가능성을 직접 목격하기 전까지는 반신반의했습니다. 하지만 뉴욕의 General Intuition R&D 층에 들어서는 순간, 제 모든 상식은 뒤집혔습니다.

🎮 게임 속 AI, 현실의 로봇을 움직이다: 놀라운 현장 데모

사무실에 발을 들여놓자마자, 31세의 공동 창업자이자 CEO인 핌 드 비테(Pim de Witte)는 저를 한 모니터 앞으로 이끌었습니다. 화면 속에서는 누군가 포트나이트(Fortnite)와 유사한 게임을 플레이하고 있었습니다. 그런데 놀랍게도, 그 플레이어는 사람이 아니었습니다. 회사의 최고 제품 책임자(CPO) 켄트 롤린스(Kent Rollins)는 흐뭇한 표정으로 “우리 에이전트가 100시간 내내 쉬지 않고 게임을 플레이하고 있습니다”라고 설명했습니다. 가상 환경을 능숙하게 탐색하는 AI 에이전트의 움직임에 몰두하려는 찰나, 뒤편에서 묵직한 네 발 로봇의 전자 발소리가 들려왔습니다.

드 비테는 마치 비장의 무기를 보여주듯이 “게임을 플레이하는 에이전트와 이 로봇을 움직이는 두뇌는 동일합니다”라고 말했습니다. 데이터 분석가 조쉬 듀플랜티스(Josh Duplantis)는 로봇의 단일 카메라에서 스트리밍되는 라이브 피드를 노트북으로 보여주며, 로봇의 기본 모드가 ‘탐험(exploration)‘이라고 덧붙였습니다. 거대한 벌레처럼 생긴 이 로봇은 카메라 하나에 의존하여 제게 다가와 주변을 빙글빙글 돌더니, 사무실 안으로 계속 움직였습니다. 때로는 의자 다리에 부딪히거나 쓰레기통과 충돌하기도 했는데, 마치 자신의 몸과 세상의 관계를 아직 배우지 못한 아기 같았습니다. 듀플랜티스는 이 네 발 로봇의 AI 모델을 미세 조정하는 데 단 8분 분량의 실제 로봇 데이터만 필요했다고 강조했습니다. 더 놀라운 사실은, 그 데이터마저도 로봇이 현재 움직이는 사무실 내부가 아니라 거리에서 수집된 것이었습니다.

이것이 바로 General Intuition의 존재 이유이자 핵심 역량입니다. 게임 플레이에서 시뮬레이션으로, 그리고 실제 물리적 구현(embodiment)으로 일반화할 수 있는 에이전트 모델(agentic model). 이 모델이 세상에서 자신의 위치를 파악하는 능력은 이미 업계 거물들의 막대한 지원을 확보했습니다.

## 2.3조 원의 베팅: 게임 데이터가 AI 직관의 열쇠?

General Intuition은 최근 3.2억 달러(약 4,400억 원)의 투자 유치 사실을 발표했습니다. 이번 라운드에서 회사의 기업 가치는 무려 23억 달러(약 3조 1천억 원)로 평가받았으며, 지난해 10월 초기 투자 1.34억 달러를 포함하면 총 4.54억 달러(약 6,200억 원)에 달하는 자금을 확보하게 되었습니다.

이 스타트업은 드 비테가 공동 창업한 또 다른 회사, 메달(Medal)에서 스핀오프되었습니다. 메달은 게이머들이 비디오 게임 클립을 업로드하고 공유하는 플랫폼인데, 이 플랫폼에 쌓인 수억 시간의 게임 플레이 영상이 General Intuition 모델 훈련을 위한 초기 데이터셋이 되었습니다. 이 데이터는 공간-시간적 추론(spatial-temporal reasoning), 즉 공간과 시간 속에서 움직이는 방법을 이해하는 데 사용되었습니다.

하지만 드 비테는 단순히 게임 플레이 영상 자체가 핵심이 아니라고 강조합니다. 진정한 핵심은 그 클립들에 내재된 **액션 레이블(action labels)**입니다. 즉, 플레이어가 정확히 어떤 버튼을 언제 눌렀는지에 대한 기록이죠. 그는 대부분의 경쟁사들이 비디오만으로 행동을 추론하려 하지만, 이는 충분치 않다고 주장합니다.

드 비테는 “우리는 이것을 미래 사전 훈련의 다음 단계로 보고 있습니다”라며, “단일 모델이 화면상의 포트나이트 정보에 반응하고 행동을 취할 수 있을 뿐만 아니라, 거대 언어 모델(LLM)이 결코 할 수 없는 방식으로 현실 세계의 역동성에도 반응할 수 있습니다”라고 말했습니다.

General Intuition’s $2.3B bet that video games can train AI agents for the real world

그는 저를 General Intuition의 **월드 모델(world model)**이 실행되는 노트북 앞에 앉혔습니다. 이 월드 모델은 전통적인 게임 엔진이 렌더링하는 방식이 아니라, 프레임 단위로 생성되는 시뮬레이션 환경입니다. 제가 다른 월드 모델을 테스트할 때 종종 그랬듯이, 저는 벽에 계속 부딪혔습니다. 다른 데모에서는 에이전트가 벽을 통과하는 경우도 있었지만, 이 모델은 그렇지 않았습니다. 수백만 시간의 게임 플레이를 통해, 이 모델은 어찌 된 영문인지 벽은 벽이고, 사다리는 오르는 것이며, 태양이 움직이면 그림자가 길어진다는 사실을 학습했습니다.

General Intuition에게 이 월드 모델은 제품이 아닙니다. 내부적으로는 **‘더 짐(the gym)‘**이라고 불리는 훈련 환경입니다. 회사의 궁극적인 목표는 에이전트 모델 자체를 판매하는 것입니다. 드 비테는 게임 플레이에 내재된 액션 데이터가 모델이 ‘자기(self)‘와 ‘환경(environment)‘을 구별하는 데 도움을 주어, 인과 관계에 대한 더 풍부한 이해를 제공한다고 주장합니다.

## 직관의 시대: AI의 다음 퀀텀 점프인가?

General Intuition의 기술은 데모에서 인상적으로 보이지만, 이 문제를 해결하려는 유일한 회사는 아닙니다. 게다가, 이러한 모델이 물리적 세계에서 대규모로 작동하는 것을 성공적으로 입증한 사례는 아직 없습니다. 대부분의 유사한 접근 방식은 막대한 양의 실제 세계 데이터를 필요로 하며, 이는 느리고 비용이 많이 듭니다. General Intuition은 게임 플레이가 이 문제를 해결할 수 있는 **확장 가능한 지름길(scalable shortcut)**이라는 데 베팅하고 있습니다.

이러한 베팅에 투자자들도 동의했습니다. 이번 최신 라운드는 코슬라 벤처스(Khosla Ventures)가 주도했으며, 제너럴 캐탈리스트(General Catalyst), 제프 베조스(Jeff Bezos), 에릭 슈미트(Eric Schmidt), 니코 로스버그(Nico Rosberg)를 비롯해 구글 딥마인드(Google DeepMind)와 MIT의 연구원들도 참여했습니다. 면면만 보더라도 얼마나 중요한 투자로 인식되는지 알 수 있습니다.

이번 투자금의 대부분은 컴퓨팅 용량 확장에 투입될 예정입니다. General Intuition은 코어위브(CoreWeave)와 계약을 맺고 다음 버전 모델의 사전 훈련에 집중할 계획이며, 올여름 말까지 API를 더 광범위하게 제공할 예정입니다.

이번 라운드를 주도한 코슬라 벤처스의 비노드 코슬라(Vinod Khosla)는 드 비테의 비전과 회사의 **독점적인 데이터 위치(proprietary data position)**에 매료되었다고 합니다. 코슬라는 전화 인터뷰에서 “LLM에서 추론(reasoning)이 등장했을 때, 그것은 퀀텀 점프였습니다. 월드 모델에서는 AI에 직관(intuition), 즉 인간의 직관과 유사한 능력이 출현하는 것이 퀀텀 점프라고 생각합니다. 게임에 있는 인간의 행동 데이터와 반응 데이터가 직관의 출현에 핵심적인 부분입니다”라고 말했습니다.

이 부분에서 주목할 점은, 코슬라가 LLM의 ‘추론’에 필적하는 AI의 ‘직관’을 언급했다는 것입니다. 기존 LLM이 텍스트 기반의 방대한 지식 학습을 통해 논리적 추론 능력을 획득했다면, General Intuition은 게임이라는 가상 환경에서 실제와 같은 상호작용과 그에 대한 인간의 ‘액션 라벨’을 통해 물리 세계에 대한 본능적인 이해, 즉 직관을 부여하려는 시도인 셈입니다. 개인적으로는 이 접근 방식이 AI가 단순히 지식을 처리하는 것을 넘어, 예측 불가능한 현실 세계에서 능동적이고 자율적으로 행동하는 데 필수적인 요소가 될 것이라고 생각합니다. 이는 AI 에이전트의 궁극적인 목표인 범용 인공지능(AGI)으로 가는 중요한 디딤돌이 될 가능성이 높습니다.

General Intuition만 메달의 인간 행동 데이터가 다이내믹한 월드 모델과 일반 에이전트를 구축하는 퍼즐의 핵심 조각이라는 사실을 알아차린 것은 아닙니다. 스타트업의 비서실장 브리아나 마틴(Brianna Martin)은 메달이 한 주요 연구소의 인수 제안을 거절한 것이 이 회사를 탄생시킨 계기 중 하나라고 밝혔습니다. 이후에도 다른 인수 제안들이 있었다고 합니다.

드 비테와 공동 창업자들(Eloi Alonso, Adam Jelley, Vincent Micheli)은 인수되는 것에 관심이 없으며, 투자자들 또한 아직은 엑시트(exit)를 고려하지 않고 있습니다. 코슬라가 이 스타트업을 M&A 대상이 아닌 **‘세대를 이을 베팅(generational bet)‘**으로 확신하는 이유 중 하나는 General Intuition이 메달을 통해 확보한 독점적인 데이터의 양과 품질 때문입니다. 그는 이 회사가 시뮬레이션 및 실제 세계에서 범용 에이전트와 월드 모델의 중추가 될 수 있다고 믿습니다. 코슬라는 “이 시점에서 (인수는) 데이터 인수에 불과하며, 그다지 흥미롭지 않습니다”라고 단언했습니다.

업계 흐름을 보면, 독점적이고 고품질의 데이터는 AI 시대의 새로운 자원 전쟁에서 가장 중요한 경쟁 우위가 될 가능성이 높습니다. 특히 행동 기반 AI에서는 단순한 영상 데이터가 아닌, 인간의 의도와 직접 연결된 액션 레이블 데이터가 희소성을 가질 수밖에 없습니다. General Intuition은 이 점을 선점함으로써, 기술적 해자(moat)를 구축하고 있는 것으로 보입니다.

게임이라는 디지털 공간에서 얻은 통찰력이 로봇이라는 물리적 존재에게 직관을 부여하는 시대로 우리는 진입하고 있습니다. General Intuition의 대담한 시도는 AI가 단지 계산하고 추론하는 기계가 아니라, 보고, 느끼고, 예측하며, 심지어 **“직관”**하는 존재로 진화할 수 있음을 보여주는 중요한 이정표가 될 것입니다.

출처

원문 제목: General Intuition’s $2.3B bet that video games can train AI agents for the real world
출처: AI News & Artificial Intelligence | TechCrunch
원문 기사 보러가기

Article

게임으로 AI에 직관력을 심는 2.3조 원의 대담한 베팅, 현장에서 본 General Intuition의 야망

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유