자율주행 데이터의 혼돈을 질서로: Nomadic, 840만 달러 투자 유치로 물리적 AI의 미래를 가속하다

자율주행 차량이 우리 주변 도로를 누비고, 산업용 로봇이 공장을 활보하며, 건설 현장에서는 자율 로봇이 묵묵히 제 역할을 수행하는 미래는 더 이상 공상 과학 영화 속 이야기가 아닙니다. 하지만 이러한 꿈같은 현실을 구현하기 위해서는 상상 이상의 난제들이 존재하며, 그중에서도 데이터의 홍수는 가장 거대하고 복잡한 과제 중 하나입니다. 수많은 자율 시스템들이 생성해내는 비디오 데이터는 가히 테라바이트를 넘어 페타바이트 수준에 육박하며, 이 막대한 데이터를 어떻게 효율적으로 분류하고, 분석하며, 학습에 활용할지는 물리적 AI 발전의 핵심 병목 지점이었습니다. 솔직히 말해서, 대부분의 기업은 이 엄청난 데이터의 95% 이상을 그저 아카이브에 묵혀두고 있는 실정이죠. 이렇듯 제대로 활용되지 못하고 잠자고 있는 데이터는 자율 시스템의 안전성과 성능 향상을 더디게 만드는 주범이 됩니다.

이러한 문제의식 속에서 Nomadic이라는 스타트업이 840만 달러 규모의 시드 투자를 유치하며 업계의 주목을 받고 있습니다. 그들은 딥러닝 모델을 활용하여 자율주행 차량과 로봇에서 쏟아지는 방대한 비디오 영상을 구조화되고 검색 가능한 데이터셋으로 변환하는 플랫폼을 개발했습니다. 이는 단순한 데이터 라벨링을 넘어, 물리적 AI 시스템의 핵심적인 데이터 인프라를 구축하려는 시도이며, 앞으로 자율 시스템 개발의 속도를 획기적으로 가속화할 잠재력을 지니고 있습니다.

물리적 AI의 가장 큰 숙제: 데이터의 미아 찾기

자율주행차나 로봇이 제대로 작동하려면 수많은 현실 상황을 학습해야 합니다. 보행자가 갑자기 나타나거나, 예기치 않은 장애물이 놓이거나, 비나 눈이 오는 악천후 속에서 운전하는 법 등, 셀 수 없이 다양한 시나리오에 대한 이해가 필수적입니다. 이러한 시나리오는 대부분 비디오 데이터 형태로 수집됩니다. 문제는 이 데이터가 엄청난 양이라는 것입니다. 매시간 수집되는 수많은 비디오 영상 중, 정작 학습에 필요한 ‘귀한 데이터’, 즉 **엣지 케이스(edge cases)**를 찾아내는 것은 바늘구멍 찾기보다 어렵습니다. 예를 들어, 경찰관의 지시에 따라 신호등이 빨간불임에도 불구하고 교차로를 통과해야 하는 상황이나, 특정 유형의 다리 밑을 지나는 차량들을 식별하는 것과 같은 아주 특수한 상황 말이죠.

현재까지는 이 과정을 주로 사람이 수작업으로 담당해왔습니다. 수많은 영상을 일일이 시청하며 관련 상황을 찾아내고 라벨링하는 방식인데, 아무리 빨리 감기로 본다 해도 물리적으로 확장하기 불가능한 방법입니다. 기업들은 수백만 시간의 비디오 데이터를 보유하고 있지만, 이 중 핵심적인 학습 데이터를 찾아내기 위해 수많은 인력과 시간을 낭비하거나, 아예 활용하지 못한 채 방치하는 악순환에 빠져 있었습니다. Nomadic의 공동 설립자인 무스타파 발(Mustafa Bal)과 바룬 크리슈난(Varun Krishnan)은 이러한 문제에 Lyft나 Snowflake 같은 기업에서 근무하며 반복적으로 직면했다고 합니다. 그들은 바로 이 지점에서 기회를 포착한 것이죠.

Nomadic의 해답: 영상 언어 모델 기반의 에이전틱 추론 시스템

Nomadic은 비전 언어 모델(Vision Language Models, VLM) 컬렉션을 활용하여 이 난제를 해결합니다. 이들이 개발한 플랫폼은 단순히 영상에 태그를 붙이는 것을 넘어, 영상 속에서 일어나는 ‘행동’을 이해하고 ‘맥락’을 파악하여 이를 구조화된 검색 가능한 데이터셋으로 전환합니다. 예를 들어, “경찰관이 수신호로 차량을 유도하는 상황”이나 “특정 다리 밑을 지나가는 모든 차량”과 같은 복잡한 질의를 통해 원하는 데이터를 정확히 찾아낼 수 있게 되는 것입니다.

이는 몇 가지 중요한 이점을 제공합니다.

더 나은 플릿 모니터링: 자율 시스템의 운행 데이터를 실시간으로 분석하여 잠재적 위험이나 비정상적인 상황을 조기에 감지할 수 있습니다.
강화 학습을 위한 고유 데이터셋 생성: 일반적인 상황이 아닌, 학습에 가장 필요한 엣지 케이스들을 선별하여 강화 학습 모델의 성능을 비약적으로 향상시킬 수 있습니다.
더 빠른 반복(Iteration): 데이터 수집부터 학습, 평가까지의 전체 개발 주기를 단축하여 자율 시스템의 개발 속도를 높입니다.

바룬 크리슈난 CTO는 Nomadic의 도구가 단순한 라벨러 그 이상이라고 강조합니다. 그는 이를 **“에이전틱 추론 시스템(agentic reasoning system)“**이라고 부르며, 사용자가 필요로 하는 것을 설명하면 시스템이 스스로 그것을 찾아내는 방법을 알아낸다고 설명합니다. 여러 모델을 사용하여 영상 속의 행동을 이해하고 맥락에 맞게 해석하는 것이죠. 이러한 깊이 있는 이해는 기존의 키워드 기반 검색이나 단순 객체 감지로는 불가능한 영역입니다.

Nomadic raises $8.4 million to wrangle the data pouring off autonomous vehicles

투자 유치와 업계의 기대: 핵심 인프라의 가치

Nomadic은 최근 TQ Ventures가 주도하고 Pear VC 및 제프 딘(Jeff Dean) 등이 참여한 시드 라운드에서 840만 달러를 유치했으며, 기업 가치는 5천만 달러로 평가받았습니다. 이 투자는 더 많은 고객을 유치하고 플랫폼을 계속해서 개선하는 데 사용될 예정입니다. 또한, 지난달 Nvidia GTC 피치 콘테스트에서 1위를 차지한 이력은 Nomadic의 기술력과 잠재력에 대한 업계의 높은 기대를 방증합니다. 이미 Zoox, Mitsubishi Electric, Natix Network, Zendar와 같은 기업들이 Nomadic의 플랫폼을 사용하여 지능형 기계를 개발하고 있다고 하니, 그 기술력은 이미 시장에서 검증되고 있는 셈입니다. Zendar의 엔지니어링 VP인 안토니오 푸글리엘리(Antonio Puglielli)는 Nomadic 덕분에 작업을 외부 아웃소싱하는 것보다 훨씬 빠르게 확장할 수 있었다고 밝히며, Nomadic의 도메인 전문성이 경쟁사와 차별화된다고 언급했습니다.

필자의 분석: 물리적 AI 시대의 ‘클라우드 인프라’를 꿈꾸다

이 대목에서 저는 Nomadic의 전략적 중요성에 주목할 필요가 있다고 생각합니다. TQ Ventures의 파트너인 슈스터 탱거(Schuster Tanger)의 비유는 매우 인상적입니다. 그는 “세일즈포스가 자체 클라우드를 구축하지 않고, 넷플릭스가 자체 콘텐츠 배포 시설을 구축하지 않는 것과 같은 이유”라고 설명하며, 자율주행 기업이 Nomadic과 같은 솔루션을 내부적으로 구축하려고 하면, 그들의 핵심 경쟁력인 ‘로봇 자체’ 개발에 집중하지 못하고 분산될 수 있다고 지적합니다.

개인적으로는 이 부분이 Nomadic의 가장 큰 성공 포인트이자 물리적 AI 생태계의 중요한 변화를 시사한다고 봅니다. 자율 시스템을 개발하는 기업들은 엄청난 연구 개발 비용과 시간을 자율주행 알고리즘, 센서 융합, 하드웨어 최적화 등 핵심 기술에 쏟아부어야 합니다. 데이터 관리 및 처리 시스템은 분명 중요하지만, 이를 처음부터 자체적으로 구축하는 것은 막대한 리소스 낭비로 이어질 수 있습니다. 마치 클라우드 컴퓨팅이 기업들에게 서버 인프라 구축의 부담을 덜어주고 핵심 비즈니스에 집중하게 해주었듯이, Nomadic은 물리적 AI 개발 기업들에게 데이터 인프라의 부담을 덜어주는 역할을 수행하는 것이죠. 이는 궁극적으로 자율 시스템의 개발 속도를 높이고, 시장 출시를 앞당기며, 더 안전하고 신뢰성 높은 AI를 구현하는 데 필수적인 요소가 될 것입니다. 이러한 전문화된 인프라 솔루션의 등장은 AI 기술의 성숙도를 보여주는 지표이며, 앞으로 더욱 다양한 AI 특화 인프라 기업들이 등장할 가능성이 높다고 분석합니다.

물론 Scale, Kognic, Encord와 같은 기존 데이터 라벨링 기업들도 AI 기반의 자동화 도구를 개발하고 있고, Nvidia 또한 Alpamayo라는 오픈소스 모델 패밀리를 출시하며 이 문제에 뛰어들고 있습니다. 경쟁이 치열한 분야임에는 틀림없습니다. 하지만 Nomadic은 “에이전틱 추론 시스템”이라는 차별화된 접근 방식으로 단순한 라벨링을 넘어선 깊이 있는 데이터 이해를 목표로 하며, 핵심 인프라에 집중하는 전략으로 승부수를 띄우고 있습니다. 모든 엔지니어가 과학 논문을 발표했으며, CTO가 국제 체스 마스터라는 점은 그들의 기술적 깊이와 문제 해결 능력을 엿볼 수 있게 합니다.

미래를 향한 다음 단계: 비시각 데이터와 멀티모달 통합

Nomadic은 현재 카메라 영상에서 차선 변경의 물리적 역학을 이해하거나, 로봇 그리퍼의 정확한 위치를 파악하는 등 시각 데이터에 특화된 도구 개발에 주력하고 있습니다. 하지만 그들의 다음 목표는 여기서 한 걸음 더 나아가는 것입니다. 라이더(lidar) 센서 판독값과 같은 비시각 데이터를 위한 유사한 도구를 개발하고, 궁극적으로는 여러 모드에 걸쳐 센서 데이터를 통합하는 것입니다.

무스타파 발 CEO는 “테라바이트 단위의 비디오를 수백 개의 1,000억 개 이상의 매개변수 모델에 적용하고, 거기서 정확한 인사이트를 추출하는 것은 정말 엄청나게 어렵다”고 말합니다. 이 말은 그들이 해결하려는 문제의 복잡성과 난이도를 여실히 보여줍니다. 하지만 동시에 이러한 난제를 해결하는 Nomadic과 같은 기업의 존재가 물리적 AI의 미래를 얼마나 밝게 만들 것인지도 시사합니다.

Nomadic의 등장은 단순히 한 스타트업의 성공을 넘어, 물리적 AI 개발의 핵심 병목 지점을 해결하고 산업 전반의 발전을 가속화할 수 있는 새로운 인프라 시장의 탄생을 알리는 신호탄으로 볼 수 있습니다. 앞으로 이들이 어떻게 물리적 AI의 데이터 혼돈 속에서 질서를 만들어 나갈지, 그들의 행보가 기대됩니다.

출처

원문 제목: Nomadic raises $8.4 million to wrangle the data pouring off autonomous vehicles
출처: AI News & Artificial Intelligence | TechCrunch
원문 기사 보러가기

Article

자율주행 데이터의 혼돈을 질서로: Nomadic, 840만 달러 투자 유치로 물리적 AI의 미래를 가속하다

물리적 AI의 가장 큰 숙제: 데이터의 미아 찾기

Nomadic의 해답: 영상 언어 모델 기반의 에이전틱 추론 시스템

투자 유치와 업계의 기대: 핵심 인프라의 가치

필자의 분석: 물리적 AI 시대의 ‘클라우드 인프라’를 꿈꾸다

미래를 향한 다음 단계: 비시각 데이터와 멀티모달 통합

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유