로봇이 한 번도 배우지 않은 일을 스스로 해낼 수 있다면, 우리의 일상과 산업 현장은 어떻게 바뀔까요? 단순 반복 작업을 넘어, 예측 불가능한 상황에서도 능동적으로 대처하는 로봇의 등장은 공상과학의 영역에만 머물러 있던 일반 목적 인공지능(General-Purpose AI) 로봇의 꿈을 현실로 만들 수 있습니다.

최근 샌프란시스코 기반의 로봇 스타트업 **피지컬 인텔리전스(Physical Intelligence)**가 조용하지만 강력하게 AI 업계의 주목을 받고 있습니다. 이들은 설립된 지 2년밖에 되지 않았지만, 최신 연구를 통해 개발한 π0.7이라는 새로운 모델이 로봇에게 명시적으로 훈련시킨 적 없는 작업을 수행하도록 지시할 수 있음을 시사하는 놀라운 결과를 발표했습니다. 회사 연구진조차 “예상치 못했다”고 고백할 만큼 충격적인 이번 발견은, 단순히 데이터를 암기하는 수준을 넘어 다양한 기술을 조합하여 새로운 문제를 해결하는 조합적 일반화(compositional generalization) 능력의 가능성을 보여줍니다.

지금까지 로봇 훈련의 일반적인 방식은 특정 작업에 대한 데이터를 수집하고, 그 데이터에 특화된 모델을 훈련시키는 반복 암기(rote memorization) 방식이었습니다. 새로운 작업이 생기면 이 과정을 다시 반복해야 했죠. 하지만 π0.7은 이러한 패턴을 깨뜨리고 있습니다. 피지컬 인텔리전스의 공동 창립자이자 UC 버클리 로봇 AI 교수인 서게이 레빈(Sergey Levine)은 “데이터를 수집한 정확한 작업만 수행하던 단계에서 벗어나, 새로운 방식으로 데이터를 조합하는 임계점을 넘어서면, 능력은 데이터 양에 따라 선형적으로 증가하는 것이 아니라 그 이상으로 폭발적으로 증가한다”고 설명했습니다. 이러한 **유리한 스케일링 특성(favorable scaling property)**은 이미 언어 및 비전 분야에서 대규모 언어 모델(LLM)이 보여준 현상과 매우 유사합니다.

로봇, ‘모르는 일’을 ‘알아내는’ 능력: 에어프라이어 사례의 의미

이번 연구의 가장 인상 깊은 시연 중 하나는 모델이 훈련 과정에서 거의 본 적 없는 에어프라이어를 사용하는 사례였습니다. 연구팀이 훈련 데이터셋을 조사했을 때, 관련 에피소드는 단 두 개에 불과했습니다. 하나는 다른 로봇이 에어프라이어를 닫는 모습이었고, 다른 하나는 오픈소스 데이터셋에서 또 다른 로봇이 누군가의 지시에 따라 플라스틱 병을 에어프라이어 안에 넣는 장면이었습니다. 놀랍게도 π0.7 모델은 이러한 파편적인 정보와 광범위한 웹 기반 사전 훈련 데이터를 종합하여 에어프라이어 작동 방식에 대한 기능적 이해를 형성했습니다.

피지컬 인텔리전스의 연구원이자 스탠포드 컴퓨터 과학 박사 과정 학생인 루시 쉬(Lucy Shi)는 “지식이 어디서 오는지, 어디서 성공하고 실패할지 추적하기가 매우 어렵다”고 인정했습니다. 그럼에도 불구하고, 아무런 코칭 없이 모델은 고구마를 요리하기 위해 에어프라이어를 사용하려는 시도를 했습니다. 그리고 놀라운 점은, 마치 신입 직원에게 일을 설명하듯이 단계별 구두 지시를 제공하자 로봇이 작업을 성공적으로 수행했다는 것입니다.

Physical Intelligence, a hot robotics startup, says its new robot brain can figure out tasks it was never taught

이 **코칭 능력(coaching capability)**은 엄청난 중요성을 가집니다. 이는 로봇이 추가적인 데이터 수집이나 모델 재훈련 없이 새로운 환경에 배치되고 실시간으로 개선될 수 있음을 시사하기 때문입니다. 솔직히 말해서, 이 부분에서 저는 대규모 언어 모델이 특정 지시(프롬프트)에 따라 다양한 작업을 수행하는 방식이 물리적 세계로 확장되는 모습을 보며 전율을 느꼈습니다. 물리적 세계의 복잡성을 고려할 때, 이러한 실시간 적응력은 로봇의 실용성을 혁신적으로 높일 잠재력을 가지고 있습니다.

한계와 미래: LLM의 ‘유니콘 이야기’와 로봇의 진정한 일반화

물론 연구자들은 모델의 한계에 대해서도 숨김없이 이야기합니다. 그들은 성급하게 앞서가지 않도록 조심하는 모습이었습니다. 예를 들어, 루시 쉬는 에어프라이어 초기 실험에서 성공률이 5%에 불과했지만, 약 30분 동안 **프롬프트 엔지니어링(prompt engineering)**을 통해 작업을 설명하는 방식을 개선하자 성공률이 95%로 급증했다고 밝혔습니다. 이는 로봇이 단순히 ‘알아내는’ 것을 넘어, 우리가 얼마나 효과적으로 로봇과 소통할 수 있는지도 중요한 성공 요인임을 시사합니다.

π0.7 모델은 아직 단일 고수준 명령으로 복잡한 다단계 작업을 자율적으로 실행할 수 있는 수준은 아닙니다. 레빈 교수는 “‘토스트 좀 만들어줘’라고 말할 수는 없다”면서도, “하지만 ‘토스터의 이 부분을 열고, 저 버튼을 누르고, 이렇게 해’라고 단계별로 안내하면 꽤 잘 작동하는 경향이 있다”고 말합니다. 또한, 로봇 공학에는 표준화된 벤치마크가 부족하여 연구 결과의 외부 검증이 어렵다는 점도 인정했습니다. 대신, 회사는 π0.7을 자체적인 이전 스페셜리스트 모델(개별 작업에 맞춰 제작된 시스템)과 비교했으며, 그 결과 일반화 모델이 커피 만들기, 빨래 개기, 상자 조립 등 다양한 복잡한 작업에서 동등한 성능을 보였습니다.

개인적으로 이 연구에서 가장 주목할 점은, 연구자들이 결과를 보고 스스로 놀랐다는 점입니다. 훈련 데이터에 무엇이 들어있고 모델이 무엇을 할 수 있고 없어야 하는지 정확히 아는 것이 그들의 직업임에도 불구하고 말이죠. 피지컬 인텔리전스의 연구 과학자 애쉬윈 발라크리슈나(Ashwin Balakrishna)는 “데이터에 무엇이 들어 있는지 깊이 알면 모델이 무엇을 할 수 있을지 짐작할 수 있었고, 거의 놀란 적이 없었다. 하지만 지난 몇 달은 진심으로 놀란 첫 경험이었다”며, “무작위로 기어 세트를 사서 로봇에게 ‘이 기어를 돌릴 수 있니?‘라고 물었더니 그냥 작동했다”고 회상했습니다.

레빈 교수는 연구자들이 GPT-2가 안데스 산맥의 유니콘에 대한 이야기를 생성하는 것을 처음 접했을 때를 떠올렸습니다. “페루의 유니콘에 대해 어디서 배웠을까? 정말 이상한 조합이다”라고 말이죠. 그는 로봇 공학에서 이러한 현상을 목격하는 것이 “정말 특별하다”고 강조합니다. 이는 데이터에 명시적으로 존재하지 않는 지식이나 능력이 모델 내에서 창발적으로(emergently) 나타나는 현상, 즉 LLM이 보여주었던 강력한 특징이 로봇 공학에서도 발현되고 있음을 의미합니다.

물론 비판론자들은 언어 모델은 인터넷 전체를 학습할 수 있었지만, 로봇은 그렇지 않다는 점을 지적할 것입니다. 그리고 아무리 영리한 프롬프트도 이 격차를 완전히 메울 수는 없을 것입니다. 하지만 레빈 교수는 회의론이 향할 곳을 다른 곳으로 돌립니다. “어떤 로봇 일반화 시연에도 항상 제기될 수 있는 비판은 작업이 다소 ‘지루하다’는 것이다. 로봇이 백플립을 하지는 않는다”고 그는 말합니다. 그는 이러한 관점에 반박하며, 인상적인 로봇 시연과 실제로 일반화하는 로봇 시스템 사이의 구분이 바로 핵심이라고 주장합니다. 일반화는 항상 신중하게 안무된 스턴트보다 덜 극적으로 보일 수 있지만, 그것이 진정한 기술 진보의 핵심이라는 것이죠.

피지컬 인텔리전스의 π0.7은 아직 초기 단계일지 모르나, 로봇이 새로운 작업을 ‘생각해내고’ 인간의 지시를 통해 스스로 학습하며 적응하는 능력을 보여주며 로봇 공학의 새로운 지평을 열고 있습니다. 우리는 이제 로봇이 단순히 인간의 지시를 따르는 도구를 넘어, 진정으로 지능적인 협력자가 될 수 있는 시대의 문턱에 서 있는지도 모릅니다. 앞으로 이러한 일반화 능력이 어떻게 발전하고 어떤 산업 분야에 혁신을 가져올지 그 귀추가 주목됩니다.

출처

원문 제목: Physical Intelligence, a hot robotics startup, says its new robot brain can figure out tasks it was never taught
출처: AI News & Artificial Intelligence | TechCrunch
원문 기사 보러가기

Article

로봇, ‘모르는 일’을 ‘알아내는’ 능력: 에어프라이어 사례의 의미

한계와 미래: LLM의 ‘유니콘 이야기’와 로봇의 진정한 일반화

출처

Related News

TV가 AI 스튜디오로? 구글 TV 제미니 신기능, 단순 시청을 넘어선 경험!

클루리스의 꿈이 현실로? 구글 포토 AI, 당신의 옷장을 디지털화하다