로봇 학습의 패러다임 전환: C-3PO의 꿈이 현실이 되는 길

최근 로봇 공학 분야는 전례 없는 투자 유치와 기술적 진보로 뜨겁게 달아오르고 있습니다. 2025년 한 해에만 휴머노이드 로봇에 61억 달러가 투자되었고, 이는 2024년 대비 무려 4배나 증가한 수치입니다. 이러한 수치는 단순히 ‘돈이 몰린다’는 것을 넘어, 로봇이 세상을 인지하고 학습하는 방식에 근본적인 혁명이 일어나고 있음을 시사합니다. 한때 공상 과학 영화 속 이야기로만 여겨졌던 인간을 돕는 로봇, 다양한 환경에 적응하고 사람과 안전하게 교류하는 로봇의 꿈은 과연 현실이 될 수 있을까요?

꿈과 현실 사이의 간극: 로봇 학습의 과거

오랜 시간 동안 로봇 공학자들은 원대한 꿈을 꾸면서도 현실에서는 작은 규모의 결과물에 만족해야 했습니다. 그들은 인간 신체의 경이로운 복잡성을 능가하거나 적어도 필적하는 로봇을 만들기를 희망했지만, 대부분의 경력을 자동차 공장의 로봇 팔을 개선하는 데 보냈습니다. C-3PO와 같은 지능적인 로봇을 목표로 삼았지만, 결국은 집 청소 로봇인 룸바(Roomba) 수준에 머무르는 경우가 허다했죠.

많은 연구자들의 진정한 야망은 SF 영화에 등장하는 로봇이었습니다. 스스로 세상을 이동하고, 다양한 환경에 적응하며, 사람들과 안전하고 유용하게 상호작용할 수 있는 기계 말입니다. 사회적 관점에서 보면, 이런 기계는 이동에 어려움을 겪는 사람들을 돕거나, 외로움을 덜어주고, 인간에게 위험한 작업을 대신할 수 있을 것입니다. 경제적 관점에서 보면, 임금 없는 노동력의 무궁무진한 원천이 될 수도 있었죠. 하지만 오랜 실패의 역사는 실리콘밸리가 ‘도움이 되는 로봇’에 베팅하는 것을 주저하게 만들었습니다.

과거 로봇이 특정 작업을 수행하도록 가르치는 방식은 기본적으로 규칙 기반이었습니다. 예를 들어, 로봇 팔에게 옷을 접는 방법을 가르친다고 상상해 봅시다. 직물이 찢어지기 전까지 얼마나 변형을 견딜 수 있는지 확인하고, 셔츠의 칼라를 식별하고, 그리퍼를 왼쪽 소매로 이동시켜 들어 올린 후 특정 거리만큼 안쪽으로 접는 등의 규칙을 일일이 작성해야 했습니다. 셔츠가 회전하면 그에 따라 계획을 조정하고, 소매가 꼬이면 수정해야 했습니다. 이런 식으로 모든 가능성을 예상하고 미리 코딩하는 것이 초기 로봇 공학의 핵심 기술이었죠.

문제는 아주 빠르게 규칙의 수가 기하급수적으로 폭발한다는 점이었습니다. 모든 변수를 완벽하게 예측하고 규칙으로 만드는 것은 사실상 불가능에 가까웠습니다. 예측하지 못한 작은 변수 하나에도 로봇은 속수무책으로 멈추거나 오작동을 일으키기 일쑤였습니다. 이는 로봇이 실제 세계의 복잡성과 예측 불가능성에 적응하기 어렵게 만드는 근본적인 한계였습니다.

인공지능이 로봇 학습을 혁신하다: 새로운 시대의 도래

하지만 이 한계는 AI 기술의 눈부신 발전과 함께 빠르게 허물어지기 시작했습니다. 약 2015년경부터는 로봇 학습 방식에 혁신적인 변화가 나타났습니다. 로봇 팔과 옷의 디지털 시뮬레이션을 만들고, 성공적으로 옷을 접을 때마다 프로그램에 보상 신호를 주고 실패할 때마다 벌칙을 주는 방식이 도입된 것입니다. 이렇게 하면 로봇은 수백만 번의 시행착오를 통해 온갖 기술을 시도하며 스스로 개선해 나갈 수 있었습니다. 마치 인공지능이 게임을 배우는 방식과 흡사했죠.

그리고 2022년, **챗GPT(ChatGPT)**의 등장은 현재의 로봇 붐을 촉발하는 결정적인 계기가 되었습니다. 방대한 양의 텍스트로 훈련된 **대규모 언어 모델(LLMs)**은 시행착오를 통해서가 아니라, 문장에서 다음에 올 단어를 예측하는 방식을 통해 작동합니다. 이와 유사한 모델이 로봇 공학에 적용되면서 로봇은 순식간에 수많은 그림, 센서 판독값, 로봇 관절의 위치를 흡수하고 기계가 취해야 할 다음 동작을 예측하여 초당 수십 개의 모터 명령을 내릴 수 있게 되었습니다.

이러한 개념적 전환, 즉 방대한 양의 데이터를 섭취하는 AI 모델에 의존하는 방식은 로봇이 사람들과 대화하든, 환경을 이동하든, 심지어 복잡한 작업을 수행하든 효과를 발휘하는 것으로 보입니다. 이는 단순히 완벽하지 않더라도 로봇을 실제 환경에 배치하여 작업 환경으로부터 직접 학습하게 하는 등, 새로운 학습 방식을 달성하기 위한 다른 아이디어들과 결합되었습니다. 오늘날 실리콘밸리의 로봇 공학자들은 다시금 원대한 꿈을 꾸고 있습니다.

개인적으로는 이 지점에서 주목할 점이 많다고 생각합니다. 과거의 로봇 학습이 ‘규칙을 외워서 그대로 따르는 것’이었다면, 이제는 ‘세상을 이해하고 다음에 무엇을 해야 할지 스스로 추론하는 것’으로 바뀌었다는 점입니다. 이는 로봇의 유연성과 적응력을 극적으로 향상시키며, 특정 작업에만 국한되지 않는 범용성을 열어주고 있습니다. 마치 어린아이가 세상을 보고 듣고 만지면서 언어를 배우고 행동하는 방식을 모방하는 것과 같다고 할까요? 이런 추세는 로봇이 단순한 기계가 아닌, 진정한 의미의 ‘지능형 파트너’로 발전할 수 있는 토대를 마련하고 있습니다.

How robots learn: A brief, contemporary history

실패를 통해 배운 교훈: 소셜 로봇의 진화

대규모 언어 모델(LLMs) 시대가 오기 한참 전에도, 움직이는 소셜 로봇은 이미 대화를 수행했습니다. MIT 로봇 연구원 신시아 브레질(Cynthia Breazeal)은 2014년에 **지보(Jibo)**라는 팔다리 없고 얼굴 없는 로봇을 세상에 소개했습니다. 사실 이 로봇은 램프처럼 생겼었죠. 브레질의 목표는 가족을 위한 소셜 로봇을 만드는 것이었고, 이 아이디어는 크라우드펀딩 캠페인을 통해 370만 달러를 모금하며 큰 기대를 모았습니다. 초기 예약 판매 가격은 749달러였습니다.

초기 지보는 스스로를 소개하고 아이들을 즐겁게 하기 위해 춤을 출 수 있었지만, 그게 거의 전부였습니다. 비전은 항상 스케줄링과 이메일 처리부터 이야기 들려주기까지 모든 것을 처리할 수 있는 일종의 ‘체화된 비서’가 되는 것이었습니다. 지보는 열렬한 사용자층을 확보하기도 했지만, 결국 회사는 2019년에 문을 닫았습니다.

돌이켜보면, 지보에게 정말 필요했던 한 가지는 바로 더 나은 언어 능력이었습니다. 당시 지보는 애플의 시리(Siri)나 아마존의 알렉사(Alexa)와 경쟁하고 있었는데, 이 모든 기술은 스크립트에 크게 의존했습니다. 넓게 보면, 사용자가 말을 하면 소프트웨어가 음성을 텍스트로 번역하고, 원하는 것을 분석한 다음, 미리 승인된 단편적인 문구들에서 응답을 끌어내어 생성하는 방식이었죠. 이런 단편적인 문구들은 매력적일 수도 있었지만, 반복적이고 지루하며, 말 그대로 ‘로봇 같았습니다.’ 특히 사회적이고 가족 지향적인 로봇에게는 큰 도전 과제였습니다.

그 이후로, 기계가 언어를 생성하는 방식에 혁명이 일어났습니다. 이제 어떤 선도적인 AI 제공업체의 음성 모드도 놀라울 만큼 매력적이고 인상적입니다. 수많은 하드웨어 스타트업들이 이를 활용한 제품을 만들려고 노력하고 있지만 아직 상용화에 성공하지 못한 경우가 많다는 점은 아이러니합니다.

하지만 이는 새로운 위험도 동반합니다. 스크립트 기반 대화는 궤도를 벗어날 일이 없었지만, AI가 생성하는 대화는 분명히 ‘탈선’할 수 있습니다. 예를 들어, 일부 인기 있는 AI 장난감은 아이들에게 성냥이나 칼을 찾는 방법에 대해 이야기한 적도 있습니다. 업계 흐름을 보면, 이 문제는 단순한 기술적 결함으로 치부할 수 없습니다. 로봇의 사회적 역할이 커질수록, AI의 윤리적이고 안전한 언어 생성 능력은 그 어떤 기술적 진보보다 중요해질 것입니다. 단순히 “그럴듯하게” 말하는 것을 넘어 “올바르고 안전하게” 말하는 방법을 가르치는 것이 미래 소셜 로봇의 핵심 과제가 될 가능성이 높습니다.

시뮬레이션의 한계, 그리고 ‘도메인 무작위화’라는 해답

2018년경에는 모든 선도적인 로봇 연구실에서 오래된 스크립트 규칙을 버리고 시행착오를 통해 로봇을 훈련시키려 했습니다. 오픈AI는 로봇 손인 **닥틸(Dactyl)**을 가상으로 훈련시키려고 시도했습니다. 손의 디지털 모델과 닥틸이 조작해야 할 손바닥 크기 큐브의 디지털 모델을 사용했죠. 큐브의 면에는 글자와 숫자가 있었고, 모델은 “빨간색 면에 문자 ‘O’가 위로 오도록 큐브를 회전시켜라”와 같은 작업을 부여받았습니다.

여기서 문제가 발생합니다. 로봇 손이 시뮬레이션 세계에서는 작업을 매우 잘 수행할 수 있지만, 그 프로그램을 실제 세계의 실제 로봇에 적용하면 시뮬레이션과 실제 세계 간의 미묘한 차이로 인해 문제가 발생할 수 있습니다. 색상이 약간 다를 수도 있고, 로봇 손가락 끝에 있는 변형 가능한 고무가 시뮬레이션에서보다 더 늘어날 수도 있습니다. 이를 **‘시뮬레이션-현실 간 격차(Sim-to-Real Gap)‘**라고 부릅니다. 이 간극 때문에 시뮬레이션에서 백점짜리였던 로봇도 실제 환경에서는 허둥지둥 대기 일쑤였습니다.

이 문제의 해결책이 바로 **도메인 무작위화(Domain Randomization)**입니다. 본질적으로 수백만 개의 다양한 시뮬레이션 세계를 생성하여 실제 세계를 로봇이 이미 경험한 수많은 변형 중 하나로 만드는 방식입니다. 시뮬레이션 환경의 조명, 질감, 물체의 물리적 특성, 심지어 중력의 강도까지 무작위로 변경하면서 훈련시킵니다. 이렇게 하면 로봇은 특정 시뮬레이션 환경에 과적합(overfitting)되지 않고, 오히려 광범위한 변형에 대한 강건성(robustness)을 학습하게 됩니다. 결국, 실제 세계는 이러한 무작위화된 시뮬레이션 중 하나일 뿐이므로, 로봇은 실세계에서도 훨씬 더 잘 작동할 수 있게 됩니다. 이는 로봇이 실제 환경의 예측 불가능성과 다양성을 모델링하려는 시도라고 볼 수 있습니다. 정말 영리한 접근법이 아닐 수 없습니다.

결론적으로, 로봇 공학은 과거의 시행착오와 좌절을 딛고 인공지능, 특히 대규모 언어 모델의 힘을 빌려 비약적인 발전을 이루고 있습니다. 규칙 기반 프로그래밍에서 벗어나 시뮬레이션 기반의 시행착오 학습, 그리고 이제는 방대한 데이터를 기반으로 스스로 학습하고 예측하는 AI 모델에 이르기까지, 로봇의 학습 방식은 끊임없이 진화해 왔습니다. 이로 인해 로봇은 더 이상 정해진 작업만을 수행하는 수동적인 기계가 아니라, 실제 세계의 복잡성을 이해하고 적응하며 인간과 상호작용하는 능동적인 존재로 거듭나고 있습니다.

물론, AI가 가진 윤리적 문제나 예상치 못한 ‘탈선’의 위험, 그리고 시뮬레이션과 현실 간의 간극을 완전히 메우는 일 등 여전히 많은 도전 과제가 남아 있습니다. 하지만 도메인 무작위화와 같은 혁신적인 기법들은 이러한 난관을 극복하기 위한 새로운 길을 제시하고 있습니다. 이제 로봇은 더 이상 공장 라인에만 갇혀 있지 않습니다. 가정, 병원, 재난 현장 등 우리의 삶 곳곳으로 스며들며, 한때 꿈만 같았던 C-3PO의 상상이 조금씩 현실이 되어가는 놀라운 시대를 우리는 목격하고 있습니다. 앞으로 로봇이 어떤 새로운 가능성을 열어줄지, 그 귀추가 정말 기대됩니다.

출처

원문 제목: How robots learn: A brief, contemporary history
출처: MIT Technology Review
원문 기사 보러가기

Article

로봇 학습의 패러다임 전환: C-3PO의 꿈이 현실이 되는 길

꿈과 현실 사이의 간극: 로봇 학습의 과거

인공지능이 로봇 학습을 혁신하다: 새로운 시대의 도래

실패를 통해 배운 교훈: 소셜 로봇의 진화

시뮬레이션의 한계, 그리고 ‘도메인 무작위화’라는 해답

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유