AI 발전의 두 얼굴: 고립된 평가를 넘어선 실제 세계의 도전
Published Apr 1, 2026
“AI는 진공 상태에서 평가되지만, 실제로는 복잡하고 지저분하며 여러 사람이 참여하는 환경에서 장기간 작동합니다. 이러한 불일치로 인해 우리는 AI의 능력, 위험성, 그리고 영향력을 오해하게 됩니다.” 스탠포드 디지털 경제 연구소의 펠로우이자 유니버시티 칼리지 런던의 교수인 안젤라 아리스티두(Angela Aristidou)의 이 지적은 오늘날 AI 기술 발전의 가장 핵심적인 딜레마를 정확히 짚어냅니다. 첨단 기술의 경이로운 진보 속에서도, 우리는 과연 AI를 올바르게 이해하고 다루고 있을까요? 단순히 실험실 안에서의 성능이 아닌, 실제 우리 삶과 복잡하게 얽히는 과정에서 드러나는 AI의 진정한 모습은 무엇일까요?
최근 공개된 소식들을 보면, AI가 두 가지 극명한 방식으로 발전하고 있음을 알 수 있습니다. 한편에서는 기록적인 투자를 유치하며 인류의 미래를 바꿀 잠재력을 과시하고, 다른 한편에서는 예상치 못한 방식으로 인간의 노동력에 의존하며, 혹은 기존의 평가 기준으로는 감당하기 어려운 윤리적, 사회적 질문들을 던지고 있습니다. 이 글에서는 이러한 AI 발전의 두 얼굴을 면밀히 비교하며, 우리가 직면한 과제와 나아가야 할 방향에 대해 이야기하고자 합니다.
첨단 휴머노이드의 이면: 세계 각지의 ‘인간 데이터셋’
나이지리아의 한 의대생 제우스(Zeus)의 사례는 AI, 특히 휴머노이드 로봇 개발의 현실을 상징적으로 보여줍니다. 그는 병원에서 힘든 하루를 마치고 아파트로 돌아오면 아이폰을 이마에 묶고 집안일을 녹화합니다. 이 영상은 로봇 공학 회사에 데이터를 판매하는 Micro1에 제공됩니다. 로봇 회사들이 인간형 로봇 개발 경쟁에 박차를 가하면서, 제우스와 같은 ‘기가워커(gig worker)‘들이 촬영한 영상은 로봇을 훈련시키는 가장 뜨거운 새로운 방식이 되었죠.
Micro1은 인도, 나이지리아, 아르헨티나 등 50개 이상의 국가에서 수천 명의 기가워커를 고용했습니다. 이 일자리는 현지 기준으로는 수입이 좋다고 하지만, 사생활 침해와 정보에 입각한 동의(informed consent)에 대한 곤란한 질문들을 던집니다. 솔직히 말해서, 휴머노이드 로봇이 미래의 집안일을 담당할 것이라는 비전을 생각하면, 그 로봇들이 전 세계 수많은 사람들의 집안일 영상으로 훈련받고 있다는 사실은 아이러니가 아닐 수 없습니다. 첨단 기술의 정점에 있는 줄로만 알았던 휴머노이드가 사실은 지구 반대편의 누군가의 일상적인 삶을 비디오로 ‘훔쳐보며’ 배우고 있다는 점은 놀랍습니다.
이 부분에서 주목할 점은 글로벌 인력 풀을 활용한 비대칭적 데이터 수집 모델입니다. 선진국의 로봇 회사들은 저개발국가의 인력을 활용하여 방대한 데이터를 효율적으로 확보합니다. 이는 기술 발전 속도를 가속화할 수 있지만, 동시에 새로운 형태의 디지털 노동 착취 또는 윤리적 사각지대를 만들어낼 수 있습니다. 개인적으로는 이러한 방식이 단기적인 효율성만을 추구하다가 장기적으로는 더 큰 사회적 논란을 야기할 가능성이 높다고 생각합니다. 로봇 공학의 진정한 발전은 기술 자체뿐만 아니라, 그 기술을 가능하게 하는 인간의 노동력에 대한 깊이 있는 윤리적 성찰을 동반해야 하지 않을까요?

AI 평가의 패러다임 전환: 고립된 실험실을 넘어선 공존의 기준
아리스티두 교수가 지적했듯이, 수십 년 동안 AI는 고립된 문제에서 인간보다 뛰어난 성능을 발휘하는지 여부로 평가되어 왔습니다. 그러나 실제 세계에서는 AI가 이런 식으로 사용되는 경우가 드뭅니다. AI가 복잡하고 다인종 환경에서 인간 팀, 워크플로, 조직 내에서 장기간 작동한다는 점을 간과해서는 안 됩니다. 이러한 평가 방식의 불일치는 AI의 진정한 능력과 위험을 제대로 이해하는 데 방해가 됩니다.
우리는 이제 새로운 벤치마크가 필요합니다. 인간 팀, 워크플로, 조직 내에서 장기적인 관점에서 AI의 성능을 평가할 수 있는 기준 말입니다. 아리스티두 교수가 제안한 ‘인간-AI, 상황별 평가(Human–AI, Context-Specific Evaluation)‘와 같은 접근 방식이 바로 그 해답이 될 수 있습니다. 예를 들어, 중국 우한에서 발생한 바이두 로보택시의 시스템 오류로 승객들이 고속도로에 고립된 사건은 AI의 고립된 성능이 실제 복합 환경에서 어떻게 실패할 수 있는지를 보여주는 극명한 사례입니다. 또한, 테슬라가 자사의 로보택시가 때때로 인간 운전자에 의해 원격으로 완전히 제어된다고 인정한 사실 역시, 완전 자율이라는 AI의 이상과 실제 복잡성 사이의 간극을 여실히 드러냅니다.
이러한 맥락에서, AI 평가의 핵심은 더 이상 ‘얼마나 똑똑한가’가 아니라 ‘인간과 얼마나 잘 협력하고, 실제 환경에 얼마나 유연하게 적응하며, 예상치 못한 상황에 얼마나 안전하게 대처하는가’로 바뀌어야 합니다. 전통적인 AI 벤치마크는 주로 다음과 같은 질문에 답했습니다.
- 특정 작업을 얼마나 정확하게 수행하는가?
- 인간보다 얼마나 빠르게 문제를 해결하는가?
- 특정 데이터셋에서 오류율은 얼마인가?
반면, 새로운 AI 벤치마크는 훨씬 더 복합적인 질문을 던져야 합니다.
- 인간 팀의 생산성이나 만족도를 얼마나 향상시키는가?
- 예기치 않은 상황이나 모호한 지침 속에서 어떻게 작동하는가?
- 시간이 지남에 따라 사용자 피드백을 통해 학습하고 개선되는가?
- 사고 발생 시 책임 소재는 어떻게 되며, 안전 메커니즘은 충분한가?
업계 흐름을 보면, 이제는 AI의 기술적 완성도만큼이나 사회적 수용성과 윤리적 책임이 중요해질 가능성이 높습니다. 단순히 ‘더 나은’ AI를 만드는 것을 넘어, ‘더 안전하고 인간적인’ AI를 만드는 것이 우리의 과제입니다.
거대한 자본과 윤리적 그림자: AI의 양면적 성장통
AI 분야는 천문학적인 자본이 쏟아져 들어오는 뜨거운 시장입니다. 일례로 OpenAI는 실리콘밸리 역사상 가장 큰 규모인 1,220억 달러의 자금 조달에 성공하며 올해 IPO를 준비 중입니다. 이러한 막대한 투자는 AI 기술 발전의 엔진 역할을 하지만, 동시에 거대한 영향력과 그에 수반되는 윤리적 책임에 대한 의문을 제기합니다. OpenAI가 “사회 계약을 재고(rethink the social contract)“하려는 움직임을 보이는 동시에, 일부 캠페인에서는 사람들에게 ChatGPT 사용을 중단하라고 촉구하는 것은 이러한 양면성을 단적으로 보여줍니다.
양자 컴퓨터 분야에서도 이와 유사한 흐름을 엿볼 수 있습니다. 옥스포드 외곽의 한 연구실에서 원자와 빛으로 만들어진 양자 컴퓨터가 500만 달러 상금의 주인공을 기다리고 있습니다. 이 상금은 ‘고전’ 컴퓨터로는 해결할 수 없는 실제 의료 문제를 풀 수 있는 양자 컴퓨터에 돌아갈 예정이지만, 과연 ‘승자가 나올지’ 여부는 미지수입니다. 양자 컴퓨터의 잠재력은 혁명적이지만, 그 현실화 과정은 여전히 불확실성과 도전으로 가득 차 있습니다.
기술의 발전이 언제나 긍정적인 면모만을 가지는 것은 아닙니다. 이란이 엔비디아, 애플, 마이크로소프트, 구글 등 18개 미국 IT 기업에 대한 공격을 위협하고, 러시아가 인터넷 통제를 강화하려는 시도는 기술이 지정학적 갈등의 도구로 사용될 수 있음을 경고합니다. 또한, 미국 국방부가 수년 동안 비밀리에 OpenAI 모델을 테스트하고, 미국 정부가 Anthropic의 AI를 사용하여 미국인으로부터 수집된 대량 데이터를 분석하려 했다는 소식은 AI가 국가 안보와 감시에 어떻게 활용될 수 있는지, 그리고 이것이 개인의 프라이버시에 어떤 영향을 미칠지에 대한 심각한 윤리적 질문을 던집니다. 메타의 스마트 안경이 ‘기분 나쁜 스파이’가 될 수 있다는 한 기자의 평가는 일상생활 속 기술이 가져올 수 있는 미묘한 사회적 문제를 시사하죠.
결국, AI를 비롯한 첨단 기술의 발전은 단순히 기술적 역량의 향상을 넘어섭니다. 그것은 인간 사회의 근본적인 구조, 윤리적 기준, 그리고 존재론적 질문에 대한 새로운 성찰을 요구합니다. 우리는 기술이 우리 삶을 어떻게 더 풍요롭게 만들 수 있을지 상상하는 동시에, 그 기술이 야기할 수 있는 위험과 부작용에 대해서도 끊임없이 질문하고 대비해야 합니다. 고립된 실험실의 성공을 넘어, 실제 세계의 복잡성 속에서 인간과 AI가 어떻게 공존하고 발전할 수 있을지에 대한 답을 찾아야 할 때입니다.
출처
- 원문 제목: The Download: gig workers training humanoids, and better AI benchmarks
- 출처: MIT Technology Review
- 원문 기사 보러가기