구글 AI 오버뷰, 90% 정확도가 '충분하다'는 환상일까요?

최근 몇 년간 인공지능 기술은 눈부신 발전을 거듭하며 검색 엔진의 패러다임까지 변화시키고 있습니다. 특히 구글이 제미나이(Gemini) 기반의 ‘AI 오버뷰(AI Overviews)‘를 검색 결과 페이지 상단에 전면 배치하면서, 사용자들은 더 이상 단순히 ‘링크’를 클릭하는 것을 넘어, AI가 요약하고 생성한 정보를 먼저 접하게 되었습니다. 하지만 이러한 편리함의 이면에는 한 가지 중대한 질문이 도사리고 있습니다. 과연 AI가 제공하는 정보의 정확성은 어느 정도여야만 우리에게 ‘충분하다’고 말할 수 있을까요? 그리고 구글과 같은 거대 기술 기업은 이 질문에 어떻게 답하고 있을까요?

AI 오버뷰는 2024년 출시 이후 사용자들로부터 산발적인 정확성 문제로 비판을 받아왔습니다. 물론 시간이 지나면서 개선되고 있다는 평가도 있지만, 과연 그 개선의 정도가 우리가 기대하는 수준에 도달했는지에 대해서는 여전히 의문이 남습니다. 최근 뉴욕 타임스(The New York Times)가 Oumi라는 스타트업과 협력하여 수행한 새로운 분석 결과는 이 논쟁에 기름을 부었습니다.

90% 정확성의 불편한 진실

이 분석은 AI 모델의 사실성(factuality)을 평가하는 데 널리 사용되는 ‘SimpleQA’ 평가 방식을 채택했습니다. 2024년 OpenAI가 발표한 SimpleQA는 검증 가능한 답변을 가진 4,000개 이상의 질문 목록으로, 생성형 AI 모델에 입력하여 그 정확도를 측정하는 표준 벤치마크입니다. Oumi는 지난해 구글의 최고 모델이 제미나이 2.5였을 때 이 테스트를 시작했고, 당시 AI 오버뷰의 정확도는 약 85%였습니다. 그러나 제미나이 3 업데이트 이후 테스트를 다시 실행했을 때, 정확도는 91%로 향상된 것으로 나타났습니다.

91%의 정확도, 언뜻 들으면 매우 훌륭한 수치처럼 보입니다. 10개 중 9개는 맞춘다는 의미니까요. 하지만 구글의 압도적인 검색량에 이 수치를 대입하면 이야기는 달라집니다. 10%의 오류율은 구글에게 매일 수천만 개의 잘못된 답변을 생성하고 있다는 의미와 직결됩니다. 심지어 매 시간 수백만 건, 매분 수십만 건의 ‘거짓말’이 사용자들에게 전달될 가능성을 시사하기도 합니다. 상상해 보세요. 전 세계 수많은 사람들이 구글에 의존하여 정보를 찾고 있는데, 그중 10명 중 1명은 잘못된 정보를 받아들이고 있다는 사실을 말입니다.

구체적인 오류 사례는 이 문제의 심각성을 더욱 명확히 보여줍니다. 예를 들어, “밥 말리(Bob Marley)의 전 집이 박물관이 된 날짜는 언제인가?”라는 질문에 AI 오버뷰는 세 개의 페이지를 인용했는데, 그중 두 페이지는 날짜에 대해 전혀 언급하지 않았습니다. 마지막으로 인용한 위키백과(Wikipedia)에는 모순되는 두 날짜가 있었는데, AI 오버뷰는 자신 있게 틀린 날짜를 선택했습니다. 또 다른 예시로, “요요 마(Yo-Yo Ma)가 클래식 음악 명예의 전당에 헌액된 날짜는 언제인가?”라는 질문에는 명예의 전당 웹사이트를 인용하면서도, “클래식 음악 명예의 전당 같은 것은 없다”고 단언하는 모순적인 답변을 내놓았습니다. 사실 이건 꽤 놀랍습니다. 스스로 인용한 출처의 존재를 부정하다니, 생성형 AI의 ‘환각(hallucination)’ 현상이 얼마나 예측 불가능하고 위험할 수 있는지를 극명하게 보여주는 사례가 아닐까요?

Testing suggests Google's AI Overviews tell millions of lies per hour

구글의 반론과 평가의 딜레마

이러한 분석 결과에 대해 구글은 불편한 심기를 드러냈습니다. 구글 대변인 넷 아드리안스(Ned Adriance)는 뉴욕 타임스와의 인터뷰에서 SimpleQA 테스트에 ‘틀린 정보’가 포함되어 있다고 주장했습니다. 구글은 자체 모델 평가에서 SimpleQA Verified와 같이 더 철저하게 검증된 적은 수의 질문을 사용하는 테스트를 선호한다고 밝혔습니다. 아드리안스 대변인은 “이 연구는 심각한 허점이 있다”며 “실제 사람들이 구글에서 검색하는 내용을 반영하지 않는다”고 비판했습니다.

구글의 이러한 반론은 충분히 일리 있는 지점도 있습니다. 새로운 AI 모델을 평가하는 것은 때때로 과학이라기보다는 예술에 가깝게 느껴질 때가 있습니다. 각 기업은 모델의 능력을 시연하기 위해 선호하는 자체 방식을 가지고 있으며, 생성형 AI의 비결정론적 특성 때문에 무엇이든 검증하기 어렵다는 근본적인 문제가 존재합니다. 동일한 사실적 질문에 대해 AI가 한 번은 올바르게 답하고, 바로 다시 물으면 완전히 다르게 답할 수도 있습니다. 심지어 Oumi가 평가를 위해 사용한 AI 도구 자체도 환각 현상을 일으킬 수 있다는 점도 무시할 수 없는 변수입니다.

또한 AI 오버뷰가 하나의 단일한 모델로 작동하는 것이 아니라는 점도 중요합니다. 구글은 각 쿼리에 대해 “올바른 모델”을 사용한다고 밝힙니다. AI 오버뷰가 항상 가장 좋은 답변을 얻으려면 제미나이 3.1 프로(Gemini 3.1 Pro)를 실행해야 하지만, 이는 속도가 느리고 비용이 많이 듭니다. 검색 페이지에 결과를 신속하게 로드하기 위해, AI 오버뷰는 가능한 경우(대부분의 경우인 듯합니다) 더 빠른 제미나이 플래시(Gemini Flash) 모델을 사용합니다. 결국 정확도와 속도, 그리고 비용이라는 세 가지 요소 사이에서 구글이 균형점을 찾으려 한다는 의미로 해석됩니다.

신뢰와 편리함 사이, 우리는 어디에 서 있는가?

그럼에도 불구하고 이 보고서에 대한 구글의 대응은 많은 것을 시사합니다. AI 사실성 영역에서 10개 중 9개는 나쁘지 않은 수치일 수 있습니다. 구글은 최근 모델 출시 벤치마크에서 웹 검색과 같은 도구 없이 실행되는 테스트의 사실성 측정값이 60~80% 범위라고 발표하기도 했습니다. 인터넷의 풍부한 인간 지식과 같은 더 많은 데이터로 AI를 ‘접지(grounding)‘하면 모델 자체보다 더 정확해지는 것은 분명한 사실입니다. 그러나 핵심은 진실은 어딘가 ‘파란색 링크(blue links)’ 속에 숨어있는데, AI 오버뷰는 사람들이 때때로 부정확한 요약을 받아들이고 수동으로 출처를 확인하지 않도록 부추긴다는 점입니다.

개인적으로는 이 부분에서 주목할 점이 많다고 생각합니다. 구글이 “AI가 실수를 할 수 있으니 답변을 다시 확인하세요”라는 문구를 모든 AI 오버뷰 하단에 표시하고 있음에도 불구하고, 과연 몇 명의 사용자가 실제로 이 경고를 진지하게 받아들이고 일일이 정보를 교차 검증할까요? 검색 엔진은 오랫동안 ‘정답’을 찾아주는 신뢰할 수 있는 도구로 인식되어 왔습니다. 빠르고 간편하게 정보를 얻고자 하는 현대인들에게 “AI가 틀릴 수도 있으니 네가 알아서 다시 확인해봐”라는 메시지는 편리함과 신뢰 사이의 깊은 간극을 보여주는 듯합니다.

업계 흐름을 보면 구글은 AI 오버뷰를 통해 사용자 경험을 혁신하고 경쟁사들과의 격차를 벌리려는 강력한 의지를 가지고 있습니다. 하지만 이 과정에서 정보의 신뢰성이라는 근본적인 가치를 얼마나 지켜낼 수 있을지는 미지수입니다. 91%의 정확도라는 수치는 기술적인 진보를 보여주지만, 수천만 건의 오답이라는 그림자는 결국 사용자들의 정보 탐색 방식을 변화시키고, 나아가 사회 전체의 정보 소비 방식에 영향을 미칠 수 있습니다. 결국 우리는 AI가 가져다주는 편리함에 기대면서도, 그 이면에 숨겨진 오류 가능성을 늘 경계하고 비판적으로 정보를 받아들이는 능력을 키워야 하는 새로운 시대를 살고 있는지도 모르겠습니다.

출처

원문 제목: Testing suggests Google’s AI Overviews tell millions of lies per hour
출처: Artificial Intelligence - Ars Technica
원문 기사 보러가기

Article

구글 AI 오버뷰, 90% 정확도가 '충분하다'는 환상일까요?

90% 정확성의 불편한 진실

구글의 반론과 평가의 딜레마

신뢰와 편리함 사이, 우리는 어디에 서 있는가?

출처

Related News

TV가 AI 스튜디오로? 구글 TV 제미니 신기능, 단순 시청을 넘어선 경험!

클루리스의 꿈이 현실로? 구글 포토 AI, 당신의 옷장을 디지털화하다