우리가 매일 대화하는 AI 챗봇이 당신의 전화번호를 알고 있다면?

최근 당신은 AI 챗봇에게 업무 관련 질문을 하거나, 복잡한 정보를 요청하며 얼마나 편리함을 느끼셨나요? 복잡한 코드 작성부터 여행 계획, 심지어 식단 추천까지, 이제 AI는 우리 삶의 너무나 자연스러운 일부가 되었습니다. 하지만 만약 이 똑똑하고 유용한 AI가 당신의 가장 사적인 정보, 이를테면 전화번호를 당신도 모르는 사이에 다른 사람에게 알려주고 있다면 어떨까요? 혹은 당신이 전혀 알지 못하는 누군가의 전화번호를 제멋대로 생성해내 당신에게 보여준다면요? 상상만 해도 등골이 오싹해지는 시나리오이지만, 안타깝게도 이는 더 이상 공상 과학 속 이야기가 아닙니다. 지금 이 순간, 전 세계 수많은 사람들이 이 끔찍한 현실과 마주하고 있습니다.

편리함 뒤에 숨겨진 그림자: 구글 AI가 당신의 번호를 알고 있다면?

레딧(Reddit)의 한 사용자는 최근 한 달간 자신의 전화기가 걸려오는 낯선 전화들로 끊이지 않았다고 호소했습니다. 변호사를 찾는 사람, 제품 디자이너를 찾는 사람, 심지어는 자물쇠 수리공을 찾는 사람까지, 이들은 모두 구글의 생성형 AI가 제공한 잘못된 정보 때문에 그에게 연락하고 있었다고 합니다. 상상해 보세요. 영문도 모른 채 하루에도 수십 통씩 걸려오는 낯선 전화벨 소리, 그리고 그들이 모두 엉뚱한 서비스를 찾아 당신에게 연락했다는 사실을 알게 되었을 때의 황당함과 좌절감. 솔직히 말해서, 저라면 휴대폰을 꺼버리고 싶었을 겁니다.

이러한 기이한 사건은 비단 미국에서만 벌어진 일이 아닙니다. 지난 3월, 이스라엘의 한 소프트웨어 개발자 다니엘 아브라함(Daniel Abraham) 씨는 왓츠앱(WhatsApp)을 통해 낯선 이로부터 메시지를 받았습니다. 구글 챗봇 제미니(Gemini)가 이스라엘 결제 앱 ‘페이박스(PayBox)‘의 고객 서비스 지침에 아브라함 씨의 개인 전화번호를 포함하여 제공했기 때문이었습니다. 문제는 아브라함 씨가 페이박스에 소속된 직원이 아니었고, 페이박스 역시 왓츠앱 고객 서비스를 운영하지 않는다는 점이었습니다. 그는 처음에는 스팸이나 장난으로 생각했지만, 제미니의 스크린샷을 보고는 충격을 금치 못했다고 합니다. 더욱 놀라운 점은 그가 나중에 직접 제미니에게 페이박스 연락처를 물었을 때, 제미니는 또 다른 사람의 왓츠앱 번호를 생성해냈다는 사실입니다. 제미니는 한 번의 실수가 아니라, 계속해서 다른 사람의 개인 정보를 무작위로 노출하고 있었던 것이죠.

심지어 워싱턴 대학의 한 박사 과정 학생은 제미니를 가지고 실험하던 중, 동료의 개인 휴대폰 번호를 얻어내는 데 성공했습니다. 전문가들은 이러한 프라이버시 침해가 AI 챗봇이 학습한 데이터에 개인 식별 정보(PII: Personally Identifiable Information)가 포함되어 있기 때문일 가능성이 높다고 지적합니다. 하지만 정확히 어떤 메커니즘으로 인해 실제 전화번호가 AI 생성 응답에 나타나는지 파악하기는 어렵다고 합니다. 문제는 그 원인이 무엇이든 간에, 결과적으로 피해를 입는 개인은 속수무책이라는 사실입니다. 이 상황에서 우리는 무엇을 할 수 있을까요? 사실상 아무것도 할 수 있는 일이 없어 보인다는 점이 더욱 큰 좌절감을 안겨줍니다.

당신의 정보는 어떻게 AI의 먹이가 되었나? 🤔

대체 어떻게 이런 일이 일어나는 걸까요? 인공지능 연구자들과 온라인 프라이버시 전문가들은 생성형 AI가 개인 프라이버시에 가하는 무수한 위험에 대해 오랫동안 경고해왔습니다. 그리고 이러한 사례들은 AI가 사람들의 실제 전화번호를 노출할 수 있다는 또 다른 심각한 우려를 제기합니다.

솔직히 말해서, 현대의 대규모 언어 모델(LLM)들은 웹에서 긁어모은 방대한 양의 데이터로 학습됩니다. 이 과정에서 수억 건의 PII가 불가피하게 포함됩니다. 작년 여름 MIT 기술 리뷰가 보도했듯이, 이미지 생성 모델 훈련에 사용된 인기 있는 오픈 소스 데이터 세트인 ‘데이터콤 커먼풀(DataComp CommonPool)‘에는 이력서, 운전면허증, 심지어 신용카드 사본까지 포함되어 있었다고 합니다. 상상만 해도 끔찍하지 않습니까? 내 개인 정보가 나도 모르는 사이에 AI의 ‘학습 자료’가 되어 세상에 재배포될 수 있다는 것이요.

더 큰 문제는 데이터의 ‘고갈’입니다. 고품질의 공개 데이터가 점점 부족해지면서, AI 기업들은 새로운 학습 데이터 소스를 찾아 나서고 있습니다. 여기에는 데이터 브로커(Data Broker)와 개인 정보 검색 웹사이트에서 얻은 정보까지 포함됩니다. 예를 들어, 캘리포니아 데이터 브로커 등록부에 따르면, 주에서 운영되는 578개의 등록된 데이터 브로커 중 31개가 지난 한 해 동안 “소비자 데이터를 생성형 AI 시스템 또는 모델 개발자에게 공유하거나 판매했다”고 자진 신고했습니다. 이 부분에서 주목할 점은, 이제 PII가 AI 학습 데이터에 ‘실수로’ 포함되는 것을 넘어, 의도적으로 ‘수집되어’ AI에 판매되는 경로가 생겼다는 것입니다. 개인적으로는 이 지점에서 AI 개발사들의 윤리적 책임과 데이터 거버넌스에 대한 깊은 고민이 필요하다고 봅니다. 이는 단순히 기술적 문제가 아니라, 사회적 신뢰와 직결되는 사안이기 때문입니다.

더욱이, 모델들은 학습 데이터 세트에서 정보를 문자 그대로 기억하고 재생산하는 것으로 알려져 있습니다. 최근 연구에 따르면 자주 나타나는 데이터뿐만 아니라 특정 데이터도 기억될 가능성이 높다고 하니, 한 번 학습된 개인 정보는 언제든 튀어나올 수 있다는 의미입니다.

AI chatbots are giving out people’s real phone numbers

실제로 인터넷에서 개인 정보를 삭제하는 데 도움을 주는 회사인 ‘딜리트미(DeleteMe)‘에 따르면, 지난 7개월 동안 생성형 AI 관련 고객 문의가 400% 증가하여 수천 건에 달했다고 합니다. 이러한 문의는 특히 ChatGPT, Claude, Gemini 또는 다른 생성형 AI 도구를 구체적으로 언급하며, ChatGPT 관련이 55%, Gemini 20%, Claude 15%, 기타 AI 도구가 10%를 차지했다고 합니다. 이는 문제가 얼마나 광범위하게 퍼져있는지를 보여주는 명확한 증거입니다.

딜리트미의 CEO 롭 샤벨(Rob Shavell)은 LLM에 의해 개인 정보가 노출되는 유형을 두 가지로 설명합니다. 첫째, 고객이 자신에 대한 무해한 질문을 챗봇에게 했을 때, 정확한 집 주소, 전화번호, 가족 구성원 이름 또는 고용주 정보 등을 되돌려 받는 경우입니다. 둘째, 챗봇이 “그럴듯하지만 잘못된 연락처 정보”를 생성하여 다른 사람의 개인 데이터를 노출하는 경우입니다. 다니엘 아브라함 씨의 사례는 후자에 해당하며, 이처럼 무고한 제3자가 피해를 입는 경우도 비일비재하다는 점이 놀랍습니다.

멈출 수 없는 유출, 우리는 무엇을 할 수 있을까?

그렇다면 AI 개발사들은 이 문제에 대해 아무런 조치도 취하고 있지 않을까요? 현재는 LLM 설계에 특정 출력값을 제한하기 위한 ‘안전장치(guardrails)‘를 구축하는 것이 일반적인 관행입니다. 콘텐츠 필터는 PII를 식별하고 챗봇이 이를 공개하지 못하도록 하는 것을 목표로 하며, 앤트로픽(Anthropic)은 클로드(Claude)에게 “다른 사람에게 속한 가장 적은 개인적, 사적, 또는 기밀 정보를 포함하는” 응답을 선택하도록 지시합니다. 하지만 워싱턴 대학의 두 박사 과정 학생이 최근 직접 경험했듯이, 이러한 안전장치가 항상 작동하는 것은 아닙니다.

이 지점에서 개인적으로는 AI 기술의 발전 속도와 그에 따른 윤리적, 법적, 사회적 합의 및 안전장치 마련의 속도 간의 불균형이 심각하다고 생각합니다. 솔직히 말해서, 현재로서는 개인 사용자가 자신의 전화번호가 AI에 의해 유출되는 것을 막을 수 있는 쉬운 방법은 없어 보입니다. 이미 웹에 공개된 정보라면 AI의 학습 데이터에 포함될 가능성이 크고, AI는 이를 언제든 재구성하여 배출할 수 있기 때문입니다. 다니엘 아브라함 씨의 경우처럼, 그의 전화번호는 2015년에 한 지역 사이트에 공유된 적이 있었고, 이것이 10년 후 제미니에 의해 재현된 것이었습니다. 한 번 인터넷에 공개된 정보는 영원히 남아 AI의 먹이가 될 수 있다는 섬뜩한 경고인 셈입니다.

업계 흐름을 보면, 앞으로도 AI 학습을 위한 데이터 수집은 더욱 활발해질 것이며, 이 과정에서 PII의 노출 위험 또한 증대될 가능성이 높습니다. 이러한 현실 속에서 우리는 AI 기술의 발전을 환영하는 동시에, 우리의 프라이버시가 침해당하지 않도록 끊임없이 경계하고 목소리를 내야 합니다. AI 개발사들은 더 투명하게 학습 데이터를 공개하고, PII 감지 및 제거 메커니즘을 더욱 강력하게 구축하며, 사용자에게 자신의 정보가 어떻게 사용되는지에 대한 명확한 통제권을 부여해야 할 것입니다. 그렇지 않다면, AI는 편리함을 넘어 우리 삶의 심각한 ‘골칫거리’가 될지도 모릅니다. 우리는 더 이상 AI가 우리에게 어떤 정보를 줄 것인가만 고민할 것이 아니라, AI가 우리에 대해 어떤 정보를 알고 있으며, 이를 어떻게 다룰 것인가에 대한 근본적인 질문을 던져야 할 때입니다.

출처

원문 제목: AI chatbots are giving out people’s real phone numbers
출처: MIT Technology Review
원문 기사 보러가기

Article

우리가 매일 대화하는 AI 챗봇이 당신의 전화번호를 알고 있다면?

편리함 뒤에 숨겨진 그림자: 구글 AI가 당신의 번호를 알고 있다면?

당신의 정보는 어떻게 AI의 먹이가 되었나? 🤔

멈출 수 없는 유출, 우리는 무엇을 할 수 있을까?

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유