AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

“데이터는 훨씬 더 많이 존재한다는 것을 보여줍니다. 우주를 생각해 보세요. 거기에 있지만, 당신은 모르는 것을 모릅니다.” 웹 데이터 수집 플랫폼 브라이트 데이터(Bright Data)의 CEO인 오어 렌치너(Or Lenchner)의 이 발언은, 오늘날 우리가 직면한 인공지능 시대의 가장 본질적인 도전을 날카롭게 꿰뚫고 있습니다. AI 기술의 발전은 매일 새로운 활용 사례를 만들어내며 우리 삶의 모든 영역으로 침투하고 있지만, 정작 그 기반이 되어야 할 ‘데이터’는 역설적으로 AI의 발목을 잡는 주요 걸림돌이 되고 있습니다. 기업들은 AI의 잠재력을 최대한 활용하기 위해 대규모의 데이터를 필요로 하지만, 이 방대한 정보는 대부분 잠겨 있거나, AI 모델이 쉽게 사용할 수 없는 비정형 상태로 존재하고 있습니다.

사실 웹 자체는 처음부터 AI와 같은 자동화된 발견 및 검색을 위해 설계되지 않았습니다. 수십 년 전 인터넷이 처음 고안될 당시, 누군가가 미래에 인공지능이 웹을 샅샅이 뒤져 실시간 정보를 습득하리라고는 상상조차 하기 어려웠을 것입니다. 웹은 인간 사용자가 브라우저를 통해 내용을 읽고 상호작용하는 방식으로 발전해왔습니다. 이런 근본적인 설계의 한계를 극복하는 것은 단순히 몇몇 기술적 트릭만으로는 불가능하며, 새로운 차원의 인프라가 필요합니다. 이것이 바로 AI의 다음 개척지가 될 수 있는 ‘웹 데이터 인프라 계층’이 주목받는 이유입니다.

정체된 데이터로는 AI가 숨 쉴 수 없다

초기 AI 혁신은 주로 방대한 훈련 데이터와 모델 크기를 확장하는 데 집중되었습니다. 마치 거대한 댐을 쌓아 엄청난 양의 물을 한꺼번에 저장하는 것과 같았죠. 하지만 이제 조직들은 근본적인 병목 현상에 직면하고 있습니다. AI 모델의 출력이 현재적이고 검증 가능한 정보에 기반을 두려면, 역동적이고 비정형적이며 끊임없이 진화하는 웹 데이터의 속도를 따라잡아야 한다는 것입니다.

우리의 일상은 쉴 새 없이 변합니다. 경쟁사의 가격 정책, 소비자 심리, 시장 트렌드는 시시각각 변동하며, 이러한 변화를 AI가 추적하려면 과거의 ‘스냅샷’ 데이터만으로는 턱없이 부족합니다. 전통적인 모델 훈련 방식은 특정 시점에 수집된 정보에 의존하는데, 이러한 정적 데이터로 AI를 훈련하는 것은 더 이상 충분하지 않습니다. 기업들은 끊임없이 새로운 정보의 흐름, 즉 관련 맥락과 함께 실시간으로 데이터를 끌어올 수 있는 능력을 필요로 합니다. 렌치너는 이렇게 말합니다. “실시간 정보를 검색할 수 없다면, 그것은 맥락이 부족한 것입니다. 비즈니스 환경에서 이는 더 이상 용납될 수 없습니다. 오래된 답변은 나쁜 결정과 실망한 소비자로 이어집니다.”

실제로 저는 이 부분에서 AI 발전의 패러다임 변화를 읽을 수 있다고 생각합니다. 과거에는 컴퓨팅 파워와 모델 아키텍처가 AI 성능의 주요 지표였다면, 이제는 시스템의 컴퓨팅, 네트워킹, 검색(retrieval), 그리고 데이터 엔지니어링 역량이 그 중요성을 더하고 있습니다. 다시 말해, 시스템이 신선하고 관련성 있으며 신뢰할 수 있는 데이터를 얼마나 빠르고 안정적으로 가져올 수 있는지가 AI 성능을 좌우하게 된 것입니다. 속도는 단순한 편의의 문제가 아니라, 오늘날 끊임없이 변하는 가격, 재고, 시장, 보안 위협, 고객 행동 속에서 운영되는 조직에게는 생존의 문제가 되었습니다. 데이터 검색이 지연되면 아무리 정교한 모델이라도 그 유용성이 급격히 떨어질 수밖에 없습니다.

The emergence of the web data infrastructure layer for AI

더 나아가, 실시간으로 고품질 웹 데이터를 사용하는 것은 AI 모델의 환각(hallucination) 현상을 줄이는 데에도 결정적인 역할을 합니다. 모델이 더 풍부하고 관련성 높은 지식 기반을 갖게 되기 때문이죠. 이는 곧 사용자 신뢰로 직결됩니다. 실제로 한 설문조사에 따르면 AI 전문가의 56%가 AI 출력에 대한 신뢰를 높이기 위해 실시간 웹 데이터에 대한 접근이 필요하다고 답했습니다. 단순히 데이터를 많이 가져오는 것을 넘어, 모델이 효율적이고 효과적으로 작동하도록 필요한 핵심 정보만을 추출하고 최적화하는 과정 역시 중요합니다.

RAG의 한계와 새로운 데이터 인프라의 탄생

모델이 쿼리 시점에 외부 데이터를 가져오는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술이 도입되었음에도 불구하고, 여전히 많은 AI 시스템은 운영 환경에서 최신성, 상황 관련성, 신뢰성을 갖춘 출력을 제공하는 데 어려움을 겪고 있습니다. 가트너(Gartner)의 보고서에 따르면, 정확하고 구조화되어 있으며 조직화되고 맥락화된 ‘AI 준비 데이터(AI-ready data)‘로 지원되지 않는 AI 프로젝트의 60%가 올해 말까지 중단될 것이라고 합니다. 이는 대규모 검색만으로는 문제가 해결되지 않는다는 점을 명확히 보여줍니다. 렌치너는 말합니다. “데이터를 대규모로 검색해야 하지만, 실시간으로도 검색해야 합니다. 최종 사용자가 출력을 기다리고 있기 때문에 지연 시간(latency)이 문제가 됩니다.”

신선하고 AI 준비가 된 데이터를 대규모로 접근하는 것은 기술적, 구조적 도전 과제를 안고 있습니다. 실제 많은 기업 시스템은 공개 웹 검색, API, 라이선스 데이터셋, 그리고 독점적인 내부 데이터를 AI 애플리케이션에 결합하여 사용합니다. 이러한 파편화된 소스들을 시기적절하고 활용 가능한 지식 계층으로 통합하는 것은 매우 전문적인 역량을 요구합니다. 한 연구에 따르면 AI 조직의 97%가 실시간 웹 데이터 인프라에 의존하고 있지만, 90%는 다양한 제한에 갇혀 있다고 느끼는 것으로 나타났습니다. 기업들은 이러한 제약을 극복하기 위한 기술적 접근 방식을 점차적으로 개발하고 있습니다.

렌치너는 훈련된 모델을 ‘지능’으로, 관련 데이터를 ‘지식’으로 비유하며 이렇게 설명합니다. “텅 빈 지식 계층 위에 강력한 지능 계층이 앉아 있는 것은 아무것도 모르는 천재와 같습니다. 실제로는 쓸모가 없죠. 지능과 지식은 함께 와야 합니다.”

바로 이 지점에서 새로운 웹 데이터 인프라 계층이 등장합니다. 이 새로운 계층은 데이터 발견, 실시간 접근, 그리고 특정 맥락에 맞춘 데이터 재단 기능을 통해 AI 입력에 대한 강화되는 필요를 충족시킬 수 있습니다. 렌치너는 이를 “대규모로 데이터를 수집하고, 초저지연으로, 차단되지 않으면서 모든 것을 가능하게 하는 것”이라고 설명합니다.

사람처럼 웹을 탐색하며 데이터의 잠금을 해제하다

흥미롭게도 이러한 종류의 플랫폼은 단순히 컴퓨팅 파워를 늘리는 방식이 아닙니다. 대신, 인간의 브라우징 행동을 모방하여 사용 가능한 콘텐츠에 접근하고, 원시 코드를 구조화된 데이터 피드로 변환합니다. 자바스크립트(JavaScript)가 많이 사용되거나 공격적인 봇 방지 소프트웨어가 적용된 웹사이트 등 기존 스크래핑 도구로는 상호작용하기 어려운 웹사이트에서도 작동할 수 있다는 점이 핵심입니다.

렌치너는 이러한 작동 방식을 더 자세히 설명합니다. “기본적으로 IP 주소, 위치, 그리고 1,000가지 이상의 매개변수를 가진 웹 사용자를 모방할 수 있는 인프라를 갖는 것입니다. 그것도 대규모로 말이죠. 수백만 개의 웹사이트에 대해 하루 800억 번 이러한 작업을 수행한다고 생각해 보세요. 그리고 매번 웹사이트가 예상하는 모습 그대로 보이는 것입니다.” 이는 단순히 데이터를 긁어오는 수준을 넘어, 웹사이트와 ‘자연스럽게’ 상호작용하며 필요한 정보를 얻어내는 고도화된 기술임을 시사합니다.

하지만 이러한 지속적인 데이터 검색은 새로운 데이터 거버넌스 과제를 초래하기도 합니다. 솔직히 말해서, 대규모 웹 데이터 수집은 개인 정보 보호 및 법적 준수와 항상 충돌할 가능성이 있습니다. 이 문제를 해결하기 위해 플랫폼은 EU의 일반 데이터 보호 규정(GDPR)과 캘리포니아 소비자 개인 정보 보호법(CCPA)과 같은 글로벌 개인 정보 보호 프레임워크에 맞춰 엄격한 준수 프로토콜을 시행해야 합니다. 개인적으로는 이러한 기술적 진보 뒤에는 반드시 윤리적, 법적 책임감이 동반되어야 한다고 생각합니다. 단순히 데이터를 ‘얻을 수 있다’는 이유만으로 모든 데이터를 무차별적으로 수집하는 것은 지속 가능한 AI 생태계를 저해할 수 있기 때문입니다. 기술 발전과 더불어 책임감 있는 데이터 활용 원칙을 확립하는 것이 매우 중요합니다.

결론적으로, AI의 미래는 모델 자체의 발전뿐만 아니라, 그 모델이 학습하고 상호작용할 수 있는 데이터의 질과 접근성에 크게 좌우됩니다. 웹이라는 거대한 정보의 바다에서 잠겨 있던 데이터를 해방하고, 이를 실시간으로 AI 모델에 공급하는 새로운 웹 데이터 인프라 계층은 AI의 잠재력을 완전히 실현하기 위한 필수적인 토대가 될 것입니다. 지능과 지식이 결합될 때 비로소 진정으로 유용한 AI가 탄생할 수 있다는 렌치너의 말처럼, 이 새로운 인프라는 그 결합을 현실로 만들고 있습니다.

출처

원문 제목: The emergence of the web data infrastructure layer for AI
출처: MIT Technology Review
원문 기사 보러가기

Article

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

정체된 데이터로는 AI가 숨 쉴 수 없다

RAG의 한계와 새로운 데이터 인프라의 탄생

사람처럼 웹을 탐색하며 데이터의 잠금을 해제하다

출처

Related News

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유

기술의 양날의 검: 인류는 어디로 향하고 있는가?