완벽한 데이터? NO! AI 시대, 데이터 신화와 비용 지속 가능성의 진실

최근 몇 년간 생성형 인공지능(Generative AI)의 폭발적인 성장은 기업들에게 혁신의 새로운 물결을 가져왔습니다. 챗GPT와 같은 모델들이 보여준 경이로운 능력은 많은 조직이 AI 도입을 서두르게 만들었죠. 하지만 동시에 ‘우리 회사는 AI를 도입하기에는 데이터가 부족하거나 너무 지저분해’라는 회의적인 시각도 만연해 있습니다. 데이터 전처리(data pre-processing)에 대한 부담, 완벽한 데이터 세트에 대한 강박은 AI 도입의 주요 걸림돌로 작용해왔습니다. 그러나 전략적 기술 제공업체인 JBS Dev의 조 로즈(Joe Rose) 사장은 이러한 통념에 정면으로 도전하며, AI 시스템과의 협업 방식에 대한 새로운 관점을 제시하고 있습니다. 그는 “완벽한 데이터가 있어야만 AI 워크로드를 수행할 수 있다는 것은 흔한 오해”라고 단언합니다.

데이터 완벽주의의 함정: 신화와 현실 사이

대부분의 기업은 새로운 기술을 도입할 때 가장 먼저 ‘데이터 준비’라는 거대한 산에 직면합니다. 특히 인공지능 분야에서는 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)‘는 격언이 금과옥조처럼 여겨지며, 기업들은 수백만 달러를 들여 데이터 레이크를 구축하고 수년에 걸친 데이터 전환 프로그램을 계획하곤 합니다. AI Fieldbook의 최근 기사가 시사하듯, 벤더와 컨설턴트들은 이러한 접근 방식을 당연하게 권장하며, 기업 경영진들은 이 복잡한 과정 앞에서 머리를 싸매기 일쑤입니다.

하지만 조 로즈 사장은 현실이 이와는 사뭇 다르다고 강조합니다. 그는 “불량 데이터를 처리하는 툴링이 지금처럼 좋았던 적은 없었다”고 말합니다. 솔직히 말해서, 이 말은 매우 고무적입니다. 그에 따르면, 대규모 언어 모델(LLM)은 ‘반쯤 쓰인 프롬프트’조차도 놀랍도록 잘 이해하고 처리할 수 있습니다. 이는 AI가 우리가 생각하는 것보다 훨씬 더 유연하고, 인간의 의도를 파악하는 데 능숙하다는 의미입니다. 완벽하게 정제된 데이터가 아니더라도, AI가 그 안에서 의미 있는 패턴과 정보를 추출해낼 수 있다는 거죠.

JBS Dev: On imperfect data and the AI last mile – from model capability to cost sustainability

실제로 로즈 사장은 의료 분야 고객 사례를 들며 이러한 주장을 뒷받침합니다. 한 고객사는 청구서 조정 시스템을 다른 시스템으로 마이그레이션해야 했는데, 기록들은 PDF, 이미지 등 다양한 형식으로 섞여 있었고, 때로는 시술자 이름이 환자 이름으로 잘못 기재되는 등 지저분한 상태였습니다. 이러한 혼란스러운 데이터 환경에서 생성형 AI는 단순히 프롬프트를 통해 광학 문자 인식(OCR) 기술로 이미지에서 텍스트를 추출하고, PDF에서 필요한 정보를 추출해 클린 데이터를 분류해냈습니다. 이어서 에이전트(Agentic) AI 접근 방식은 고객 기록을 보험 계약과 비교하여 청구 요율이 올바른지 확인하는 등 복잡한 검증 작업을 수행했습니다.

물론, AI가 모든 것을 완벽하게 처리하는 것은 아닙니다. 로즈 사장도 “아직 **인간의 개입(human in the loop)**이 필요하다”고 인정합니다. 하지만 중요한 것은 점진적인 자동화입니다. 처음에는 20% 자동화에서 시작하여 40%, 60%, 80%로 자동화율을 점차 늘려나가는 방식으로 시스템을 성장시킬 수 있다는 것이죠. 개인적으로는 이 부분이 많은 기업에 실질적인 희망을 줄 수 있다고 생각합니다. AI 도입의 초기 장벽을 낮추고, 가치 창출에 집중할 수 있도록 유도하는 현실적인 로드맵을 제시하기 때문입니다. 완벽주의에 갇혀 시작조차 못 하는 대신, 불완전함 속에서도 AI의 잠재력을 적극적으로 활용하려는 유연한 접근 방식이 필요하다는 메시지로 해석됩니다.

AI 시스템의 진화: 인간과 기계의 협업, 그리고 ‘라스트 마일’

과거의 IT 시스템들은 한 번 구축되면 “만들면 끝(we build it, it works, we forget about it)“이라는 인식이 강했습니다. 하지만 생성형 및 에이전트 AI 시스템은 다릅니다. 이들은 본질적으로 예측 불가능성을 내포하며, 예상치 못한 결과물을 내놓을 수 있습니다. 따라서 인간의 지속적인 개입은 선택이 아닌 필수 요소가 됩니다. AI가 실수를 저지를 때 이를 감지하고 수정하며, 시스템을 개선하는 과정에서 인간의 역할이 무엇보다 중요하죠. 텍스트 데이터나 범주형 데이터의 경우, 이러한 **회복탄력성(resilience)**을 기반으로 사람과 AI가 상호작용하며 결과물의 품질을 향상시킬 수 있습니다.

로즈 사장은 앞으로 AI 모델에 대한 논의가 **비용과 이동성(portability)**에 집중될 것이라고 전망합니다. 그는 “모델 역량의 급진적인 도약보다는, 데이터센터를 지금처럼 빠른 속도로 구축하지 않아도 될 만큼 비용을 어떻게 더 지속 가능하게 만들 것인가”에 대한 논의로 전환될 것이라고 말합니다. 이는 매우 현실적인 관점입니다. 현재 거대 AI 모델들을 훈련하고 운영하는 데는 막대한 컴퓨팅 자원과 에너지가 소모됩니다. 이러한 비용 구조는 소수의 거대 기술 기업만이 AI 개발을 주도할 수 있는 환경을 만들고 있습니다.

로즈 사장이 말하는 **‘AI 라스트 마일(AI last mile)‘**은 바로 이러한 맥락에서 등장합니다. “라스트 마일은 이러한 시스템을 데이터센터에서 실행하는 대신 노트북이나 휴대폰에서 실행할 수 있도록 하는 것”이라고 그는 설명합니다. 현재의 모델들은 인터넷의 거의 모든 페이지와 기타 방대한 데이터를 기반으로 훈련되었습니다. 그는 더 이상 이 모델들에 “획기적인 발전을 가져올 만한 엄청나게 많은 새로운 데이터가 추가될 것 같지는 않다”고 보기에, 모델 자체의 역량 향상보다는 운영 효율성과 접근성이 더욱 중요해질 것이라는 판단입니다.

이러한 ‘라스트 마일’ 개념은 AI 기술의 보편화와 민주화에 직접적으로 연결됩니다. AI가 특정 데이터센터의 고성능 서버에 갇혀있는 것이 아니라, 개인의 기기에서 저전력으로 작동할 수 있다면, 우리는 훨씬 더 다양한 AI 애플리케이션과 서비스를 만날 수 있을 것입니다. 개인적으로는, 엣지 AI(Edge AI) 기술의 발전과 소형 언어 모델(Small Language Model, SLM)의 등장이 바로 이러한 ‘라스트 마일’ 비전을 실현하는 핵심 동력이 될 것이라고 생각합니다. 비용 효율성과 함께 사용자에게 더 빠르고 개인화된 경험을 제공하는 것은 미래 AI 시장의 성패를 가를 중요한 요소가 될 것입니다.

SaaS 구매 대신 직접 구축? 클라우드 툴링의 잠재력

AI & Big Data Expo에 JBS Dev의 대표로 참여하는 로즈 사장은 한 가지 더 ‘논란의 여지가 있는’ 의견을 제시할 것이라고 밝혔습니다. 그는 사람들에게 SaaS(Software-as-a-Service) 벤더로부터 구매하는 것을 멈추고 직접 구축해 보라고 조언합니다. “생각보다 어렵지 않다”는 것이 그의 주장입니다.

대부분의 기업은 이미 클라우드 환경에 발을 들이고 있으며, 그는 바로 그곳에서 시작해야 한다고 말합니다. 특히 아마존 웹 서비스(AWS), 마이크로소프트 애저(Azure), 구글 클라우드 플랫폼(GCP)과 같은 ‘빅 3’ 클라우드 제공업체의 툴링은 에이전트 워크로드를 구현하는 데 필요한 모든 것을 제공한다는 설명입니다. 새로운 소프트웨어 라이선스나 별도의 교육 없이도 ‘내일부터’ 바로 시작할 수 있다는 것이죠.

이러한 주장은 SaaS 모델에 익숙해져 있는 많은 기업에게는 신선한 충격일 수 있습니다. SaaS는 편리함과 빠른 도입 속도라는 분명한 장점을 가지고 있지만, 동시에 특정 벤더에 대한 종속성, 커스터마이징의 한계, 그리고 장기적인 관점에서의 비용 효율성 문제 등 단점도 존재합니다. 로즈 사장의 관점은 기업이 자체적으로 클라우드 기반의 AI 인프라를 구축하고 관리함으로써, 더 큰 유연성, 통제권, 그리고 잠재적인 비용 절감 효과를 얻을 수 있다는 것을 시사합니다.

물론, 직접 구축은 초기 설정과 운영에 있어 일정 수준의 기술 역량과 노력이 필요합니다. 하지만 클라우드 툴링이 계속해서 발전하고 사용자 친화적으로 변해가면서, 이러한 진입 장벽은 점차 낮아지고 있습니다. JBS Dev는 바로 이러한 여정의 다음 단계를 지원하는 역할을 자처하며, 기업들이 자체적인 AI 역량을 강화할 수 있도록 돕는다는 포지셔닝입니다.

솔직히 말해서, 많은 기업이 SaaS 솔루션을 너무 쉽게 선택하는 경향이 있습니다. 당장의 편리함 때문에 장기적인 전략적 이점을 간과하는 것이죠. 클라우드 기반의 직접 구축은 단순히 비용 절감 차원을 넘어, 기업이 AI 기술을 핵심 역량으로 내재화하고, 고유한 비즈니스 니즈에 맞춰 최적화된 시스템을 구축할 수 있는 기회를 제공합니다. 이는 AI 시대에 기업의 경쟁력을 근본적으로 강화하는 길이 될 것입니다.

▶️ 관련 영상 보기

출처

원문 제목: JBS Dev: On imperfect data and the AI last mile – from model capability to cost sustainability
출처: AI News
원문 기사 보러가기

Article

완벽한 데이터? NO! AI 시대, 데이터 신화와 비용 지속 가능성의 진실

데이터 완벽주의의 함정: 신화와 현실 사이

AI 시스템의 진화: 인간과 기계의 협업, 그리고 ‘라스트 마일’

SaaS 구매 대신 직접 구축? 클라우드 툴링의 잠재력

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유