AI 시대의 숨겨진 영웅: AI 추론 병목 현상을 우아하게 해결하는 김렛 랩스

최근 인공지능 분야는 전례 없는 폭발적인 성장을 거듭하고 있습니다. ChatGPT와 같은 생성형 AI 모델의 등장은 우리의 일상과 산업 전반을 뒤흔들었죠. 하지만 이러한 혁신의 이면에는 그림자처럼 따라오는 거대한 과제가 있습니다. 바로 기하급수적으로 늘어나는 AI 워크로드를 효율적으로 처리하는 문제입니다. 특히, AI 모델을 실제로 운영하고 사용자에게 서비스를 제공하는 과정, 즉 ‘AI 추론(inference)’ 단계에서의 비효율성은 데이터 센터의 엄청난 비용 부담과 에너지 소비로 이어지며 업계의 고질적인 골칫거리로 자리 잡았습니다. 이 문제를 해결하기 위해 많은 기업이 천문학적인 비용을 들여 더 많은 컴퓨팅 자원을 투입하는 방식에 의존하고 있습니다. 하지만 과연 이것이 지속 가능한 해결책일까요?

바로 이 지점에서, 스탠포드 겸임 교수이자 성공적인 엑시트 경험이 있는 설립자 Zain Asgar가 이끄는 스타트업 김렛 랩스(Gimlet Labs)가 주목할 만한 해답을 제시하며 8천만 달러(약 1,100억 원) 규모의 시리즈 A 투자를 유치했다는 소식은 실로 놀랍습니다. 멘로 벤처스(Menlo Ventures)가 주도한 이번 투자는 김렛 랩스가 AI 시대의 숨겨진 영웅이 될 가능성을 강력히 시사하고 있습니다.

비효율의 늪: 왜 AI 추론은 이렇게 비쌀까요?

AI, 특히 대규모 언어 모델(LLM)과 같은 복잡한 모델은 학습(training)과 추론(inference) 두 가지 주요 단계로 나뉩니다. 학습 단계는 막대한 양의 데이터를 기반으로 모델을 구축하는 과정이며, 추론 단계는 학습된 모델을 이용해 새로운 데이터에 대한 예측이나 답변을 생성하는 과정입니다. 오늘날 AI 서비스의 급증으로 추론 워크로드는 폭발적으로 증가하고 있습니다. 문제는 이 추론 과정이 특정 하드웨어에 크게 의존한다는 점입니다.

우리는 흔히 엔비디아(NVIDIA)의 GPU가 AI 하드웨어의 대명사처럼 여겨지지만, 사실 AI 워크로드의 모든 부분이 GPU에 최적화되어 있지는 않습니다. 예를 들어, 추론은 계산 집약적(compute-bound)인 반면, 디코딩은 메모리 집약적(memory-bound)이며, 도구 호출(tool calls)은 네트워크 집약적(network-bound)입니다. 멘로 벤처스의 리드 투자자 팀 툴리(Tim Tully)는 “아직 모든 것을 처리하는 단일 칩은 없다”고 지적합니다.

설상가상으로, 현재 데이터 센터에 배포된 하드웨어는 평균적으로 15%에서 30% 정도만 활용되고 있다고 Asgar는 말합니다. 사실 이건 엄청난 낭비입니다. 맥킨지(McKinsey)는 현재의 ‘더 많은 컴퓨팅 자원 투입’ 추세가 이어진다면 2030년까지 데이터 센터 지출이 무려 7조 달러에 육박할 것으로 추산했습니다. Asgar는 “수천억 달러를 낭비하고 있는 셈”이라며, “우리의 목표는 AI 워크로드를 10배 더 효율적으로 만드는 방법을 찾는 것”이었다고 강조합니다. 단순히 하드웨어 스펙 경쟁에 매몰될 것이 아니라, 이미 존재하는 자원을 얼마나 지능적으로 활용할지가 관건이라는 뜻이죠.

Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way

‘멀티-실리콘 추론 클라우드’의 등장: AI 오케스트라의 지휘자

김렛 랩스는 이러한 비효율성을 근본적으로 해결하기 위해 ‘멀티-실리콘 추론 클라우드(multi-silicon inference cloud)‘라는 소프트웨어를 개발했습니다. 그들은 이 소프트웨어가 “다양한 유형의 하드웨어에서 AI 워크로드를 동시에 실행할 수 있는 최초이자 유일한 솔루션”이라고 주장합니다. 이 시스템은 AI 애플리케이션의 작업을 전통적인 CPU, AI에 최적화된 GPU, 그리고 고성능 메모리 시스템 등 다양한 하드웨어에 걸쳐 분할하여 실행합니다.

솔직히 말해서, 이런 아이디어는 언뜻 단순해 보이지만, 그 구현은 엄청난 기술력을 요구합니다. 마치 오케스트라의 지휘자처럼, 김렛 랩스의 소프트웨어는 AI 에이전트 워크로드를 여러 조각으로 나누어, 각 부분이 가장 효율적으로 처리될 수 있는 하드웨어에 배정하는 오케스트레이션 역할을 수행합니다. 특정 작업은 엔비디아 GPU에서, 다른 부분은 AMD의 칩에서, 또 다른 부분은 인텔이나 ARM, 심지어는 세레브라스(Cerebras)나 디-매트릭스(d-Matrix)와 같은 전문 AI 가속기에서 동시에 진행될 수 있도록 말이죠. 심지어 김렛은 기초 모델 자체를 분할하여 모델의 각 부분에 가장 적합한 칩을 사용하여 실행할 수 있다고까지 주장합니다. 이는 정말 혁신적입니다.

이러한 지능적인 자원 배분 덕분에 김렛 랩스는 동일한 비용과 전력으로 AI 추론 속도를 3배에서 10배까지 향상시킬 수 있다고 합니다. 이 정도의 효율성 개선이라면 AI 운영 비용 절감뿐만 아니라, 더 빠르고 즉각적인 AI 서비스 제공을 가능하게 하여 사용자 경험을 비약적으로 끌어올릴 수 있겠죠. 게다가 환경적인 측면에서도 엄청난 의미를 가집니다. AI 데이터 센터의 탄소 발자국이 중요한 이슈로 떠오르는 지금, 하드웨어 활용률을 높여 불필요한 장비 증설을 막는 것은 지속 가능한 AI 시대를 위한 필수적인 노력입니다.

시장의 뜨거운 반응과 미래 전망

김렛 랩스의 솔루션은 단순히 ‘멋진 기술’에 그치지 않습니다. 그들은 이미 시장에서 뜨거운 반응을 얻고 있습니다. 작년 10월 공식 론칭 당시 이미 8자리 수(최소 1천만 달러)의 매출을 기록했다고 밝힌 바 있으며, 지난 4개월 동안 고객 기반이 두 배 이상 성장하여 주요 모델 제작사와 대형 클라우드 컴퓨팅 기업을 고객으로 확보했습니다. 비록 고객사 이름을 공개하지는 않았지만, 이는 김렛 랩스의 기술이 실제 산업 현장에서 얼마나 절실히 필요로 하는지를 방증하는 것 아닐까요?

물론 김렛 랩스의 제품은 일반 AI 앱 개발자를 위한 것이 아닙니다. 거대한 AI 모델 랩과 데이터 센터를 위한 솔루션이죠. 소프트웨어 형태로 제공되거나 자체 김렛 클라우드(Gimlet Cloud)의 API를 통해 이용 가능하다고 합니다. 이처럼 명확한 타겟 시장 설정과 문제 해결 능력은 투자자들의 마음을 사로잡기에 충분했습니다.

창업팀의 면면도 인상적입니다. Zain Asgar는 공동 설립자 Michelle Nguyen, Omid Azizi, Natalie Serrino와 함께 이전에 쿠버네티스(Kubernetes)를 위한 오픈 소스 관찰성 도구를 만들었던 픽시(Pixie)라는 스타트업에서 함께 일했습니다. 픽시는 런치 후 불과 두 달 만에 뉴렐릭(New Relic)에 인수될 정도로 뛰어난 기술력과 시장성을 보여줬던 팀입니다. 이러한 성공적인 엑시트 경험은 김렛 랩스 팀의 역량과 비전에 대한 신뢰를 더합니다.

이번 시리즈 A 투자 라운드가 빠르게 초과 청약(oversubscribed)되었다는 점, 그리고 Sequoia의 Bill Coughran, Stanford 교수 Nick McKeown, VMware 전 CEO Raghu Raghuram, Intel CEO Lip-Bu Tan과 같은 저명한 엔젤 투자자들의 참여는 김렛 랩스의 기술과 잠재력에 대한 업계의 높은 기대를 그대로 보여줍니다.

개인적으로는 김렛 랩스와 같은 솔루션이 AI 인프라의 미래를 재편할 핵심 동력이 될 것이라고 생각합니다. AI 기술의 발전 속도가 워낙 빨라 새로운 전용 칩들이 계속 등장하고 있지만, 기존 하드웨어와의 호환성 문제나 특정 칩에 대한 종속성 문제는 늘 골칫거리였습니다. 김렛 랩스는 이 모든 것을 아우르는 소프트웨어 레이어를 제공함으로써, 기업들이 다양한 하드웨어 자원을 효율적으로 통합하고 활용할 수 있는 길을 열어줍니다. 이는 단순히 비용 절감 차원을 넘어, AI 혁신의 속도를 가속화하고, 더 많은 기업이 AI의 혜택을 누릴 수 있도록 하는 데 크게 기여할 것입니다. 앞으로 이들이 AI 인프라 시장에서 어떤 변화를 이끌어낼지 정말 기대됩니다.

출처

원문 제목: Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way
출처: AI News & Artificial Intelligence | TechCrunch
원문 기사 보러가기

Article

AI 시대의 숨겨진 영웅: AI 추론 병목 현상을 우아하게 해결하는 김렛 랩스

비효율의 늪: 왜 AI 추론은 이렇게 비쌀까요?

‘멀티-실리콘 추론 클라우드’의 등장: AI 오케스트라의 지휘자

시장의 뜨거운 반응과 미래 전망

출처

Related News

TV가 AI 스튜디오로? 구글 TV 제미니 신기능, 단순 시청을 넘어선 경험!

클루리스의 꿈이 현실로? 구글 포토 AI, 당신의 옷장을 디지털화하다