로컬 AI의 속도를 4배 끌어올린 구글 딥마인드의 비책: DiffusionGemma 파헤치기

최근 인공지능 기술의 발전은 숨 가쁘게 진행되고 있습니다. 특히, 대규모 언어 모델(LLM)의 등장 이후 클라우드 기반의 강력한 AI 서비스들이 쏟아져 나오고 있지만, 동시에 개인 기기나 온프레미스 환경에서 AI를 구동하려는 로컬 AI에 대한 관심과 수요 또한 폭발적으로 증가하는 추세입니다. 개인 정보 보호, 낮은 지연 시간, 오프라인 접근성 등 여러 장점에도 불구하고, 로컬 AI는 하드웨어 제약으로 인해 속도와 효율성 면에서 클라우드 기반 모델에 비해 약점을 가질 수밖에 없었습니다. 이러한 맥락에서, 구글 딥마인드가 기존의 고정관념을 깨는 새로운 접근 방식의 모델을 선보여 업계의 이목을 집중시키고 있습니다. 바로 ‘DiffusionGemma’입니다.

확산 모델, 텍스트 생성의 새로운 패러다임을 열다: DiffusionGemma 등장

구글 딥마인드는 오픈 모델 제품군인 Gemma 4 시리즈의 새로운 멤버로 DiffusionGemma를 공개했습니다. 이 모델은 기존의 대부분 AI 모델과는 근본적으로 다른 방식으로 작동합니다. 대다수의 AI 모델, 특히 텍스트 생성 모델은 자기회귀(autoregressive) 방식을 따릅니다. 이는 마치 사람이 글을 쓰듯 왼쪽에서 오른쪽으로, 한 번에 하나의 토큰(단어 또는 단어 조각)을 순차적으로 생성해 나가는 방식이죠. 이러한 선형적인 방식은 논리적인 흐름을 유지하는 데 유리하지만, 본질적으로 속도 병목 현상이 발생할 수 있습니다.

반면, DiffusionGemma는 확산(Diffusion) 모델이라는 점에서 차별화됩니다. 확산 모델은 주로 이미지 생성 분야에서 놀라운 성과를 보여줬던 기술로, 무작위 노이즈(static)에서 시작하여 점차 노이즈를 제거(denoise)하며 원하는 이미지를 만들어내는 방식입니다. DiffusionGemma는 이러한 개념을 텍스트 생성에 접목했습니다. 즉, 빈 캔버스에 무작위 **플레이스홀더 토큰(placeholder tokens)**을 채워 넣은 후, 이를 여러 번 반복적으로 수정하고 개선하면서 가장 적합한 토큰들을 추정해나갑니다. 이 과정을 통해 최종적으로는 “노이즈 제거된” 텍스트 캔버스가 하나의 커다란 블록으로 완성되는 것입니다. 쉽게 말해, 기존 모델이 한 땀 한 땀 수를 놓듯 글을 썼다면, DiffusionGemma는 밑그림을 여러 번 수정하며 완성된 그림을 한 번에 보여주는 것에 가깝습니다.

이러한 병렬 생성 방식 덕분에 DiffusionGemma는 놀라운 속도 향상을 가져왔습니다. 구글의 발표에 따르면, DiffusionGemma는 Nvidia DGX나 일반 게이밍 GPU와 같은 로컬 하드웨어에서 실행될 때 기존의 자기회귀 방식 Gemma 모델과 유사한 크기임에도 불구하고 최대 4배 더 빠른 출력을 제공합니다. 이는 로컬 AI의 가장 큰 약점 중 하나였던 속도 문제를 해결할 수 있는 중요한 단서가 될 수 있습니다.

기존 모델과의 비교: 속도, 효율성, 그리고 도전 과제

DiffusionGemma의 등장은 AI 모델 아키텍처의 효율성 경쟁에 새로운 불을 지피는 사건입니다. 그렇다면 이 모델이 기존 방식과 구체적으로 어떻게 다르며, 어떤 장단점을 가지고 있을까요?

1. 아키텍처와 속도의 혁신

DiffusionGemma: 총 260억 개의 매개변수를 가진 MoE(Mixture of Experts) 모델이지만, 실제 추론 시에는 단 38억 개의 매개변수만 활성화됩니다. 이는 고성능 GPU의 18GB RAM 용량에도 충분히 들어갈 수 있는 크기입니다. 테스트 결과, RTX 5090에서는 초당 약 700개의 토큰을, Nvidia H100 AI 가속기에서는 초당 1,000개 이상의 토큰을 생성하는 경이로운 속도를 보여주었습니다. 최대 256개의 토큰을 병렬로 생성할 수 있다는 점이 핵심입니다.
자기회귀 모델: 같은 크기의 자기회귀 방식 Gemma 모델에 비해 4배 느립니다. 한 번에 하나의 토큰만 생성하는 본질적인 제약 때문입니다.

2. 병목 현상과 효율성의 재정의

DiffusionGemma는 텍스트 생성의 병목 현상을 메모리 대역폭(memory bandwidth)에서 컴퓨팅(compute)으로 전환시킵니다.

로컬 AI 환경의 이점: 로컬 AI는 낮은 메모리 대역폭과 유휴 시간으로 인해 컴퓨팅 주기 낭비가 발생하기 쉽습니다. DiffusionGemma는 이러한 환경에서 사용 가능한 컴퓨팅 자원을 더욱 효율적으로 활용할 수 있도록 돕습니다. 구글은 최근 컴퓨팅 주기를 활용해 가능한 토큰을 예측하는 다중 토큰 예측(Multi-Token Prediction, MTP) 드래프터를 구현하여 속도를 높이려 했지만, DiffusionGemma는 이 MTP 버전보다도 빠르다고 합니다.
클라우드 AI 환경과의 차이: 클라우드 환경의 자기회귀 모델은 여러 사용자의 대규모 컴퓨팅 작업을 일괄 처리(batching)하여 항상 토큰을 생성하게 할 수 있으며, 고대역폭 메모리(HBM)를 사용해 데이터를 훨씬 효율적으로 이동시킬 수 있습니다. 즉, 각 환경에 최적화된 아키텍처가 다를 수 있다는 점을 시사합니다.

3. 특정 작업에서의 강점

DiffusionGemma는 특히 비선형적인 작업에서 강력한 이점을 가집니다.

예시: 인라인 편집, 분자 염기서열 분석, 수학적 그래프 생성 등이 있습니다. 기사에서는 스도쿠 퍼즐 해결을 예로 들었는데, 스도쿠는 각 토큰이 미래의 토큰에 의존하기 때문에 표준 자기회귀 AI 모델에게는 매우 어려운 작업입니다. DiffusionGemma는 대규모 토큰 세트를 지속적으로 **자체 수정(self-correct)**할 수 있는 능력을 통해 이러한 문제를 더 쉽게 해결할 수 있습니다.

Google DeepMind releases DiffusionGemma, a model that runs local AI 4x faster

4. 그럼에도 불구하고 존재하는 도전 과제 (왜 Gemini에는 적용되지 않을까?)

DiffusionGemma가 이토록 빠르고 강력하다면, 왜 구글은 이를 클라우드 기반의 대규모 Gemini 모델에 적용하지 않을까요? 구글 역시 이러한 실험을 진행했지만, 몇 가지 단점이 존재합니다.

높은 오류율: 이미지 확산 모델에서는 하나의 잘못 예측된 픽셀이 전체 이미지를 쓸모없게 만들지는 않습니다. 하지만 언어는 **이산적(discrete)**입니다. 텍스트에서 이와 동등한 오류는 토큰 블록 전체를 무의미하게 만들 수 있으며, 더 나은 결과를 얻기 위해 처음부터 다시 시작해야 할 수도 있습니다. 이는 DiffusionGemma가 가진 가장 큰 숙제 중 하나라고 볼 수 있습니다.
짧은 출력에서의 자원 낭비: 원하는 출력이 몇 개의 토큰에 불과할 때는 확산 모델이 오히려 자원을 낭비할 수 있습니다. 자기회귀 모델이 다섯 단계 만에 끝낼 수 있는 작업을, 확산 모델은 더 많은 병렬 작업을 수행해야만 몇 개의 토큰으로 줄일 수 있기 때문입니다.

로컬 AI 시대의 새로운 지평을 열까? 필자의 분석

DiffusionGemma의 출시는 구글이 AI 아키텍처의 다양성과 전문화에 얼마나 많은 노력을 기울이고 있는지를 보여주는 단적인 예시라고 생각합니다. 빠르고 효율적인 로컬 AI를 향한 갈증은 분명하며, DiffusionGemma는 그 갈증을 해소할 수 있는 중요한 발걸음입니다.

이 부분에서 주목할 점은, 구글이 DiffusionGemma를 “실험적” 모델로 지칭하면서도 모든 4세대 Gemma 모델과 동일하게 Apache 2.0 라이선스로 공개했다는 사실입니다. 이는 구글이 이 기술의 잠재력을 인지하고 있으며, 커뮤니티의 참여와 피드백을 통해 모델을 빠르게 발전시키겠다는 의지를 엿볼 수 있게 합니다. Nvidia와의 협력을 통해 하이엔드 RTX GPU 및 H100과 같은 엔터프라이즈 시스템에 최적화된 모델을 제공하는 점 또한 실제 로컬 AI 환경에서의 활용도를 높이려는 실용적인 접근 방식이라고 할 수 있습니다.

개인적으로는 DiffusionGemma와 같은 모델이 로컬 AI의 한계를 극복하고, 더욱 다양한 개인화된 AI 애플리케이션의 등장을 가속화할 잠재력을 가지고 있다고 생각합니다. 특히, 개인 디바이스에서 고성능 AI를 구동하고자 하는 수요가 증가하는 상황에서, 속도와 효율성을 동시에 잡으려는 이러한 시도는 매우 중요합니다. 예를 들어, 스마트폰이나 노트북에서 실시간으로 대규모 텍스트 편집, 코드 자동 완성, 혹은 복잡한 데이터 분석을 처리해야 하는 시나리오에서 DiffusionGemma의 병렬 처리 능력은 압도적인 이점을 제공할 것입니다. 다만, 앞에서 언급된 오류율이라는 숙제를 어떻게 풀어낼지가 상용화의 관건이 될 것입니다. 언어의 이산적 특성상 단 하나의 잘못된 토큰이 전체 문맥을 망가뜨릴 수 있기 때문에, 이 모델의 안정성과 정확도를 높이는 연구가 지속되어야 할 것입니다.

결론적으로, DiffusionGemma는 기존 자기회귀 모델의 한계를 뛰어넘어 텍스트 생성 AI의 새로운 가능성을 제시했습니다. 모든 AI 모델이 만능일 수는 없으며, 특정 목적과 환경에 최적화된 다양한 아키텍처가 필요하다는 점을 명확히 보여준 사례라고 할 수 있습니다. 앞으로 DiffusionGemma와 같은 혁신적인 모델들이 로컬 AI 시대를 어떻게 변화시킬지, 그 진화의 방향이 사뭇 기대됩니다.

출처

원문 제목: Google DeepMind releases DiffusionGemma, a model that runs local AI 4x faster
출처: Artificial Intelligence - Ars Technica
원문 기사 보러가기

Article