로컬 AI의 새 지평을 열다: 구글 Gemma 4, Apache 2.0으로 개발자 마음 훔치기

“Gemma 4는 로컬 하드웨어에서 실행할 수 있는 가장 강력한 모델입니다.” 구글이 자사의 새로운 오픈 AI 모델인 ‘Gemma 4’를 발표하며 던진 이 한마디는 단순한 신제품 출시를 넘어, 인공지능 업계의 중요한 전환점을 예고하고 있습니다. 지난 1년간 비약적인 발전을 거듭해 온 구글의 클로즈드(closed) 모델 Gemini가 클라우드 기반의 강력함을 자랑했다면, 이제는 개발자들에게 더 큰 자유와 유연성을 제공할 오픈 모델 Gemma가 한층 더 성숙한 모습으로 우리 곁에 다가왔습니다.

오픈 모델의 중요성은 아무리 강조해도 지나치지 않습니다. 구글의 Gemini 모델들이 강력한 성능으로 인공지능의 지평을 넓혔지만, 이는 어디까지나 구글의 통제 아래에서만 사용할 수 있었습니다. 반면, Gemma와 같은 오픈 가중치(open-weight) 모델은 개발자들이 직접 모델을 다운로드하여 로컬 환경에서 자유롭게 실험하고, 특정 목적에 맞게 미세 조정(fine-tune)할 수 있는 길을 열어줍니다. 이는 인공지능 기술의 민주화를 촉진하고, 더욱 다양한 혁신을 가능하게 하는 핵심 동력으로 작용합니다. 하지만 1년 전 출시된 Gemma 3는 이제 다소 ‘오래된 이빨’로 여겨질 만큼 빠르게 변화하는 AI 트렌드에 발맞추기 어려웠습니다. 이에 구글은 개발자들의 오랜 갈증을 해소하고 AI 생태계를 더욱 풍성하게 만들고자 Gemma 4를 대대적으로 업데이트했으며, 특히 라이선스 정책 변경이라는 파격적인 카드를 꺼내 들었습니다.

로컬 AI 성능의 비약적 도약: Gemma 4의 쿼드라 스매시

Gemma 4는 총 네 가지 모델 사이즈로 출시되어 다양한 로컬 환경에 최적화되었습니다. 이는 단순히 모델의 수를 늘린 것이 아니라, 사용자의 하드웨어 환경과 요구 사항에 따라 최적의 성능을 제공하려는 구글의 전략적 의지를 엿볼 수 있는 대목입니다.

먼저, 두 가지 대형 Gemma 변형은 고성능 로컬 환경을 겨냥합니다.

26B Mixture of Experts (MoE): 260억 개의 파라미터를 가지고 있지만, 추론(inference) 모드에서는 이 중 38억 개만 활성화되는 독특한 구조를 가집니다. 이는 비슷한 크기의 모델보다 훨씬 높은 토큰 처리 속도를 제공하여, 지연 시간(latency)을 줄이는 데 초점을 맞춥니다. 한정된 리소스 내에서 효율성을 극대화하려는 시도가 돋보입니다.
31B Dense: 이 모델은 속도보다는 ‘품질’에 더 중점을 두었습니다. 개발자들이 특정 용도에 맞춰 미세 조정할 수 있도록 설계되어, 고품질의 결과물을 필요로 하는 복잡한 작업에 적합합니다.

이 두 가지 대형 모델은 bfloat16 형식으로 양자화되지 않은 상태에서 단일 80GB Nvidia H100 GPU에서도 구동 가능합니다. 물론 H100 GPU는 2만 달러에 달하는 고가의 AI 가속기이지만, 개인 개발자나 소규모 기업도 접근할 수 있는 ‘로컬 하드웨어’의 범주에 포함됩니다. 더욱이, 이 모델들을 더 낮은 정밀도로 양자화(quantized)하면 일반 소비자용 GPU에서도 충분히 실행할 수 있어 접근성이 크게 향상됩니다.

Google announces Gemma 4 open AI models, switches to Apache 2.0 license

다음으로, 나머지 두 가지 Gemma 4 모델은 ‘모바일’과 ‘엣지 디바이스’에 특화된 혁신을 보여줍니다.

Effective 2B (E2B)
Effective 4B (E4B)

이 모델들은 추론 시 메모리 사용량을 최소화하도록 설계되었으며, 스마트폰, 라즈베리 파이, Jetson Nano와 같은 소형 기기에서도 뛰어난 성능을 발휘합니다. 구글의 Pixel 팀이 퀄컴(Qualcomm), 미디어텍(MediaTek)과 긴밀히 협력하여 최적화 작업을 진행했다는 점은 이 모델들이 실제 모바일 환경에서 얼마나 강력한 성능을 보여줄지 기대하게 만듭니다. Gemma 3에 비해 메모리 및 배터리 사용량이 적을 뿐만 아니라, “거의 0에 가까운 지연 시간”을 자랑한다는 점에서 모바일 AI의 새로운 기준을 제시할 것으로 보입니다.

구글은 Gemma 4의 모든 신규 모델이 Gemma 3를 압도할 것이라고 자신하고 있습니다. 특히, Gemma 31B는 Arena 목록에서 GLM-5, Kimi 2.5에 이어 상위 3위를 차지할 것으로 예상된다고 합니다. 이는 가장 큰 Gemma 4 모델조차도 위 모델들의 크기에 비하면 훨씬 작다는 점을 고려할 때, 이론적으로 훨씬 저렴한 비용으로 강력한 성능을 얻을 수 있다는 것을 의미합니다.

Gemma 4는 구글의 폐쇄형 Gemini 3 모델과 동일한 기반 기술을 공유하며, 추론 능력, 수학적 계산, 지시 따르기 등 다양한 영역에서 향상된 성능을 제공합니다. 또한, 최근 AI 분야의 핵심 트렌드인 에이전트 워크플로(agentic workflow) 관리를 위한 준비도 마쳤습니다. 네이티브 함수 호출, 구조화된 JSON 출력, 그리고 일반적인 도구 및 API를 위한 네이티브 지침을 지원하여 개발자들이 더욱 복잡하고 자동화된 AI 애플리케이션을 구축할 수 있도록 돕습니다.

코드 생성(code generation) 역시 생성형 AI의 핵심 애플리케이션으로 부상하고 있는데, Gemma 4는 이 분야에서도 최적화되었습니다. Gemini Pro나 Claude Code와 같은 강력한 코드 생성 AI는 대부분 클라우드 서비스로 제공됩니다. 하지만 Gemma 4는 적절한 하드웨어만 갖춘다면 오프라인 환경에서도 그에 준하는 고품질 코드를 생성할 수 있다고 구글은 강조합니다. 시각적 입력 처리 능력도 향상되어 OCR(광학 문자 인식)이나 차트 이해와 같은 작업이 로컬 시스템에서 더욱 안정적으로 수행됩니다. 효율적인 E2B 및 E4B 모델은 음성 인식 기능을 기본적으로 지원하며, 이는 Gemma 3보다 더욱 개선되었을 것으로 기대됩니다.

이 모든 기능은 140개 이상의 언어로 작동하며, 엣지 모델의 컨텍스트 창은 128k 토큰, 26B 및 31B 모델은 256k 토큰으로 크게 확장되었습니다. 이는 로컬 모델로서는 인상적인 수치이지만, 클라우드 기반의 Gemini 모델이 100만 토큰에 달하는 컨텍스트를 제공하는 것과 비교하면 여전히 격차가 존재합니다. 그럼에도 로컬 환경에서의 이러한 발전은 주목할 만합니다.

개발자의 오랜 염원: Apache 2.0 라이선스로의 전환

Gemma 4의 성능 향상도 물론 중요하지만, 개인적으로 이번 발표에서 가장 핵심적이고 의미 있는 변화는 바로 라이선스 정책의 전환이라고 생각합니다. 이전 Gemma 모델들은 구글이 독자적으로 만든 커스텀 라이선스를 사용했는데, 많은 개발자들이 이를 너무 제한적이라고 느꼈습니다. Gemma 3 라이선스는 구글이 일방적으로 업데이트할 수 있는 엄격한 ‘금지된 사용 정책’을 포함했으며, 개발자들에게 Gemma 기반의 모든 프로젝트에 구글의 규칙을 강제하도록 요구했습니다. 심지어 Gemma가 생성한 합성 데이터를 사용하여 다른 AI 모델을 만들 경우에도 라이선스가 전이될 수 있다는 해석의 여지까지 있었습니다. 이는 많은 개발자들이 구글의 오픈 모델을 활용하는 데 주저하게 만드는 주요 원인이었습니다. 솔직히 말해서, 기업 입장에서 규제가 많다는 것은 곧 예측 가능성이 떨어진다는 의미이기도 하기에, 비즈니스 목적으로 활용하기는 쉽지 않았을 것입니다.

그러나 이번에 구글은 이 모든 것을 뒤로하고 Apache 2.0 라이선스로 전환하는 과감한 결정을 내렸습니다. Apache 2.0은 훨씬 더 관대한 라이선스로, 지나치게 간섭하는 사용 조건이나 상업적 제한이 없습니다. 개발자들은 Apache 라이선스에 익숙하고 편안함을 느끼며, 구글이 미래에 일방적으로 라이선스 규칙을 변경할 수 없다는 점에서 신뢰도가 훨씬 높습니다. 이 대목에서 주목할 점은, 구글이 개발자들에게 데이터 및 배포 계획에 대한 더 많은 통제권을 부여함으로써 Gemma를 더 많은 프로젝트에 사용하도록 장려하고, 이른바 “Gemmaverse”를 확장하려 한다는 점입니다. 이는 단순히 기술적인 업데이트를 넘어, 개발자 커뮤니티와의 관계를 재정립하고 오픈소스 생태계에 대한 기여를 강화하려는 구글의 전략적 움직임으로 해석될 수 있습니다.

스마트폰 AI의 미래: Gemma 4와 Gemini Nano 4의 연결

Gemma 4의 E2B 및 E4B 모델 출시는 구글의 스마트폰 AI 전략이 어느 방향으로 나아가고 있는지를 명확히 보여줍니다. 현재 구글 픽셀(Pixel) 폰을 비롯한 일부 안드로이드 폰에서는 Gemini Nano라는 로컬 AI 모델이 실행되고 있습니다. 이 모델 덕분에 스마트폰은 클라우드로 데이터를 전송하지 않고도 전화 및 문자 사기를 감지하고, 메모를 요약하며, 통화 내용을 정리하는 등의 작업을 수행할 수 있습니다. 이는 개인 정보 보호와 오프라인 작동이라는 측면에서 매우 중요한 발전입니다.

구글 관계자는 Gemini Nano가 항상 Gemma 모델에서 파생되었다고 언급했는데, 특히 차세대 Gemini Nano 4 업데이트에서는 이러한 연관성이 더욱 뚜렷해질 것이라고 합니다. 이번 발표를 통해 구글은 자사의 최소형 스마트폰 기반 AI 모델의 업데이트 버전에 대한 존재를 처음으로 확인시켜 주었습니다. 현재 픽셀 폰에 탑재된 Gemini Nano 3는 Gemma 3n을 기반으로 하지만, Ars Technica와의 인터뷰에서 구글은 차세대 Nano 4가 Gemma 4 E2B 및 E4B를 기반으로 하는 2B 및 4B 변형 모델을 가질 것이라고 확인했습니다.

개발자들은 이미 최신 AI Core Developer Preview에서 Gemma E2B 및 E4B를 사용하여 에이전트 워크플로 프로토타이핑을 시작할 수 있습니다. 이러한 새로운 모델로 설계된 시스템은 Gemini Nano 4가 출시될 때 선행 호환될 예정입니다. 몇 주 안에 열릴 Google I/O 행사에서 이에 대한 더 많은 소식을 들을 수 있을 것으로 예상됩니다. 이는 구글이 자사의 하드웨어 및 소프트웨어 생태계 전반에 걸쳐 AI의 역할을 얼마나 중요하게 생각하는지, 그리고 로컬 AI가 미래 컴퓨팅의 핵심 축이 될 것임을 강력히 시사하는 대목입니다. 개인적으로는, 이러한 로컬 AI의 강화가 사용자 개인 정보 보호에 대한 사회적 요구가 커지는 현 시점에서 구글이 제시하는 현명한 해법 중 하나라고 생각합니다. 클라우드 기반 AI가 가진 강력함은 분명하지만, 민감한 개인 데이터를 다룰 때는 로컬 처리가 가장 이상적인 대안이 될 수 있기 때문입니다.

이번 Gemma 4의 출시는 단순히 새로운 AI 모델이 등장했다는 뉴스를 넘어, 구글이 AI 생태계를 확장하고 개발자 커뮤니티와의 관계를 재정립하며, 로컬 및 엣지 AI 시장에서 주도권을 확보하려는 전략적 의지를 분명히 보여주는 사건입니다. Apache 2.0 라이선스로의 전환은 개발자들에게 더 큰 신뢰와 자유를 부여하여 ‘Gemmaverse’를 더욱 풍성하게 만들 것이며, Gemini Nano 4와의 연계는 스마트폰 AI의 새로운 시대를 열 것으로 기대됩니다. 앞으로 몇 년 안에 우리의 일상생활 속에서 Gemma 기반의 AI가 얼마나 다채롭게 활용될지, 그 변화를 지켜보는 것은 분명 흥미로운 경험이 될 것입니다.

출처

원문 제목: Google announces Gemma 4 open AI models, switches to Apache 2.0 license
출처: Artificial Intelligence - Ars Technica
원문 기사 보러가기

Article

로컬 AI의 새 지평을 열다: 구글 Gemma 4, Apache 2.0으로 개발자 마음 훔치기

로컬 AI 성능의 비약적 도약: Gemma 4의 쿼드라 스매시

개발자의 오랜 염원: Apache 2.0 라이선스로의 전환

스마트폰 AI의 미래: Gemma 4와 Gemini Nano 4의 연결

출처

Related News

TV가 AI 스튜디오로? 구글 TV 제미니 신기능, 단순 시청을 넘어선 경험!

클루리스의 꿈이 현실로? 구글 포토 AI, 당신의 옷장을 디지털화하다