당신의 AI 경험, 구글의 두 심장이 바꾼다: 새로운 TPU 8t와 8i 전격 해부!

만약 당신의 스마트폰, 자동차, 혹은 업무용 소프트웨어에 탑재된 AI 비서가 갑자기 두 배 더 똑똑해지고, 세 배 더 빠르게 반응하며, 전력을 절반만 사용한다면 어떨까요? 상상만 해도 놀랍지 않습니까? 바로 이런 미래를 현실로 만들 기반 기술이 오늘날 빠르게 발전하고 있습니다. 우리 눈에 잘 보이지 않지만, AI 하드웨어의 혁신은 사용자들의 일상 경험을 근본적으로 변화시킬 잠재력을 가지고 있죠. 특히 구글이 최근 공개한 8세대 텐서 프로세싱 유닛(TPU)은 단순히 “더 빨라졌다”는 것을 넘어, ‘에이전트 시대’라는 새로운 패러다임을 염두에 두고 설계된 덕분에 그 파급력이 더욱 클 것으로 보입니다. 이는 단순히 개발자나 기업의 이야기가 아닙니다. 이 새로운 칩들이 가져올 변화는 우리가 매일 접하는 AI 서비스의 성능과 비용 효율성, 그리고 궁극적으로는 우리의 삶의 질까지 좌우하게 될 것입니다.

AI의 새로운 장을 여는 구글의 ‘두 심장’

오랫동안 AI 가속기 시장은 엔비디아의 GPU가 압도적인 점유율을 차지하며 사실상 독점 체제를 구축해왔습니다. 그러나 구글은 일찌감치 맞춤형 AI 칩인 TPU 라인을 자체적으로 개발하며 독자적인 길을 걸어왔죠. 그리고 이번에 선보인 8세대 TPU는 기존의 접근 방식에서 한 단계 더 진화한, 그야말로 ‘새로운 그림’을 그리고 있습니다. 바로 ‘에이전트 시대’를 위한 두 가지 맛의 칩, **TPU 8t (훈련용)**와 **TPU 8i (추론용)**가 그 주인공입니다.

구글은 AI 시스템이 단순히 정보를 처리하거나 콘텐츠를 생성하는 것을 넘어, 자율적으로 목표를 설정하고 작업을 수행하는 ‘에이전트’로 발전할 것이라고 보고 있습니다. 이러한 에이전트들은 기존의 AI 모델과는 다른 하드웨어적 요구사항을 가질 수밖에 없는데요. 예를 들어, 거대한 모델을 처음 학습시키는 과정과, 학습된 모델을 이용해 실제 사용자의 명령을 처리하는 과정은 필요한 컴퓨팅 파워와 메모리 접근 패턴이 완전히 다릅니다. 이처럼 확연히 구분되는 두 가지 AI 라이프사이클에 최적화된 하드웨어를 따로 만들겠다는 구글의 전략은 매우 대담하면서도, 어찌 보면 당연한 수순이라고 할 수 있습니다. 이는 마치 운동선수에게 전력 질주용 스파이크와 장거리용 러닝화를 따로 제공하는 것과 같습니다. 각 목적에 최적화된 도구를 제공함으로써 최고의 효율과 성능을 이끌어내겠다는 것이죠.

거대 AI 모델의 두뇌, TPU 8t: 훈련 시간을 획기적으로 단축하다

최첨단 AI 모델을 만드는 과정은 상상 이상으로 길고 지난합니다. 수많은 데이터를 먹여 모델이 스스로 학습하게 하는 ‘훈련(Training)’ 과정은 몇 달씩 걸리기도 하는데, 이때 엄청난 컴퓨팅 자원과 에너지가 소모됩니다. TPU 8t는 바로 이 훈련 단계를 혁신하기 위해 태어났습니다. 구글은 이 칩 덕분에 최첨단 AI 모델의 훈련 시간이 “수개월에서 수주”로 단축될 것이라고 자신하고 있습니다.

TPU 8t 서버 클러스터, 일명 ‘포드(pod)‘는 무려 9600개의 칩과 2페타바이트(PB)의 공유 고대역폭 메모리(HBM)를 탑재하고 있습니다. 여기서 끝이 아닙니다. 구글은 TPU 8t가 최대 100만 개의 칩으로 구성된 단일 논리 클러스터로 선형적으로 확장 가능하다고 주장합니다. 이 정도 규모라면 현존하는 어떤 AI 모델이라도 빠르게 학습시킬 수 있는 괴물 같은 성능을 기대할 수 있죠. 한 포드당 121 FP4 EFlops의 컴퓨팅 성능은 이전 세대인 아이언우드(Ironwood) TPU의 훈련 컴퓨팅 한계보다 거의 세 배 높은 수치입니다. 이처럼 강력한 성능은 초대형 AI 모델의 학습 속도를 비약적으로 끌어올리는 동시에, 다른 분야의 고대역폭 메모리(RAM) 가격을 상승시키는 아이러니한 부작용을 낳기도 합니다.

특히 주목할 만한 점은 구글이 강조하는 **‘굿풋(Goodpute)’ 비율 97%**입니다. 굿풋이란 단순히 컴퓨팅 파워의 총량을 넘어, 실제 유용한 계산에 사용되는 컴퓨팅 파워의 비율을 의미합니다. 다시 말해, TPU 8t는 전력을 투입했을 때 낭비되는 전력이 거의 없이 대부분의 컴퓨팅 파워가 모델 훈련에 직접적으로 기여한다는 뜻입니다. 불규칙한 메모리 접근을 더 잘 처리하고, 하드웨어 오류를 자동으로 처리하며, 모든 연결된 칩에서 실시간 원격 측정(telemetry)을 통해 TPU 8t는 모델 훈련을 적극적으로 진행하는 데 더 많은 시간을 할애합니다. 개인적으로, 이는 단순히 클럭 속도를 높이는 것을 넘어 AI 훈련의 본질적인 효율성을 극대화하려는 구글의 엔지니어링 철학을 보여주는 대목이라고 생각합니다. 낭비되는 컴퓨팅 사이클이 줄어들수록, 개발자들은 더 적은 비용과 시간으로 더 많은 실험과 개선을 할 수 있게 되는 것이죠.

Google unveils two new TPUs designed for the 'agentic era'

일상 속 AI를 움직이는 엔진, TPU 8i: 추론의 효율성을 극대화하다

훈련이 끝나면, AI 모델은 우리가 익히 아는 대로 ‘추론(Inference)’ 모드로 전환되어 실제 사용자의 명령을 처리하고 결과물을 생성합니다. “OO 해줘”라고 말했을 때 AI가 답변을 내놓는 모든 과정이 바로 이 추론입니다. 추론은 훈련만큼의 엄청난 컴퓨팅 파워를 요구하지는 않지만, 수많은 요청을 실시간으로 처리해야 하므로 효율성과 낮은 지연 시간이 매우 중요합니다. 여기에 TPU 8i가 등장합니다.

TPU 8i는 여러 개의 특수 에이전트를 실행할 때 더 효율적으로 작동하도록 설계되어 대기 시간을 줄여줍니다. 또한, 이전 세대 아이언우드 추론 클러스터의 256개 칩에 비해 1152개의 칩으로 구성된 더 큰 포드로 운영됩니다. 이는 포드당 11.6 EFlops의 성능을 제공하는데, 훈련용 8t 포드보다는 낮지만 추론 작업에 최적화된 설계 덕분에 훨씬 효율적입니다.

특히 흥미로운 점은 각 TPU 8i 칩의 온칩 SRAM 용량이 384MB로 세 배 증가했다는 것입니다. 이는 칩 내에 더 큰 키-값 캐시를 유지할 수 있게 하여, 긴 컨텍스트 창을 가진 모델의 속도를 크게 향상시킵니다. 최근 AI 모델들은 점점 더 긴 대화를 기억하고 이해하는 능력이 중요해지고 있는데, 이 SRAM 증가는 그러한 트렌드에 완벽하게 부합합니다.

그리고 또 하나의 중요한 변화가 있습니다. 8세대 AI 가속기들은 구글의 자체 Axion ARM CPU 호스트에 전적으로 의존하는 최초의 TPU입니다. 이전 아이언우드에서는 하나의 x86 CPU가 네 개의 TPU 칩을 서비스했지만, 이제는 하나의 Axion CPU가 두 개의 TPU 칩을 전담합니다. 구글은 이러한 “풀스택” ARM 기반 접근 방식이 훨씬 더 큰 효율성을 제공한다고 말합니다. 개인적으로 이 부분에서 구글의 하드웨어 전략에 대한 강력한 의지를 엿볼 수 있다고 생각합니다. x86 아키텍처에서 벗어나 자체 ARM 기반 CPU를 호스트로 사용함으로써, 구글은 하드웨어와 소프트웨어 스택 전체를 완벽하게 제어하여 최적의 성능과 효율을 끌어내려 하고 있습니다. 이는 엔비디아와 같은 범용 GPU 제조업체와 차별화되는 구글만의 강점으로, 장기적으로 AI 인프라의 비용 효율성과 성능을 더욱 끌어올릴 잠재력이 충분하다고 봅니다.

지속가능한 AI의 미래를 위한 효율성 혁신

최첨단 AI 모델을 훈련하고 운영하는 것은 상상을 초월하는 비용과 전력을 소모합니다. 많은 기업들이 아직 생성형 AI에서 명확한 투자 수익률(ROI)을 거두지 못하고 막대한 비용을 쏟아붓고 있는 현실을 감안하면, 효율성은 AI 기술의 지속 가능성을 결정하는 핵심 요소라고 할 수 있습니다. 구글의 새로운 TPU는 이 효율성이라는 측면에서 주목할 만한 발전을 이루어냈습니다.

8세대 TPU는 전력을 아껴 쓴다기보다는, 아이언우드 대비 **두 배 높은 “성능당 전력(performance per watt)“**을 제공합니다. 즉, 같은 양의 전력으로 두 배 많은 계산을 해낼 수 있다는 의미입니다. 여기에 더해, 구글은 데이터센터 자체가 TPU와 “공동 설계”되었다고 강조합니다. 네트워킹과 컴퓨팅을 단일 칩에 통합하고, 더욱 효율적인 포드 레이아웃을 통해 전력 단위당 컴퓨팅 파워를 무려 6배나 증가시켰다고 주장합니다. 물론, 이것이 데이터센터가 전체적으로 더 적은 전력을 사용한다는 뜻은 아닙니다. 오히려 같은 양의 전력으로 훨씬 더 많은 계산을 할 수 있게 되었다는 것이죠.

솔직히 말해서, AI 서버의 컴퓨팅 밀도가 높아지면서 발생하는 엄청난 열은 공랭식으로는 감당하기 어렵습니다. 그래서 액체 냉각은 이제 선택이 아닌 필수가 되어가고 있죠. 구글은 4세대 액체 냉각 시스템을 새로운 칩에 맞춰 개조했으며, 워크로드에 따라 물의 흐름을 조절하는 능동 제어 밸브를 사용한다고 합니다. 이 역시 효율성을 높이기 위한 노력의 일환입니다. 이러한 총체적인 접근 방식은 AI 기술이 사회적, 환경적 책임에서 자유로울 수 없다는 인식을 바탕으로 하며, 지속가능한 AI를 향한 필수적인 진화 과정이라고 볼 수 있습니다. 다만, 개인적으로는 이처럼 효율성이 증대되더라도 AI 기술에 대한 전 세계적인 수요가 폭발적으로 증가한다면, 절대적인 전력 소비량과 탄소 배출량은 여전히 높은 수준을 유지할 가능성이 크다고 생각합니다. 기술 발전과 환경 보호 사이의 균형점을 찾는 것은 앞으로도 중요한 숙제로 남을 것입니다.

에이전트 시대, 모두를 위한 구글의 비전

TPU 8t와 8i는 앞으로 구글의 Gemini 기반 에이전트들을 구동하는 핵심 동력이 될 것입니다. 하지만 구글은 이 칩들을 단순히 자사 서비스만을 위해 만든 것이 아닙니다. 타사 개발자들도 염두에 두고 설계되었으며, 이미 널리 사용되는 JAX, MaxText, PyTorch, SGLang, vLLM 등의 프레임워크를 지원합니다. 이는 AI 생태계 전반의 혁신을 촉진하려는 구글의 큰 그림을 보여주는 대목입니다.

구글의 이번 발표는 잠시나마 엔비디아의 주가를 1.5% 하락시켰지만, 곧 회복되어 200달러 이상을 다시 넘어섰습니다. 지난 1년간 AI 가속기에 대한 폭발적인 수요 덕분에 엔비디아의 가치는 두 배 이상 뛰었으며, 구글 역시 그보다 더 큰 성장을 이루었습니다. 어쩌면 AI 거품이라는 말이 나오는 것도 이 때문일까요? 하지만 이득을 보는 회사들은 이것을 거품이라고 생각하지 않습니다. 그들은 이것을 ‘에이전트 AI 미래’의 시작으로 보고 있습니다.

솔직히 말해서, 현재 AI 분야에 대한 투자는 천문학적인 수준이며, 그만큼 높은 기대와 함께 ‘거품’에 대한 우려도 공존하고 있습니다. 하지만 구글과 같은 선도 기업들이 이처럼 공격적인 하드웨어 혁신에 나서는 것은 AI가 일시적인 유행이 아니라 인류의 미래를 바꿀 거대한 흐름이라는 강력한 신호로 받아들여야 합니다. 구글의 새로운 TPU는 그 흐름을 더욱 가속화하고, 우리가 상상하는 ‘에이전트 시대’를 한 발짝 더 앞당길 중요한 주춧돌이 될 것입니다. 이들의 행보가 인류에게 어떤 이점을 가져다줄지, 그리고 어떤 새로운 도전을 안겨줄지 계속해서 주목해야 할 것입니다.

출처

원문 제목: Google unveils two new TPUs designed for the “agentic era”
출처: Artificial Intelligence - Ars Technica
원문 기사 보러가기

Article

당신의 AI 경험, 구글의 두 심장이 바꾼다: 새로운 TPU 8t와 8i 전격 해부!

AI의 새로운 장을 여는 구글의 ‘두 심장’

거대 AI 모델의 두뇌, TPU 8t: 훈련 시간을 획기적으로 단축하다

일상 속 AI를 움직이는 엔진, TPU 8i: 추론의 효율성을 극대화하다

지속가능한 AI의 미래를 위한 효율성 혁신

에이전트 시대, 모두를 위한 구글의 비전

출처

Related News

TV가 AI 스튜디오로? 구글 TV 제미니 신기능, 단순 시청을 넘어선 경험!

클루리스의 꿈이 현실로? 구글 포토 AI, 당신의 옷장을 디지털화하다