LLM 병목현상, 마침내 돌파구를 찾았나? Subquadratic의 대담한 주장과 그 의미

최근 몇 년간 인공지능 분야는 거대 언어 모델(LLM)의 폭발적인 성장에 힘입어 전례 없는 발전을 이루었습니다. GPT-3, GPT-4부터 시작해 Google의 Gemini, Anthropic의 Claude에 이르기까지, LLM은 우리의 커뮤니케이션 방식, 정보 검색, 콘텐츠 생성 방식에 혁명적인 변화를 가져왔습니다. 그러나 이러한 눈부신 발전의 이면에는 항상 따라붙는 숙제가 있었습니다. 바로 막대한 연산량, 천문학적인 운영 비용, 그리고 효율적인 장문 처리에 대한 근본적인 한계였습니다. LLM이 더 길고 복잡한 맥락을 이해하고 생성하기 위해서는 결국 병목 현상에 부딪힐 수밖에 없다는 비판은 끊이지 않았죠.

이러한 상황에서 마이애미 기반의 AI 스타트업 Subquadratic이 지난달, 업계에 파란을 일으킬 만한 대담한 주장을 내놓으며 세간의 이목을 집중시켰습니다. 무려 10년 가까이 LLM의 발목을 잡아왔던 수학적 병목 현상을 해결했다는 것이었습니다. 처음에는 구체적인 정보가 부족해 많은 이들이 회의적인 반응을 보였지만, 이제 Subquadratic은 그들의 주장을 뒷받침할 만한 독립적인 평가 결과를 공개하며 ‘AI 업계의 테라노스’가 될 것인지, 아니면 ‘트랜스포머 이래 최대의 혁신’이 될 것인지에 대한 뜨거운 논쟁을 불러일으키고 있습니다. 과연 Subquadratic은 LLM의 미래를 바꿀 게임 체인저가 될 수 있을까요?

LLM의 오랜 숙제: “밀집 주의”의 굴레

Subquadratic의 주장이 왜 그토록 혁명적으로 들리는지 이해하려면, 먼저 오늘날 대부분의 LLM이 어떻게 작동하는지 살펴볼 필요가 있습니다. 현대 LLM의 핵심 메커니즘은 2017년 Google 연구자들이 발표한 논문 “Attention Is All You Need”에서 소개된 **트랜스포머(Transformer)**라는 신경망 아키텍처에 기반을 두고 있습니다. 트랜스포머는 그 이름처럼 어텐션(Attention), 즉 ‘주의’ 메커니즘을 통해 텍스트 내의 단어들 간 관계를 파악합니다.

특히, 트랜스포머의 핵심 연산은 **밀집 주의(Dense Attention)**라고 불리는 방식입니다. 이 방식은 텍스트를 처리할 때 각 단어(또는 토큰)를 숫자로 인코딩한 다음, 그 텍스트 내의 모든 다른 숫자들과 각각 곱하는 과정을 거칩니다. 예를 들어, 10,000단어 길이의 텍스트를 처리한다고 가정해 보세요. 이론적으로 거의 5천만 번의 개별 곱셈 연산이 발생합니다. 상상만 해도 어마어마한 양의 계산이죠. Subquadratic의 공동 설립자이자 CEO인 저스틴 당겔(Justin Dangel)은 이를 “위대한 개츠비를 요약하려면 첫 단어와 마지막 단어를 함께 보고, 다른 모든 조합을 살펴봐야 한다”고 설명합니다.

A startup claims it broke through a bottleneck that’s holding back LLMs

텍스트의 길이가 늘어날수록 연산량은 기하급수적으로 증가합니다. 단어 수가 두 배로 늘어나면 연산량은 약 네 배로 증가하는데, 이러한 증가율을 **2차 확장(Quadratic Expansion)**이라고 합니다. 여러분도 직접 그림으로 그려볼 수 있습니다. 원을 그리고 그 가장자리에 점을 찍어 각 점을 토큰이라고 생각해보세요. 이제 점들 사이에 선을 그려 각 토큰 쌍의 곱셈을 나타내면, 점이 5개일 때는 10개의 선이, 점이 10개일 때는 45개의 선이, 점이 20개일 때는 190개의 선이 필요합니다. 텍스트 길이가 길어질수록 연산량이 폭발적으로 늘어나는 이 2차 확장성이 바로 LLM의 전력 소모와 비용을 엄청나게 높이는 주범이자, 더 긴 문맥을 처리하는 데 결정적인 병목 현상으로 작용해왔습니다.

Subquadratic의 “희소한” 도전: 기대와 회의론 사이에서

Subquadratic은 이 병목 현상을 해결하기 위해 트랜스포머의 핵심 연산인 밀집 주의를 버리고, 희소 주의(Sparse Attention)라는 대안을 채택했습니다. 희소 주의는 모든 토큰 쌍의 관계를 계산하는 대신, 일부만 선택하여 곱셈을 수행하는 방식입니다. 이 아이디어의 배경에는 텍스트 내의 모든 단어 관계가 똑같이 중요하지는 않다는 전제가 깔려 있습니다. Alex Whedon CTO는 “책을 읽을 때 첫 단어와 두 번째 단어, 첫 단어와 세 번째 단어를 모두 보는 것은 미친 짓”이라며, 불필요한 연산을 줄이는 것이 핵심이라고 강조합니다.

물론, 희소 주의는 새로운 개념이 아닙니다. OpenAI에서 근무했던 독립 AI 연구원 윌 디퓨(Will Depue)는 “거의 모든 시도가 이루어졌다”며 “불가능한 것은 아니지만 4분 마일 달리기에 비유할 수 있다”고 말합니다. 이전의 시도들은 밀집 주의만큼 문서의 의미를 효과적으로 포착할 수 있는 메커니즘을 만들어내지 못했습니다. 즉, 효율성을 얻는 대신 성능을 희생해야 하는 트레이드오프가 존재했던 것이죠.

하지만 Subquadratic은 자신들의 독자적인 모델인 SubQ를 통해 이 문제를 마침내 해결했다고 주장합니다. 그들이 내세우는 SubQ의 장점은 다음과 같습니다.

압도적인 효율성: 시중의 다른 모델보다 훨씬 빠르고 저렴하며 훨씬 적은 에너지를 사용합니다.
광범위한 문맥 처리: 한 번에 최대 12배 더 많은 텍스트를 처리할 수 있어 수백 개의 문서나 전체 코드 베이스를 분석하는 등 데이터 집약적인 작업을 수행할 수 있습니다.
최고 수준의 성능: Google DeepMind, OpenAI, Anthropic이 내놓은 최고 모델들과 코딩과 같은 핵심 작업에서 거의 동일한 성능을 보여줍니다.

이러한 주장이 처음 나왔을 때, Subquadratic은 소수의 자체 발행 테스트 점수 외에는 거의 증거를 제시하지 못했습니다. 또한 SubQ 모델을 대중이 직접 시험해 볼 수 있도록 널리 공개하지도 않았습니다. 당연히 업계는 회의적인 반응을 보였고, AI 엔지니어 댄 맥아티어(Dan McAteer)는 X(구 트위터)에 “SubQ는 트랜스포머 이래 가장 큰 돌파구이거나, 아니면 AI 테라노스(사기성 스타트업)다”라는 글을 남기며 당시의 분위기를 정확히 포착했습니다.

그러나 한 달이 지난 지금, Subquadratic은 Appen이라는 제3자 독립 평가 기관이 수행한 추가 테스트 결과를 포함하여 모델에 대한 더 많은 정보를 공개했습니다. Appen은 다른 회사 모델들을 평가하는 전문 기관인데, 이들이 진행한 테스트 결과는 Subquadratic의 주장을 상당 부분 뒷받침하는 것으로 보입니다. Appen의 생성형 AI 연구 책임자인 지닌 시난한-싱(Jeanine Sinanan-Singh)은 “정말 흥미로웠고, 그들의 아키텍처를 검증했다”며 “모델들이 속도와 비효율성으로 어려움을 겪는다는 점에서 ‘와우, 이것은 게임 체인저가 될 수 있다’고 생각했다. 하지만 충격적인 결과는 스스로 말할 때 신뢰도가 떨어진다”고 덧붙였습니다.

개인적으로는 이러한 독립적인 검증이 초기 회의론을 극복하는 데 결정적인 전환점이 될 것이라고 봅니다. 단순히 자기주장을 넘어섰다는 점에서 의미가 크지만, 동시에 여전히 대중적 접근성 확보와 더 광범위한 테스트가 필요하다는 점은 명확합니다. Appen의 평가는 중요한 첫걸음이지만, 기술 커뮤니티 전반의 심층적인 검증 없이는 ‘Theranos’ 프레임을 완전히 벗기 어려울 것입니다.

새로운 효율성의 시대가 열릴 것인가? 업계의 미래 전망

Subquadratic은 SubQ가 기존의 모든 최고 모델을 완전히 대체하지는 않을 것이라고 인정합니다. 하지만 특정 작업, 특히 대규모 데이터 처리에서 전례 없는 속도 향상과 비용 절감을 가져올 수 있다고 강조합니다. 예를 들어, 긴 법률 문서나 방대한 코드 베이스를 분석하거나, 대량의 텍스트를 요약하는 작업 등에서 SubQ는 기존 모델에 비해 훨씬 뛰어난 효율성을 제공할 수 있습니다.

장기적으로 Subquadratic은 자신들의 돌파구가 LLM 구축 방식 자체를 바꿀 것이라고 주장합니다. 저스틴 당겔 CEO는 “우리는 새로운 효율성의 시대를 시작하기를 희망한다”며, **“몇 년 안에 아무도 트랜스포머 위에 모델을 구축하지 않을 것이라고 생각한다”**는 매우 대담한 비전을 제시했습니다.

솔직히 말해서, 이 주장은 매우 대담하며 기존 AI 생태계를 뒤흔들 만한 파급력을 가지고 있습니다. 트랜스포머가 지난 수년간 LLM 발전의 기둥이었음을 감안할 때, 이를 완전히 대체하겠다는 선언은 혁명적인 변화를 예고하는 것과 다름없습니다. 물론, 이러한 비전이 현실화되기까지는 SubQ가 얼마나 광범위한 작업에서 안정적이고 뛰어난 성능을 입증할 수 있는지, 그리고 다른 선두 기업들이 이러한 새로운 패러다임을 얼마나 빠르게 수용하거나 자체적으로 발전시킬지에 달려있습니다. 만약 Subquadratic의 주장이 사실로 입증되고 기술이 널리 채택된다면, 이는 다음과 같은 변화를 가져올 수 있습니다.

LLM 개발 비용의 극적인 감소: 더 많은 기업과 연구자들이 LLM을 개발하고 배포할 수 있게 됩니다.
더욱 긴 문맥 이해 능력: LLM이 인간처럼 매우 긴 텍스트의 맥락을 완벽하게 이해하고 처리하는 시대가 앞당겨질 수 있습니다.
에너지 효율성 증대: AI 모델 운영에 따른 환경 부담을 줄일 수 있습니다.
새로운 AI 애플리케이션의 등장: 현재의 LLM으로는 불가능했던 새로운 종류의 데이터 집약적 AI 서비스가 출현할 수 있습니다.

Subquadratic의 주장은 여전히 많은 의문과 함께 기대감을 동시에 불러일으키고 있습니다. Appen의 독립적인 검증은 중요한 신호탄이지만, 진정한 가치 증명은 광범위한 커뮤니티 검증과 실제 서비스 도입을 통해서 이루어질 것입니다. Subquadratic이 정말로 ‘4분 마일’을 돌파했는지, 아니면 단지 ‘가능성의 문’을 열었을 뿐인지는 앞으로의 행보에 달려있습니다. 확실한 것은, 만약 그들의 기술이 약속한 대로 작동한다면, 우리는 LLM의 새로운 패러다임 전환을 목격하게 될 것이라는 점입니다. AI 기술의 다음 장이 어떻게 펼쳐질지, 그 귀추가 주목됩니다.

출처

원문 제목: A startup claims it broke through a bottleneck that’s holding back LLMs
출처: MIT Technology Review
원문 기사 보러가기

Article

LLM 병목현상, 마침내 돌파구를 찾았나? Subquadratic의 대담한 주장과 그 의미

LLM의 오랜 숙제: “밀집 주의”의 굴레

Subquadratic의 “희소한” 도전: 기대와 회의론 사이에서

새로운 효율성의 시대가 열릴 것인가? 업계의 미래 전망

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유