arrow_back

Article

AI 코딩 전쟁의 새 국면: 오픈소스 NousCoder-14B, 당신의 개발 흐름을 바꿀 혁신일까요?

Published Mar 28, 2026

최근 개발자 커뮤니티에서는 AI가 코드를 작성하고 문제를 해결하는 능력에 대한 놀라움과 기대감이 그 어느 때보다 뜨겁습니다. 특히 앤트로픽(Anthropic)의 클로드 코드(Claude Code)가 출시 초기부터 “숨 막힐 듯한(breathless)” 성능으로 소셜 미디어를 장악하며, 한 해 동안 개발할 분산 에이전트 오케스트레이션 시스템을 단 한 시간 만에 구현해냈다는 구글 엔지니어의 후기가 화제가 되기도 했습니다. 이미 많은 개발자들이 일상 업무에 AI 코딩 도구를 활용하고 있지만, 이처럼 복잡하고 방대한 시스템까지 AI가 주도적으로 만들어낼 수 있다는 사실은 분명 우리 모두에게 새로운 충격을 안겨주었습니다. 이는 단순한 생산성 향상을 넘어, 소프트웨어 개발의 근본적인 방식이 변화할 수 있음을 시사하는 강력한 신호탄입니다.

이러한 격동적인 시기에, 암호화폐 벤처 펀드 패러다임(Paradigm)의 지원을 받는 오픈소스 AI 스타트업 Nous Research가 경쟁 프로그래밍에 특화된 새로운 모델, NousCoder-14B를 전격 공개했습니다. 이 모델은 겨우 4일 동안 48개의 최신 엔비디아 B200 GPU를 사용하여 훈련되었음에도 불구하고, 이미 시중에 나와 있는 여러 대규모 독점 시스템과 동등하거나 그 이상의 성능을 발휘한다고 주장합니다. 경쟁이 치열한 AI 코딩 어시스턴트 시장에 또 하나의 강력한 주자가 등장한 것이죠. 그렇다면 NousCoder-14B는 과연 무엇이 다를까요? 그리고 이 모델이 우리에게 던지는 메시지는 무엇일까요?

오픈소스의 과감한 도전: NousCoder-14B의 성능과 의미

NousCoder-14B는 최신 평가 벤치마크인 LiveCodeBench v6에서 67.87%의 정확도를 달성했습니다. 이는 2024년 8월부터 2025년 5월 사이에 출제된 경쟁 프로그래밍 문제들을 대상으로 모델의 성능을 테스트한 결과입니다. 주목할 점은 이 모델이 기반으로 삼은 알리바바(Alibaba)의 Qwen3-14B에 비해 무려 7.08% 포인트 향상된 수치라는 것입니다. 오픈소스 커뮤니티의 기술적 진보가 독점 모델과의 격차를 빠르게 좁히고 있음을 여실히 보여주는 대목입니다.

사실 클로드 코드가 ‘엔드-투-엔드’ 소프트웨어 개발 능력으로 우리의 상상력을 자극했다면, Nous Research는 검증 가능한 문제들을 기반으로 훈련된 오픈소스 대안이 충분히 경쟁력을 가질 수 있다고 믿습니다. 그들은 모델의 ‘raw capability(순수한 능력)‘만큼이나 모델이 어떻게 구축되었는지에 대한 ‘투명성’이 중요하다고 강조하고 있습니다.

이 대목에서 저의 분석을 덧붙이자면, 오픈소스 모델의 이러한 진격은 단순히 기술적인 성과를 넘어 AI 개발 생태계 전반에 중대한 변화를 가져올 수 있습니다. 독점적인 거대 기업들이 막대한 자본과 데이터를 바탕으로 모델을 개발하는 상황에서, Nous Research와 같은 오픈소스 진영의 활약은 기술 접근성을 높이고, 특정 기업에 종속되지 않는 분산화된 AI 생태계를 조성하는 데 결정적인 역할을 합니다. 개발자들은 이제 선택지가 더욱 다양해졌으며, 자신들의 니즈에 맞는 모델을 직접 구축하거나 개선할 수 있는 가능성이 열린 셈입니다. 이는 혁신의 속도를 가속화하고, 더 많은 아이디어가 현실화될 수 있는 기반을 마련해줍니다.

혁신적인 개방성: NousCoder-14B의 훈련 과정 해부

NousCoder-14B의 가장 큰 특징은 바로 ‘급진적인 개방성’에 있습니다. Nous Research는 단순히 모델 가중치(model weights)만 공개한 것이 아닙니다. 이들은 완전한 강화 학습 환경, 벤치마크 스위트, 그리고 회사 고유의 Atropos 프레임워크 기반으로 구축된 훈련 하네스(training harness)까지 모두 공개했습니다. 이는 충분한 컴퓨팅 자원을 가진 연구자라면 누구나 이 모델을 재현하거나 확장할 수 있도록 하겠다는 의지의 표현입니다. 한 관찰자는 X에 “Atropos 스택의 오픈소스화는 올림피아드 수준의 추론 연구를 재현 가능하게 하는 데 필요한 인프라를 제공한다”고 평가하며, 학계와 오픈소스 커뮤니티에 미치는 중요성을 강조하기도 했습니다.

Nous Research's NousCoder-14B is an open-source coding model landing right in the Claude Code moment

NousCoder-14B는 Nous Research의 상주 연구원이자 전직 경쟁 프로그래머인 조 리(Joe Li)에 의해 훈련되었습니다. 리의 기술 보고서에는 흥미로운 개인적인 차원도 담겨 있습니다. 그는 모델의 개선 궤적을 자신이 경쟁 프로그래밍 플랫폼 코드포스(Codeforces)에서 겪었던 성장 과정과 비교했습니다. 대략적인 추정치에 따르면, NousCoder-14B가 1600-1750점대에서 2100-2200점대로 도약하는 데 걸린 시간은 4일이었습니다. 이는 리 자신이 14세에서 16세 사이에 약 2년간 꾸준히 연습하여 달성했던 성과와 맞먹는다고 합니다. “최종 훈련 과정이 전개되는 것을 지켜보는 것은 꽤 초현실적인 경험이었다”고 그는 기술 보고서에 썼습니다.

하지만 리는 중요한 단서를 잊지 않았습니다. 그 2년 동안 자신은 약 1,000개의 문제를 풀었지만, 모델은 24,000개의 문제를 필요로 했다는 것입니다. 인간은 아직까지 훨씬 더 **샘플 효율적인 학습자(sample-efficient learners)**라는 점을 보여주는 대목입니다. 사실 이건 AI 효율성에 대한 더 큰 질문으로 이어지는 부분이기도 합니다.

NousCoder-14B의 훈련 과정은 강화 학습을 통해 AI 추론 능력을 향상시키기 위해 연구자들이 사용하는 점점 더 정교해지는 기술들을 엿볼 수 있게 합니다. 이 접근 방식은 ‘검증 가능한 보상(verifiable rewards)‘이라는 시스템에 의존합니다. 모델이 코드 솔루션을 생성하면, 이 솔루션은 테스트 케이스에 대해 실행되고, 모델은 정답/오답이라는 간단한 이진 신호를 받습니다. 이 피드백 루프는 개념적으로는 간단하지만, 대규모로 실행하려면 상당한 인프라가 필요합니다. Nous Research는 클라우드 컴퓨팅 플랫폼인 Modal을 사용하여 샌드박스화된 코드 실행을 병렬로 처리했습니다. 24,000개의 훈련 문제 각각에는 평균 수백 개의 테스트 케이스가 있으며, 시스템은 생성된 코드가 시간 및 메모리 제약 조건(각각 15초 및 4GB) 내에서 올바른 출력을 생성하는지 확인해야 합니다.

훈련에는 **DAPO (Dynamic Sampling Policy Optimization)**라는 기술이 사용되었습니다. 이는 연구자들이 실험에서 다른 대안들보다 약간 더 나은 성능을 보였다고 합니다. 핵심 혁신은 ‘동적 샘플링(dynamic sampling)‘에 있습니다. 모델이 모든 시도를 해결하거나 모든 시도를 실패하는 훈련 예제는 폐기하는데, 이는 학습에 유용한 그래디언트 신호를 제공하지 않기 때문입니다. 또한, 연구자들은 ‘반복적 컨텍스트 확장(iterative context extension)‘을 채택하여, 처음에는 32,000 토큰 컨텍스트 윈도우로 모델을 훈련한 다음 40,000 토큰으로 확장했습니다. 평가 시에는 컨텍스트를 약 80,000 토큰으로 추가 확장했을 때 67.87%의 정확도로 최고의 결과를 얻었습니다.

아마도 가장 중요한 것은 훈련 파이프라인이 추론과 검증을 중첩시킨다는 점입니다. 모델이 솔루션을 생성하는 즉시 다음 문제 작업을 시작하고, 동시에 이전 솔루션이 확인됩니다. 이 파이프라이닝은 여러 모델 인스턴스가 병렬로 작동하는 비동기식 훈련과 결합되어 고가의 GPU 클러스터의 하드웨어 활용률을 극대화합니다.

AI 코딩 모델 발전의 발목을 잡을 수 있는 ‘데이터 고갈’

리의 기술 보고서에 숨겨진 한 가지 발견은 AI 개발의 미래에 상당한 영향을 미칩니다. NousCoder-14B의 훈련 데이터셋은 “표준화된 데이터셋 형식으로 제공되는 모든 검증 가능한 경쟁 프로그래밍 문제의 상당 부분을 포함한다”는 것입니다. 다시 말해, 이 특정 도메인에서는 연구자들이 고품질 훈련 데이터의 한계에 도달하고 있다는 뜻입니다.

리는 훈련에 사용된 24,000개의 문제를 언급하며 “인터넷에 있는 경쟁 프로그래밍 문제의 총수는 대략 이와 같은 정도”라고 썼습니다. “이는 경쟁 프로그래밍 도메인 내에서 우리가 고품질 데이터의 한계에 접근했음을 시사한다”는 결론이죠.

이러한 관찰은 AI 산업 전반에서 커지는 데이터 제약에 대한 우려를 반영합니다. 컴퓨팅 자원은 잘 이해된 경제적, 공학적 원리에 따라 계속 확장되지만, 훈련 데이터는 리의 말처럼 “점점 더 유한”해지고 있습니다. 그는 “미래에 가장 중요한 연구 중 일부는 합성 데이터 생성(synthetic data generation) 및 데이터 효율적인 알고리즘과 아키텍처 분야가 될 것으로 보인다”고 결론지었습니다.

이러한 도전은 경쟁 프로그래밍 분야에서 특히 심각합니다. 왜냐하면 이 도메인은 자동으로 검증될 수 있는 알려진 정답 솔루션을 가진 문제를 필요로 하기 때문입니다. 인간의 평가나 프록시(proxy) 측정 지표로 충분한 자연어 작업과 달리, 코드는 작동하거나 작동하지 않으므로 합성 데이터 생성이 훨씬 더 어렵습니다. 리는 한 가지 잠재적인 해결책을 제시했습니다. 모델을 문제 해결뿐만 아니라 해결 가능한 문제를 생성하도록 훈련시켜, 게임 AI 시스템에서 성공적이었던 기술과 유사한 형태의 자기 학습(self-play)을 가능하게 하는 것입니다. “일단 합성 문제 생성이 해결되면, 자기 학습은 매우 흥미로운 방향이 될 것이다”라고 그는 썼습니다.

개인적으로는 이 데이터 고갈 문제가 단기적으로는 AI 코딩 모델 발전의 속도를 늦출 수 있지만, 장기적으로는 AI 자체의 지능을 한 단계 끌어올리는 계기가 될 수 있다고 생각합니다. 단순히 주어진 데이터를 학습하는 것을 넘어, AI가 스스로 문제를 만들고, 스스로를 평가하며, 스스로 학습 커리큘럼을 설계하는 단계로 진화한다면, 이는 진정한 의미의 창의적 지능에 한 발 더 다가서는 것이 아닐까요? 이 변화는 단순히 코딩 AI를 넘어서, 일반적인 AI의 자율 학습 능력에 대한 중요한 이정표가 될 것입니다.

Nous Research: 오픈소스 AI의 $6500만 베팅

Nous Research는 AI 분야에서 독특한 위치를 차지하고 있습니다. 독점적인 대안과 경쟁하고 때로는 능가하는 오픈소스 릴리스에 전념하는 회사입니다. 이 회사는 코인베이스(Coinbase) 공동 설립자 프레드 에르삼(Fred Ehrsam)이 설립한 암호화폐 중심 벤처 펀드 패러다임이 주도한 2025년 4월 라운드에서 5천만 달러를 유치했습니다. 일부 보고서에 따르면 총 자금은 6천5백만 달러에 달했다고 합니다. 이 투자는 Nous Research가 Psyche 플랫폼을 개발한 분산형 AI 훈련 접근 방식에 대한 관심이 커지고 있음을 반영합니다.

이전 릴리스로는 “콘텐츠 제한 없이 ChatGPT를 능가하는” Hermes 4 모델군과, 회사가 최초의 “토글 온 추론 모델”이라고 설명하며 사용자가 필요에 따라 확장된 사고 능력을 활성화할 수 있도록 한 DeepHermes-3이 있습니다.

이 회사는 독특한 미학(aesthetic)과 커뮤니티를 구축했으며, 일부에서는 스타일이 내용보다 우선할 수 있다는 회의론을 제기하기도 했습니다. 한 비평가는 X에 Nous Research의 애니메이션 스타일 브랜딩과 벤치마크 성능 최적화 관행을 언급하며 “물론 나는 애니메이션 프로필 사진 회사를 믿을 것이다. 벤치마크만 내세우는 짓은 그만하라”고 썼습니다. 다른 이들은 기술적인 질문을 던지기도 했습니다. 한 코멘터는 “벤치마크에 따르면 Nemotron이 더 낫다”고 지적했으며, 다른 코멘터는 NousCoder-14B가 “에이전트 중심인지 아니면 단순히 ‘원샷’ 코딩인지”를 물었습니다. 이는 피드백을 반복하여 더 나은 결과를 얻는 실제 소프트웨어 개발에서는 중요한 구별점입니다.

AI 코딩 도구의 미래: 다음 단계는 무엇일까요?

이번 NousCoder-14B 릴리스에는 AI 코딩 연구가 나아갈 방향을 암시하는 여러 가지 미래 작업 방향이 포함되어 있습니다.

가장 중요한 것은 **다중 턴 강화 학습(Multi-turn reinforcement learning)**입니다. 현재 모델은 솔루션을 생성한 후 최종 이진 보상(합격 또는 실패)만 받습니다. 그러나 경쟁 프로그래밍 문제는 일반적으로 컴파일 오류, 잘못된 출력, 시간 제한 위반과 같은 중간 피드백을 제공하는 공개 테스트 케이스를 포함합니다. 모델이 여러 시도에 걸쳐 이 피드백을 통합하도록 훈련시키면 성능을 크게 향상시킬 수 있을 것입니다.

응답 길이 제어도 여전히 과제로 남아 있습니다. 연구자들은 잘못된 솔루션이 올바른 솔루션보다 긴 경향이 있으며, 훈련 중에 응답 길이가 사용 가능한 컨텍스트 창을 빠르게 포화시켰다는 것을 발견했습니다. 이는 다양한 알고리즘 수정으로도 해결되지 않은 패턴입니다.

아마도 가장 야심 찬 제안은 **“문제 생성 및 자기 학습(problem generation and self-play)“**입니다. 모델을 프로그래밍 문제를 해결하는 동시에 생성하도록 훈련시키는 것입니다. 이는 모델이 자체 훈련 커리큘럼을 생성할 수 있도록 하여 데이터 부족 문제를 직접적으로 해결할 수 있습니다. 리는 “인간은 다른 경쟁 프로그래머를 위해 흥미롭고 유용한 문제를 생성하는 데 뛰어나지만, 창의적인 문제 생성에서 LLM 능력에는 아직 상당한 격차가 존재하는 것으로 보인다”고 썼습니다.

NousCoder-14B 모델은 현재 아파치 2.0 라이선스 하에 Hugging Face에서 사용할 수 있습니다. 이 작업을 기반으로 구축하려는 연구자와 개발자를 위해 Nous Research는 완전한 Atropos 훈련 스택을 함께 공개했습니다.

조 리가 청소년기 2년 동안 코드포스에서 1600 레벨의 초보자에서 2100 레이팅 경쟁자로 성장하는 데 필요했던 헌신을, AI는 96시간 만에 재현했습니다. 리는 1,000개의 문제를 풀었지만, 모델은 24,000개의 문제를 필요로 했습니다. 하지만 머지않아 이러한 시스템들은 스스로 문제를 작성하고, 스스로를 가르치며, 인간의 벤치마크를 완전히 뒤로할 수도 있습니다.

이제 기계가 코딩을 배울 수 있는가 하는 질문은 더 이상 유효하지 않습니다. 문제는 기계가 곧 우리보다 더 나은 선생님이 될 것인가 하는 것입니다.


출처

  • 원문 제목: Nous Research’s NousCoder-14B is an open-source coding model landing right in the Claude Code moment
  • 출처: AI | VentureBeat
  • 원문 기사 보러가기
Share this story

Related News