AI를 '블랙박스'에서 꺼내 디버깅하는 시대: Goodfire의 Silico, 개발 현장을 뒤흔들다

우리가 매일 사용하는 AI, 예를 들어 ChatGPT나 Gemini 같은 대규모 언어 모델(LLM)들은 놀라운 능력을 보여줍니다. 질문에 술술 답하고, 글을 써주고, 심지어 코딩까지 하죠. 그런데 문득 이런 생각 해보신 적 없나요? “도대체 이 AI는 왜 이런 답을 하는 거지?”, “가끔 엉뚱한 소리를 하는데, 어디가 고장 난 걸까?”, “이 모델이 편향된 생각을 가지고 있다면, 어떻게 고쳐야 할까?” 솔직히 말해서, 대부분의 사용자뿐만 아니라 심지어 AI 개발자들조차도 이 강력한 블랙박스 안에서 정확히 무슨 일이 벌어지는지 알지 못했습니다. 그저 엄청난 양의 데이터와 계산 자원을 들이부어 모델을 키우는 것이 유일한 해결책처럼 보였죠.

하지만 이제 판도가 바뀔지도 모릅니다. 샌프란시스코에 본사를 둔 스타트업 Goodfire가 Silico라는 혁신적인 도구를 공개하며 AI 개발의 오랜 난제에 도전장을 내밀었습니다. Silico는 연구자와 엔지니어들이 AI 모델의 내부를 ‘들여다보고’, 심지어 학습 중에도 모델의 행동을 결정하는 **매개변수(parameters)**를 조정할 수 있게 해줍니다. 이건 단순히 AI를 감사하는 것을 넘어, 처음부터 AI를 설계하는 방식 자체를 바꿀 수 있는 잠재력을 가지고 있습니다. 상상해 보세요. 더 이상 어둠 속에서 더듬거리지 않고, 마치 소프트웨어 엔지니어가 코드를 디버깅하듯이 AI의 문제점을 정확히 찾아내고 수정할 수 있다면 얼마나 놀라울까요?

연금술에서 과학으로: AI 해석 가능성의 새 지평

Goodfire는 AI 모델 훈련을 단순한 연금술이 아닌, 제대로 된 소프트웨어 공학처럼 만들고 싶어 합니다. LLM이 아무리 대단해도, 그 작동 원리나 이유를 정확히 아는 사람은 없습니다. 이 때문에 모델의 결함을 수정하거나 원치 않는 행동을 차단하는 것이 매우 어려웠죠. Goodfire의 CEO 에릭 호는 Silico 출시를 앞두고 MIT Technology Review와의 독점 인터뷰에서 이렇게 말했습니다. “모델에 대한 이해도와 모델이 배포되는 범위 사이의 간격이 점점 커지는 것을 보았습니다. 오늘날 모든 주요 선도 연구소에서 지배적인 생각은 그저 더 많은 스케일, 더 많은 컴퓨팅, 더 많은 데이터를 투입하면 AGI(인공 일반 지능)를 얻을 수 있고 다른 것은 중요하지 않다고 생각합니다. 하지만 우리는 아니라고 말합니다. 더 나은 방법이 있습니다.”

이 ‘더 나은 방법’의 핵심에는 **메커니즘적 해석 가능성(mechanistic interpretability)**이라는 기술이 있습니다. 이 기술은 AI 모델이 특정 작업을 수행할 때 내부에서 무슨 일이 일어나는지, 즉 신경망의 뉴런과 그 연결 경로를 매핑하여 이해하려는 시도입니다. MIT Technology Review가 2026년 10대 혁신 기술 중 하나로 선정한 바 있는 이 분야는 Anthropic, OpenAI, Google DeepMind 같은 업계 선두 주자들이 개척하고 있는 영역입니다. Goodfire는 여기서 한발 더 나아가, 단순히 훈련된 모델을 사후적으로 감사하는 것을 넘어, 애초에 모델을 설계하는 단계부터 이 접근 방식을 적용하고자 합니다.

This startup’s new mechanistic interpretability tool lets you debug LLMs

에릭 호는 “시행착오를 없애고 모델 훈련을 **정밀 공학(precision engineering)**으로 바꾸고 싶습니다. 이는 훈련 과정에서 실제로 사용할 수 있는 조작 가능한 ‘노브와 다이얼’을 노출시킨다는 의미입니다”라고 설명합니다. Goodfire는 이미 자사 기술과 도구를 사용하여 LLM의 행동을 조정하고, 예를 들어 환각(hallucinations) 발생률을 줄이는 데 성공했습니다. 이제 Silico를 통해 이러한 내부 기술들을 제품으로 만들어 외부 개발자들에게 제공하는 것입니다.

Silico가 여는 AI 디버깅의 새로운 시대

Silico가 얼마나 강력한 도구인지 구체적인 사례를 통해 살펴보죠.

뉴런 단위의 통찰: Silico는 훈련된 모델의 특정 부분, 예를 들어 개별 뉴런이나 뉴런 그룹에 초점을 맞춰 어떤 역할을 하는지 실험할 수 있게 해줍니다. (물론, ChatGPT나 Gemini 같은 폐쇄형 모델의 내부를 파고들 수는 없지만, 많은 오픈소스 모델의 매개변수를 들여다볼 수 있습니다.) 특정 뉴런을 활성화시키는 입력값을 확인하고, 뉴런의 상류 및 하류 경로를 추적하여 다른 뉴런에 어떻게 영향을 미치고 또 영향을 받는지 알 수 있습니다.
‘트롤리 문제’ 뉴런 발견: Goodfire는 오픈소스 모델 Qwen 3 내부에서 이른바 ‘트롤리 문제(trolley problem)‘와 관련된 뉴런을 발견했습니다. 이 뉴런을 활성화시키자 모델의 응답 방식이 바뀌어, 출력을 명시적인 도덕적 딜레마로 구성하게 만들었다고 합니다. “이 뉴런이 활성화되면 온갖 이상한 일들이 벌어집니다”라고 호는 말합니다. 이전에는 이런 기이한 행동의 원인을 파악하는 것이 어려웠다면, 이제는 그 근원을 정확히 짚어내고 행동을 조정할 수 있게 된 것이죠. 개발자들은 Silico를 사용하여 개별 뉴런에 연결된 매개변수를 조정함으로써 특정 행동을 강화하거나 억제할 수 있습니다.
윤리적 판단의 조정: 또 다른 예시로, Goodfire 연구원들은 모델에게 한 회사가 0.3%의 경우 기만적으로 행동하여 2억 명의 사용자에게 영향을 미치는 AI를 개발했다는 사실을 공개해야 하는지 물었습니다. 모델은 그러한 공개가 사업에 부정적인 영향을 미칠 것이라며 ‘아니오’라고 답했습니다. 연구원들은 모델 내부를 들여다본 결과, 투명성 및 공개와 관련된 뉴런들을 강화시키자 10번 중 9번은 ‘예’로 답변을 바꾸는 것을 확인했습니다. 호는 “모델은 이미 윤리적 추론 회로를 가지고 있었지만, 상업적 위험 평가에 의해 가려지고 있었습니다”라고 설명합니다. 이는 AI가 내재된 가치관을 어떻게 발현하는지 이해하고, 필요하다면 개발자가 의도적으로 개입하여 윤리적 행동을 유도할 수 있음을 보여줍니다.

이처럼 모델의 가치관을 조정하는 것 외에도, Silico는 특정 훈련 데이터를 필터링하여 처음부터 원치 않는 매개변수 값이 설정되는 것을 방지함으로써 훈련 과정을 조종하는 데 도움을 줄 수 있습니다. 예를 들어, 많은 모델이 9.11이 9.9보다 크다고 답하는 경우가 있습니다. 모델 내부를 살펴보면, 성경에서 9.9절이 9.11절보다 먼저 나오기 때문에 영향을 받거나, 연속적인 업데이트가 9.9, 9.10, 9.11 등으로 번호가 매겨진 코드 저장소의 영향을 받는다는 것을 알 수 있습니다. 이 정보를 활용하여 모델을 재훈련시켜 수학을 할 때 ‘성경’ 뉴런의 영향을 피하도록 만들 수 있습니다.

나의 시선: 민주화되는 AI 개발, 그리고 그 한계

개인적으로 이 뉴스에서 가장 주목할 점은 AI 개발의 민주화 가능성입니다. 이전에는 이러한 심층적인 분석 및 조정 기술이 소수의 최첨단 연구소에서만 가능했습니다. 하지만 Goodfire가 Silico를 ‘상용 도구’로 출시함으로써, 더 작은 기업이나 연구팀도 자체 모델을 구축하거나 오픈소스 모델을 개조할 때 이러한 고급 기술을 활용할 수 있게 되었다는 점은 매우 중요합니다. 이는 AI 혁신의 속도를 가속화하고, 거대 기술 기업의 독점에서 벗어나 더 다양한 주체들이 맞춤형 AI 모델을 개발할 수 있는 길을 열어줄 것이라고 생각합니다. AI 안전성(AI Safety)과 신뢰성(Trustworthiness) 측면에서도 긍정적인 파급 효과를 기대해볼 수 있습니다. 모델이 왜 오작동하는지, 왜 편향된 결정을 내리는지 이해할 수 있다면, 이를 사전에 방지하거나 사후에 수정하는 것이 훨씬 용이해질 테니까요.

물론, 이러한 접근 방식에 대한 회의적인 시각도 존재합니다. 암스테르담 대학의 연구원인 레너드 베레스카는 Silico가 유용한 도구로 보이지만, Goodfire의 더 높은 목표에는 선을 긋습니다. 그는 “실제로 그들은 연금술에 정밀도를 더하고 있을 뿐입니다. 이를 공학이라고 부르는 것은 실제보다 더 원칙적인 것처럼 들립니다”라고 말합니다. 사실 이건 맞는 말입니다. 지금 당장 AI 개발이 완전히 투명하고 예측 가능한 ‘정밀 공학’이 되었다고 단언하기는 어렵습니다. 여전히 AI의 복잡성은 인간의 이해를 뛰어넘는 부분이 많습니다. 하지만 그렇다고 해서 이것이 의미 없는 시도라는 뜻은 아닙니다. 오히려 ‘블랙박스’의 미스터리를 조금씩 걷어내려는 중요한 첫걸음이자, 기존의 ‘더 많이 투입하면 더 좋아질 것’이라는 막연한 접근 방식에서 벗어나 AI의 본질에 더 가까이 다가가려는 패러다임의 전환을 알리는 신호탄이라고 해석할 수 있습니다.

Silico는 고객의 요구 사항에 따라 케이스별로 비용이 책정될 예정입니다. 가격은 아직 공개되지 않았지만, AI 개발에 진심인 많은 기업과 연구팀에게는 충분히 매력적인 투자가 될 가능성이 높습니다. 모델 훈련을 소프트웨어 구축처럼 만들 수 있다면, 소수의 거대 기업을 넘어 훨씬 더 많은 회사들이 자신들의 필요에 맞는 모델을 설계하고 배포할 수 있는 시대가 곧 도래할 것입니다. AI가 더욱 투명하고 제어 가능하며, 궁극적으로는 더욱 신뢰할 수 있는 기술로 발전하는 데 Silico가 어떤 역할을 할지, 현장에서 지켜보는 것이 정말 흥미롭습니다.

출처

원문 제목: This startup’s new mechanistic interpretability tool lets you debug LLMs
출처: MIT Technology Review
원문 기사 보러가기

Article

AI를 '블랙박스'에서 꺼내 디버깅하는 시대: Goodfire의 Silico, 개발 현장을 뒤흔들다

연금술에서 과학으로: AI 해석 가능성의 새 지평

Silico가 여는 AI 디버깅의 새로운 시대

나의 시선: 민주화되는 AI 개발, 그리고 그 한계

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유