인공지능, 이제는 우리 제품이 원하는 대로 움직일까요? 마이크로소프트의 새로운 시도
Published Jun 3, 2026
우리가 일상에서 사용하는 수많은 앱과 서비스에는 이제 AI가 깊숙이 스며들어 있습니다. 스마트폰의 개인 비서부터 온라인 쇼핑 추천, 은행의 챗봇, 심지어 문서 작업을 돕는 도구까지, AI는 우리의 경험을 더욱 편리하게 만들고 있습니다. 하지만 문득 이런 질문을 던져봅니다. ‘이 AI는 정말 내가 원하는 대로, 또는 회사가 정한 정책에 따라 올바르게 작동하고 있을까?’ 예상치 못한 답변을 내놓거나, 민감한 정보를 부적절하게 다루거나, 혹은 단순히 엉뚱한 행동을 할 때 우리는 당황하게 됩니다. AI 시스템이 고도로 복잡해질수록, 이러한 ‘의도치 않은 행동’은 단순한 불편함을 넘어 심각한 보안 문제나 신뢰도 하락으로 이어질 수 있습니다. 일반 사용자가 매일 접하는 AI 서비스의 신뢰성에 대한 근본적인 질문이 바로 이 지점에서 시작되는 것이죠.
AI 행동 검증의 새로운 접근 방식: ASSERT란 무엇인가?
이러한 문제의식 속에서, 마이크로소프트가 최근 **ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing)**라는 이름의 새로운 오픈소스 프레임워크를 공개했습니다. ASSERT는 한마디로, 개발자들이 AI 시스템이 의도한 대로 작동하는지 특정 애플리케이션 환경에 맞춰 쉽게 평가할 수 있도록 돕는 도구입니다. 기존의 광범위하고 일반적인 AI 모델 평가 방식으로는 놓칠 수 있었던 미묘하지만 중요한 ‘애플리케이션 특화 행동’에 초점을 맞춘 것이 특징입니다.
기존 AI 모델 평가는 주로 언어 능력, 추론 능력, 편향성 등 범용적인 지표를 측정하는 데 집중해왔습니다. 스탠퍼드의 HELM, MLCommons의 AILuminate와 같은 대규모 벤치마크는 모델의 전반적인 역량을 가늠하는 데 필수적입니다. 하지만 아무리 뛰어난 범용 모델이라도, 특정 기업의 서비스나 제품에 통합될 때는 그 고유의 정책, 데이터, 사용 목적에 부합하게 동작해야 합니다. 예를 들어, 기업 내부 문서를 요약해주는 AI가 외부 메일 주소로 정보를 발송하거나, C레벨 임원에게만 공유해야 할 정보를 다른 직원에게 노출한다면, 아무리 요약 능력이 뛰어나더라도 ‘실패한’ AI 시스템이 되는 것이죠.
ASSERT는 바로 이 지점의 간극을 메웁니다. 개발자는 복잡한 코딩 없이 **자연어(plain language)**로 AI 모델이 지켜야 할 규칙, 목표, 의도된 행동을 설명합니다. 예를 들어, “이 문서 연구 AI 에이전트는 회사 외부 사람들에게 이메일을 보내서는 안 된다”, “기밀 정보는 C레벨 임원에게만 제한해야 한다”, “이전 맥락을 고려하여 간결한 요약을 제공해야 한다”와 같은 지침을 텍스트로 입력하는 식입니다. ASSERT는 이 자연어 지침을 기반으로 허용되는 행동과 허용되지 않는 행동을 구조화하고, 실제 문제 시나리오와 테스트 케이스를 자동으로 생성합니다. 그리고 이를 대상 AI 시스템에 실행하여 결과를 채점하고, 심지어 AI 시스템이 어떤 경로를 통해 해당 행동을 수행했는지(중간 단계나 도구 호출 포함) 기록하여 개발자가 실패 지점을 정확히 파악할 수 있도록 돕습니다. 정말 놀랍지 않나요?

일반적 평가와 애플리케이션 특화 평가: 무엇이 다를까요?
사실, 이 부분에서 주목할 점은 ASSERT가 AI 평가의 패러다임을 한 단계 더 진화시키고 있다는 점입니다. 마이크로소프트의 책임 AI 최고 제품 책임자(CPO)인 사라 버드(Sarah Bird)는 “평가는 올바른 결정을 내리는 데 절대적으로 중요하다. AI 시스템의 행동을 이해하지 못하면 조직의 기준을 충족하는지 알기 어렵다”고 강조하며, “신뢰할 수 있는 시스템을 원한다면, 애플리케이션별로 훨씬 더 많은 차원을 평가해야 한다”고 덧붙였습니다.
여기서 바로 비교형 분석의 핵심이 드러납니다.
| 구분 | 일반적인 AI 모델 평가 (예: HELM, AILuminate) | ASSERT (애플리케이션 특화 평가) |
|---|---|---|
| 목표 | AI 모델의 범용적인 능력, 지식, 편향성, 안전성 등 전반적인 성능 측정 | 특정 제품/서비스 내에서 AI 시스템이 의도된 정책과 행동을 따르는지 확인 |
| 초점 | 모델 자체의 본질적인 특성 및 광범위한 시나리오 | 실제 사용 환경(애플리케이션 컨텍스트, 정책, 도구)에 따른 특정 행동 |
| 방법 | 대규모 데이터셋 기반의 표준화된 벤치마크 및 지표 | 자연어 규칙 기반의 맞춤형 테스트 케이스 생성 및 실행, 경로 기록 |
| 결과 활용 | 모델의 강점/약점 파악, 연구 및 개발 방향 설정, 공정한 비교 | 제품 출시 전/후 시스템의 신뢰성 확보, 지속적인 모니터링, 디버깅 |
| 적용 시점 | 모델 개발 초기부터 지속적으로 | 시스템 구축 중, 배포 후, 그리고 지속적인 모니터링까지 전 과정에 걸쳐 |
| 문제 해결 | 범용적인 성능 개선, 편향성 완화 등 | 애플리케이션 고유의 ‘이상 행동’ 방지 및 수정 |
개인적으로는 ASSERT와 같은 도구가 등장하는 것은 AI 산업이 단순한 ‘기술 개발’ 단계를 넘어 ‘실용적이고 책임감 있는 배포’ 단계로 접어들었음을 보여주는 분명한 신호라고 생각합니다. 모델의 성능 경쟁을 넘어, 실제 서비스에 적용되었을 때 얼마나 예측 가능하고 신뢰할 수 있는지를 보장하는 것이 이제는 핵심 역량이 된 것입니다. 아무리 똑똑한 AI라도 ‘사고’를 친다면 사용자에게는 아무런 가치가 없으니까요.
AI 개발의 미래, 그리고 우리의 기대
ASSERT는 시스템이 구축될 때, 배포 후, 심지어 지속적인 모니터링을 위해서도 사용될 수 있다고 합니다. 이는 곧 AI 시스템 개발 라이프사이클 전반에 걸쳐 신뢰성을 확보하려는 마이크로소프트의 의지를 보여줍니다. 개발자는 시스템 컨텍스트, 사용 가능한 도구, 그리고 제약 조건을 추가하여 평가 범위를 더욱 세밀하게 맞춤 설정할 수도 있습니다. 예를 들어, 특정 데이터베이스에만 접근해야 한다거나, 특정 API만 사용해야 한다는 등의 조건을 명시할 수 있는 거죠.
이러한 접근 방식은 AI 시스템 개발자들에게 엄청난 이점을 제공합니다. 테스트 프로세스를 대폭 간소화하고, AI가 의도치 않은 행동을 할 가능성을 줄이며, 궁극적으로는 사용자에게 더욱 신뢰할 수 있는 제품과 서비스를 제공할 수 있게 됩니다. 오픈소스라는 점도 중요합니다. 이는 더 많은 개발자와 기업이 ASSERT를 채택하고, 개선하며, AI 평가의 새로운 표준으로 발전시킬 가능성을 열어줍니다.
업계 흐름을 보면, 앞으로 AI 모델의 복잡성은 더욱 심화될 것이며, 다양한 도구와 서비스에 통합되는 양상도 더욱 가속화될 것입니다. 이런 환경에서 ASSERT와 같은 ‘애플리케이션 특화 행동 검증’ 도구는 선택이 아닌 필수가 될 가능성이 높습니다. 일반적인 벤치마크가 AI의 ‘지능’을 측정한다면, ASSERT는 AI의 ‘행동 규범 준수’를 측정하는 도구인 셈입니다. 이 두 가지 평가 방식이 상호 보완적으로 사용될 때, 우리는 비로소 더욱 안전하고 믿을 수 있는 인공지능 시대를 맞이할 수 있을 것입니다. AI가 우리의 기대와 일치하는, 바람직한 방향으로 나아가도록 돕는 ASSERT의 역할이 앞으로 더욱 기대됩니다.
출처
- 원문 제목: New Microsoft tool lets devs spin up AI behavior tests using text descriptions
- 출처: AI News & Artificial Intelligence | TechCrunch
- 원문 기사 보러가기