세계적 사전 출판사, 오픈AI에 칼 빼들다: '저작권 침해' 소송의 파장과 AI 산업의 미래

최근 인공지능(AI) 기술은 전례 없는 속도로 발전하며 우리의 일상과 산업 전반에 혁명적인 변화를 가져오고 있습니다. 특히 대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 인간과 유사한 텍스트를 생성하고 복잡한 질문에 답하며, 정보 검색 방식까지 송두리째 바꾸고 있습니다. 이러한 기술 발전의 중심에는 **오픈AI(OpenAI)**가 있으며, 그들의 챗GPT(ChatGPT)와 같은 서비스는 이제 인공지능의 대명사처럼 여겨지고 있습니다. 하지만 이 빛나는 혁신의 이면에는 늘 법적, 윤리적 논쟁이 따라붙었습니다. 바로 AI 학습 데이터의 출처와 저작권 문제 말입니다.

이번에 새롭게 불거진 소송은 단순한 법적 분쟁을 넘어, AI 산업의 미래와 디지털 콘텐츠 생태계의 방향을 결정할 중대한 기로가 될 것으로 보입니다. 인류의 지식 보고인 **브리태니커 백과사전(Encyclopedia Britannica)**과 메리엄-웹스터(Merriam-Webster) 사전의 발행사가 오픈AI를 상대로 ‘대규모 저작권 침해’ 소송을 제기했다는 소식은 AI 커뮤니티뿐만 아니라 전 세계적인 관심을 끌고 있습니다. 이들은 오픈AI가 자사의 수많은 고품질 콘텐츠를 무단으로 사용하여 LLM을 훈련시키고, 심지어 생성된 결과물이 원본 콘텐츠를 직접 복제하는 등 광범위한 침해 행위를 저질렀다고 주장하고 있습니다.

이 소송은 인공지능 기술의 발전이 기존의 저작권법과 어떻게 충돌하며, 기술 기업과 콘텐츠 생산자 간의 권리 균형을 어떻게 재정립해야 하는지에 대한 근본적인 질문을 던지고 있습니다. 특히 정보의 신뢰성과 품질을 최우선으로 여기는 사전 및 백과사전 출판사가 AI의 ‘환각(hallucination)’ 문제까지 지적하며 나섰다는 점은, AI가 제공하는 정보의 정확성과 진위성에 대한 사회적 요구가 얼마나 커지고 있는지를 잘 보여줍니다. 과연 이 소송이 AI 산업에 어떤 변화를 가져올지, 그리고 우리가 지식과 정보를 소비하고 생산하는 방식에 어떤 영향을 미칠지 함께 자세히 살펴보겠습니다.

브리태니커와 메리엄-웹스터의 핵심 주장

브리태니커와 메리엄-웹스터는 오픈AI가 자신들의 콘텐츠를 무단으로 사용하여 저작권을 침해했을 뿐만 아니라, 여러 가지 방식으로 자사의 권리를 침해하고 있다고 구체적으로 주장하고 있습니다. 이번 소송에서 제기된 주요 쟁점들은 다음과 같습니다.

LLM 훈련 데이터 무단 사용: 오픈AI는 브리태니커가 저작권을 소유한 약 10만 건에 달하는 온라인 기사를 허락 없이 크롤링하고 수집하여 대규모 언어 모델(LLM) 훈련에 사용했습니다. 이러한 무단 사용은 저작권자에게 정당한 보상을 하지 않고 콘텐츠를 대량으로 소비하여 AI 모델의 지식 기반을 구축한 행위로 지적받고 있습니다.
RAG(Retrieval Augmented Generation) 워크플로우에서의 저작권 침해: 오픈AI의 챗GPT는 사용자의 질의에 응답하기 위해 웹이나 다른 데이터베이스에서 최신 정보를 스캔하는 RAG 도구를 활용합니다. 브리태니커는 챗GPT가 이러한 RAG 워크플로우 과정에서 자신들의 기사를 무단으로 참조하거나 부분적으로 복제하여 사용함으로써 저작권을 침해하고 있다고 주장합니다.
출력물의 직접 또는 부분적 복제: 챗GPT가 생성하는 응답이 브리태니커 콘텐츠의 “전체 또는 부분적인 그대로의 복제(full or partial verbatim reproductions)“를 포함하는 경우가 많다는 것이 이번 소송의 핵심 주장 중 하나입니다. AI가 원본 텍스트를 변형 없이 그대로 보여주는 것은 저작권 침해의 명백한 증거로 간주될 수 있습니다.
랜햄법(Lanham Act) 위반 및 환각 현상: 브리태니커는 오픈AI가 만들어낸 정보들이 사실과 다를 뿐만 아니라, 이 ‘환각’ 현상으로 생성된 잘못된 정보를 자사에 허위로 귀속시킴으로써 상표법인 랜햄법을 위반했다고 주장합니다. 이는 출판사의 명성과 신뢰성에 심각한 손상을 입힐 수 있는 문제로 지적됩니다.
수익 손실 및 신뢰성 저하: 챗GPT가 사용자 질의에 대한 응답을 생성함으로써, 브리태니커와 같은 웹 출판사들의 콘텐츠를 대체하고 직접적으로 경쟁하여 수익을 빼앗아간다는 주장도 제기되었습니다. 또한 챗GPT의 환각 현상은 “대중이 고품질의 신뢰할 수 있는 온라인 정보에 지속적으로 접근할 권리”를 위협한다고 강조하며, 정보의 정확성에 대한 AI의 책임을 촉구하고 있습니다.

기사 관련 이미지

확산되는 저작권 분쟁: 오픈AI를 향한 법적 도전의 물결

이번 브리태니커와 메리엄-웹스터의 소송은 오픈AI를 상대로 한 첫 번째 저작권 분쟁이 아닙니다. 이미 수많은 콘텐츠 생산자와 출판사들이 인공지능 기술의 급속한 발전에 맞서 자신들의 권리를 지키기 위해 법적 조치를 취하고 있으며, 이는 AI 산업 전반에 걸쳐 중요한 선례를 남길 수 있는 상황으로 번지고 있습니다. 이러한 소송의 물결은 AI 기업들이 데이터를 수집하고 활용하는 방식에 근본적인 변화를 요구할 가능성이 큽니다.

뉴욕타임즈 및 주요 언론사들의 소송: 브리태니커 외에도 미국의 권위 있는 언론사인 **뉴욕타임즈(The New York Times)**가 오픈AI를 상대로 저작권 침해 소송을 제기하여 큰 파장을 일으켰습니다. 또한 매셔블(Mashable), 씨넷(CNET), IGN, PC Mag 등을 소유한 **지프 데이비스(Ziff Davis)**와 **시카고 트리뷴(Chicago Tribune), 덴버 포스트(Denver Post), 선 센티넬(Sun Sentinel), 토론토 스타(Toronto Star), 캐나다 방송 공사(Canadian Broadcasting Corporation)**를 포함한 미국과 캐나다의 십여 개 이상의 신문사들도 오픈AI를 상대로 유사한 법적 조치를 취했습니다. 이들은 모두 AI 모델이 자신들의 고유한 저작물을 무단으로 학습하여 수익을 창출하고 있다고 주장하고 있습니다.
유사 사례: 퍼플렉시티 대상 소송: 흥미롭게도 브리태니커는 오픈AI 외에도 또 다른 AI 기업인 **퍼플렉시티(Perplexity)**를 상대로 유사한 소송을 진행 중입니다. 이는 특정 AI 기업만을 겨냥한 것이 아니라, 전반적인 AI 학습 방식과 저작권 문제에 대한 광범위한 문제 제기임을 시사합니다. AI 기술이 콘텐츠를 활용하는 방식에 대한 출판계의 우려가 얼마나 큰지 보여주는 단적인 예라고 할 수 있습니다.
법적 선례의 부재와 선례 형성의 중요성: 현재 대규모 언어 모델(LLM) 훈련에 저작권이 있는 콘텐츠를 사용하는 것이 저작권 침해에 해당하는지에 대한 강력한 법적 선례는 아직 확립되지 않았습니다. 이러한 상황에서 이번 소송들은 향후 AI 기술 발전의 법적 및 윤리적 프레임을 구축하는 데 결정적인 역할을 할 것입니다. 어떤 판결이 내려지든, 이는 AI 산업의 데이터 활용 방식에 지대한 영향을 미칠 것입니다.
앤트로픽 사례와 ‘변형적 사용’ 논쟁: 이와 관련하여 흥미로운 선례가 있습니다. AI 기업 **앤트로픽(Anthropic)**의 사례에서 연방 판사 윌리엄 알섭(William Alsup)은 AI 훈련 데이터로 콘텐츠를 사용하는 것이 저작권법상 ‘변형적 사용(transformative use)‘으로 인정될 수 있다고 판단했습니다. 즉, 원본 콘텐츠의 목적을 바꿔 새로운 창작물로 볼 수 있다는 의미입니다. 그러나 알섭 판사는 앤트로픽이 수백만 권의 책을 불법으로 다운로드하여 사용한 것은 법을 위반한 것이라고 판결했으며, 이로 인해 피해를 입은 작가들에게 15억 달러의 집단 소송 합의금이 지급되었습니다. 이 사례는 AI 훈련 데이터 사용이 변형적일 수 있더라도, 데이터를 얻는 과정에서의 불법 행위는 별개의 문제로 다뤄진다는 복잡한 법적 상황을 보여줍니다.

AI 산업의 판도를 바꿀 핵심 쟁점과 파급 효과

이번 브리태니커와 오픈AI 간의 소송은 단순한 법적 분쟁을 넘어, 인공지능 산업의 미래를 좌우할 수 있는 중대한 전환점이 될 수 있습니다. 이는 AI 기술 발전의 근간인 데이터 수집 및 활용의 윤리적, 법적 한계를 어디까지 설정할 것인가에 대한 근본적인 질문을 던지고 있기 때문입니다. 소송의 결과는 저작권 보호의 범위, AI 기업의 책임, 그리고 콘텐츠 생산자들의 권리 보호 방식에 대한 새로운 기준을 제시하게 될 것입니다. 만약 법원이 오픈AI의 광범위한 저작권 침해를 인정한다면, 이는 AI 개발사들이 학습 데이터를 확보하는 방식에 혁명적인 변화를 가져올 것입니다.

산업 전반에 미칠 파급 효과는 상당할 것으로 예상됩니다. AI 기업들은 더 이상 웹상에 공개된 콘텐츠를 무단으로 크롤링하여 모델을 훈련시키는 방식에 의존하기 어려워질 수 있습니다. 이는 새로운 데이터 라이선싱 모델의 도입을 촉진하거나, 저작권이 명확히 확보된 데이터셋을 구축하는 데 막대한 비용을 투자하게 만들 것입니다. 특히 오픈소스 AI 프로젝트나 소규모 스타트업의 경우, 양질의 데이터를 확보하는 데 큰 어려움을 겪을 수 있으며, 이는 AI 기술 개발의 속도와 다양성에 영향을 미칠 수 있습니다. 또한, AI 모델이 생성하는 결과물에 대한 저작권 책임 문제가 더욱 부각될 것이며, 이는 AI 기술의 상업적 활용에 있어 중요한 제약이 될 수 있습니다. 궁극적으로, 이번 소송은 AI 기술의 발전이 인류에게 진정한 가치를 제공하면서도 기존의 창작 생태계를 존중하고 공정하게 공존하는 방안을 모색하는 계기가 될 것입니다.

브리태니커와 메리엄-웹스터가 오픈AI를 상대로 제기한 저작권 침해 소송은 단순한 기업 간의 법적 다툼을 넘어, 인공지능 시대의 지식과 창작물에 대한 우리의 인식을 재정립하는 중요한 기회가 될 것입니다. 이 소송의 결과는 AI 모델이 어떻게 훈련되고, 어떤 콘텐츠를 기반으로 지식을 생성하며, 나아가 콘텐츠 창작자들에게 어떤 보상이 주어져야 하는지에 대한 중요한 선례를 만들 것입니다. 혁신적인 기술 발전과 저작권자의 정당한 권리 사이의 균형을 찾는 것은 결코 쉬운 일이 아니지만, 이번 소송은 그 해답을 찾아가는 과정에서 핵심적인 역할을 할 것입니다. 우리가 미래 AI 기술에 거는 기대만큼이나, 그 기술이 윤리적이고 법적인 테두리 안에서 발전해야 한다는 목소리가 더욱 커지고 있음을 보여줍니다.

앞으로 법원은 이 복잡한 문제를 어떻게 해석하고 판결할지에 대한 전 세계의 이목이 집중되고 있습니다. 판결에 따라 AI 기업들은 새로운 비즈니스 모델을 모색하고, 콘텐츠 라이선싱에 대한 더 적극적인 접근 방식을 취하게 될 것입니다. 또한, AI 생성 콘텐츠의 출처를 투명하게 밝히고, 환각 현상을 줄이기 위한 기술적 노력을 강화하는 등 AI 개발의 방향성에도 큰 영향을 미칠 수 있습니다. 결국 이번 소송은 AI 기술이 인류의 지식과 문화를 풍요롭게 하는 도구로 자리매김하는 동시에, 기존의 창작 생태계를 파괴하지 않고 상생할 수 있는 방안을 모색하는 중요한 계기가 될 것으로 기대됩니다. 오픈AI가 아직 이번 소송에 대한 공식적인 입장을 밝히지 않은 상황에서, 앞으로 어떤 대응을 내놓을지 귀추가 주목됩니다.

출처

원문 제목: The dictionary sues OpenAI
출처: AI News & Artificial Intelligence | TechCrunch
원문 기사 보러가기

Article

세계적 사전 출판사, 오픈AI에 칼 빼들다: '저작권 침해' 소송의 파장과 AI 산업의 미래

브리태니커와 메리엄-웹스터의 핵심 주장

확산되는 저작권 분쟁: 오픈AI를 향한 법적 도전의 물결

AI 산업의 판도를 바꿀 핵심 쟁점과 파급 효과

AI의 미래를 좌우할 저작권 논쟁, 우리는 어디로 가는가?

출처

Related News

AI의 미래를 좌우할 보이지 않는 웹 데이터의 우주를 탐험하는 새로운 인프라 계층의 등장

사소한 감기, 당신의 인생 5%를 훔쳐갑니다: 기술 거인들이 5억 달러로 '불가능'에 도전하는 이유