챗GPT의 정체는…뛰어난 생성자 vs 단순 암기자

NYT vs 오픈AI 소송 쟁점 톺아보기

챗GPT는 학습한 언론사 기사를 토대로 독창적인 콘텐츠를 생성하는 걸까? 아니면 '암기한 내용'을 단순 재생하는 걸까?

'미국 언론의 자존심' 뉴욕타임스가 챗GPT를 만든 오픈AI를 제소하면서 생성형 인공지능(AI)의 본질을 둘러싼 공방이 벌어지고 있다.

먼저 포문을 연 것은 뉴욕타임스였다. 뉴욕타임스는 지난 달 27일(이하 현지시간) 오픈AI가 챗GPT 훈련에 수 백 만건에 달하는 자사 기사를 무단 도용했다면서 뉴욕 남부지역법원에 제소했다. 뉴욕타임스는 오픈AI 최대 후원자인 마이크로소프트도 함께 제소했다.

그러자 오픈AI가 곧바로 정면 반박했다. 오픈AI는 지난 8일 공식 블로그에 ‘오픈AI와 저널리즘’이란 반박문을 싣고 “뉴욕타임스의 소송은 근거가 없다(without merit)”고 주장했다. 뉴욕타임스가 전체 맥락에서 벗어난 일부 얘기를 부각시키면서 사안을 왜곡했다는 것이다.

챗GPT를 비롯한 대용량 언어모델(LLM)이 저작권 침해 공방에 휘말린 것은 이번이 처음은 아니다. 하지만 뉴욕타임스와 오픈AI 간의 공방은 LLM 훈련 때 생길 수 있는 문제를 잘 건드리고 있다는 점에서 많은 관심을 끈다.

■ 챗GPT의 콘텐츠 생성, 변형일까 단순 재현일까

이번 소송의 핵심 쟁점은 크게 두 가지다.

첫째. 챗GPT 같은 LLM의 학습 과정을 ’공정 이용’으로 볼 수 있을 것인가.

둘째. 챗GPT가 가끔 특정 저작물을 그대로 되뇌이는 ‘역류(Regurgitation)’ 현상을 어떻게 볼 것인가.

두 가지 쟁점 중 특히 중요한 부분이 '역류'다. 역류란 생성 AI가 학습한 콘텐츠를 학습한 그대로 답변하는 것을 말한다. 챗GPT가 학습한 뉴욕타임스 기사를 그대로 내뱉는 경우가 적지 않다는 것이다.

미국 정치전문 매체 더힐은 이번 공방을 '변형(transformation) 대 재현(reproduction)'이라고 요약하면서 뉴욕타임스가 탁월한 소송 전략을 펼치고 있다고 평가했다.

챗GPT의 기반이 된 GPT는 '사전 훈련된 생성 변환기(Generative Pre-trained Transformer)'의 약어다.

이 부분이 챗GPT 같은 LLM과 일반적인 검색 엔진이 다른 점이라는 게 생성AI업체들의 주장이다. 검색엔진들은 검색어에 가장 적합한 문구를 찾은 뒤 그대로 보여준다. 반면 생성 AI는 방대한 자료를 학습한 뒤 상황에 적합한 답변을 내놓는다는 의미다.

인터넷에 있는 수 백만건의 콘텐츠를 학습한 뒤 새로운 지식을 생성해낸다는 것이다. 굳이 비유하자면, 도서관에 있는 무수히 많은 책을 읽고 지식을 습득하는 것과 비슷한 과정이란 주장인 셈이다.

그렇기 때문에 학습 과정은 이런 결과 도출을 위한 '공정 이용'이라는 게 생성AI 업체의 주장이다.

생성AI 업체와 소송에서 승리하기 위해선 이런 논리를 무너뜨려야만 한다. ‘저작권 침해’를 주장하는 쪽에 입증 책임이 있기 때문이다. 다시 말해, 구체적인 저작권 침해 사례를 적시해야 하는 데, 그게 말처럼 쉽지 않다.

■ 구체적인 역류 사례 제시한 NYT…법원 판단은

뉴욕타임스가 '역류'를 들고 나온 것은 이런 상황 때문이다. 실제로 뉴욕타임스의 소장에는 챗GPT의 저작권 침해 사례를 제시하고 있다. 챗GPT가 뉴욕타임스 기사를 그대로 읊어대는 현상이 심심찮게 발생한다는 것이다. 방대한 콘텐츠를 학습하는 게 아니라 그대로 외워버린다는 주장인 셈이다.

뉴욕타임스는 이런 논리를 토대로 챗GPT의 콘텐츠 생성 행위는 '변형'이 아니라 '재생'이라고 주장하고 있다.

이런 공세에 대해 오픈AI는 ‘챗GPT에서 드물게 나타나는 오류'라고 해명했다. 이런 오류를 고치기 위해 뉴욕타임스가 프롬프트를 통해 ‘역류’를 유도했다고 주장하기도 했다.

뉴욕타임스는 오픈AI를 제소하면서 챗GPT의 구체적인 '역류' 사례를 제시했다.

오픈AI는 "사람들이 새로운 무제를 해결하는 방법을 배우기 위해 광범위한 교육을 받는 것처럼, 우리 AI모델도 모든 언어, 문화, 산업 같은 세계의 정보를 관찰하기를 원한다"고 강조했다. 챗GPT는 어마어마한 인간 지식을 학습하기 때문에 특정 데이터는 전체 학습 데이터의 극히 일부에 불고하다고 주장했다.

뉴욕타임스의 기사들 역시 챗GPT가 내놓는 지식의 극히 일부에 불과하다는 주장인 셈이다.

뉴욕타임스와 오픈AI 간의 공방은 요즘 가장 뜨거운 생성AI 기술의 기본 작동 원리를 건드리고 있다는 점에서 많은 관심을 끌고 있다. 챗GPT 같은 생성 AI의 콘텐츠 생산 행위를 어떻게 볼 것인지에 대한 근본적인 질문을 담고 있기 때문이다.

그런 만큼 서 있는 자리에 따라 이번 공방을 바라보는 관점이 확연하게 달라진다. AI 기술이나 산업 쪽을 중요하게 생각하는 사람은 뉴욕타임스가 혁신을 말살하려 하고 있다고 주장한다. 반면 콘텐츠를 좀 더 중요하게 간주하는 쪽에선 '현명한 문제 제기'라는 입장을 보이고 있다.

오픈AI는 뉴욕타임스의 주장을 반박하면서도 '협상 가능성'을 열어놓고 있다. 자신들은 저널리즘을 존중하고 있다면서 AP, 악셀 슈프링어를 비롯한 여러 언론사들과 이미 제휴하고 있다는 점도 강조했다.

따라서 둘 간의 공방은 법정까지 가지 않고 합의로 마무리될 가능성도 배제할 수 없다. 그럼에도 불구하고 이번 소송의 쟁점인 '변형이냐, 재현이냐'는 문제는 앞으로 등장한 많은 생성 AI 서비스들도 피해가기 힘든 쟁점이 될 것으로 보인다.