실시간으로 찍은 데모가 아닌 편집영상
성능 평가 제미나이에 유리한 방법 사용
같은 기준으로 할 경우 GPT-4보다 낮아
구글이 지난 7일 공개한 초거대언어모델(LLM) 인공지능(AI) 제미나이가 성능 논란에 휩싸였다.
공개과정에서 시연한 영상이 실제 사용영상이 아닌 편집영상이라는 지적이다. 또한, 오픈AI 의 GPT-4 를 훨씬 앞선다고 발표한 능력 평가에서 다른 기준을 사용한 것도 논란이 되고 있다.
빠르게 앞서 나가는 오픈AI 를 따라잡기 위해 구글이 성급한 모습을 보여줬다는 설명이 나온다. 구글은 제미나이가 지금까지 발표된 AI 중 가장 뛰어난 성능을 가진 모델이라고 자신한 바 있다.
10일 블룸버그와 테크크런치에 따르면 구글 제미나이의 압도적인 성능을 보여줬던 ‘데모’는 실시간 사용영상이 아닌 정지 이미지와 텍스트를 통해 만들어진 것이다. 데모에서는 사람이 ‘제미니’와 음성으로 대화하고 다음 과제로 끊김없이 넘어가는 것처럼 보인다.
하지만 이는 실시간 영상을 그대로 촬영한 것이 아니라 정지된 이미지를 제미나이가 인식하고, 좋은 결과가 나오도록 신중하게 텍스트를 입력했다는 것이다. 제미나이의 반응속도 역시 실제 사용 속도와는 차이가 난다.
파미 올슨 블룸버그 테크 컬럼니스트는 “제미나이가 실시간으로 주변 세상을 관찰하고 반응한다는 구글의 설명과 데모영상은 상당한 차이가 있다”고 지적했다. 마케팅을 위해 성능을 과장했다는 것이다. 하지만 이 데모 영상이 제미나이의 성능을 보여주는 영상으로 인터넷 상에서 바이럴이 되었기 때문에 오히려 제미나이의 성능에 대한 불신이 커질 수도 있다고 테크크런치는 설명했다.
AI 의 여러 능력을 평가하는 테스트 중 하나인 MMLU(대규모 다중작업 언어 이해)에서 90%의 점수를 얻어 GPT-4 의 86.4% 를 뛰어넘었다는 발표에 대해서도 기준이 달랐다는 비판이 나오고 있다. GPT-4 의 경우 다섯번의 시도를 통해 얻은 결과였는데 반해 제미나이는 CoT@32 라는 방법을 사용했다.
디인포메이션에 따르면 CoT@32는 ‘32개 예제를 이용한 연쇄사고’의 약자로 기존의 단순한 반복시도보다 훨씬 추론능력이 뛰어나다. GPT-4 와 똑같이 다섯번의 시도를 할 경우 실제 제미나이의 점수는 GPT-4 보다 낮은 83.7% 로 나온다. 구글은 제미나이를 GPT-4 와 비교하는 평가에서 일부는 같은 기준을, 일부는 다른 기준을 사용했다.
이번에 가장 뛰어난 성능의 제미나이 울트라가 공개되지 않은 것도 구글의 조급한 상황을 보여주는 것이라는 설명도 나온다.
바드에 바로 적용된 제미나이 프로와 달리 울트라는 내년 초에 일반에 공개될 예정이다. 구글은 제미나이의 안전성 및 윤리 평가가 끝나지 않았다는 것을 이유로 설명했다.
하지만 이미 GPT-4 터보가 모든 유료 사용자들에게 공개되어 사용중이라는 것을 감안하면, 구글 제미나이의 기술력은 전반적으로 오픈AI 보다 뒤쳐진다는 것이다.