텍스트 대신 비디오로 세상을 이해하고 학습하는 차세대 AI모델
AGI달성여부에 대한 기대감 상승
챗GPT가 출시된 지 어느덧 1년 반이 지났다. 챗GPT로 상징되는 생성형 AI의 출현으로 우리가 살고 있는 세상에도 커다란 변화가 왔다. 하루가 멀다 하고 생성형 AI 관련 기사가 언론매체를 도배하고 있으며 생성형 AI란 용어는 더 이상 우리에게 낯선 단어가 아니다.
일각에서는 생성형 AI의 출현으로 인간의 지능을 넘어서는 소위 일반인공지능(AGI)이 수년 내 나타날 것이라는 성급한 전망을 내놓기도 한다. 과연 현재의 생성형 AI가 이대로 진화하면 AGI에 도달할 수 있는 걸까.
현재의 생성형 AI가 AGI로 갈 수 있을지는 아직 불분명하다. 이에 대해 알기 위해서는 일단 소위 거대언어모델(LLM: Large Language Model)의 가능성과 한계에 대한 진단이 필요할 것 같다. 왜냐하면 챗GPT 같은 생성형 AI는 방대한 양의 텍스트 데이터를 통해 학습한 LLM이라는 언어모델을 기본으로 하고 있기 때문이다.
거대언어모델(LLM)의 가능성과 한계
LLM은 수십억 개의 매개변수(parameter)를 가진 거대한 규모의 자연어 처리 모델이다. 방대한 양의 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성할 수 있다. 이를 위해 수많은 매개변수를 가진 인공신경망이 필수 구성요소이며, 이 매개변수들이 텍스트 데이터 학습을 통해 언어의 패턴과 규칙을 익히게 된다.
이 과정에서 LLM은 이전 단어를 기반으로 다음 단어를 생성하는 방식으로 학습하는 자동회귀(autoregressive) 언어 모델을 따른다. 즉 하나의 단어가 주어졌을 때 이전 시점의 데이터를 기반으로 다음에 올 단어를 자동으로 예측하는 방식이다. 이것이 우리가 알고 있는 LLM이 인간이 사는 세상에 대한 기본적인 감각을 얻는 과정이자 새로운 콘텐츠를 생성하는 방식이다.
하지만 LLM은 기본적으로 텍스트 데이터에 기반하다 보니 그 효용성에도 불구하고 근본적인 한계가 존재한다. 대표적인 문제가 LLM은 일관되고 상황에 맞는 텍스트를 생성하지만 인간이 직관적으로 가지고 있는 기본적인 상식을 이해하는 능력이 부족하다는 것이다.
이는 LLM이 방대한 양의 데이터에 존재하는 통계 패턴과 상관관계에 기반하고 있기 때문이다. 특히 LLM 모델의 핵심인 트랜스포머(Transformer) 방식은 학습한 지식을 단순히 확률적으로 출력하는 방식이다 보니 주어진 상황에 대한 심층적이고 심도 있는 이해가 부족하다.또 다른 LLM의 한계는 수학이나 과학 추론 문제 해결 역량이 부족하다는 것이다. LLM은 자연어 처리 능력은 우수하지만 훈련 데이터의 통계적 패턴을 학습하기 때문에 수학이나 과학 분야의 추론 능력에는 한계가 있다. 오픈AI도 이 점을 인식하고 더 나은 추론 및 문제 해결 능력을 갖춘 AI 시스템을 만들기 위해 큐스타(Q*)라는 모델을 개발 중이다. 큐스타는 초등학교 수준의 기본적인 수학문제를 해결하며 인간 지능과 유사한 추론 능력을 가질 수 있는 것으로 알려져 있다.
이러한 이유로 일부 전문가들은 현재의 LLM은 AI의 궁극적 목표인 AGI를 달성하기는 어렵다고 주장한다. 사정이 이렇다 보니 LLM이 가진 근본적인 한계를 극복하기 위한 다양한 노력과 시도들이 나오고 있다. 특히 더 심도 있고 다양한 인간의 언어를 이해하기 위해 이미지나 비디오 및 오디오와 같은 다중모드(multimodal) 방식의 학습을 통해 이를 해결하려는 시도가 최근 주목을 끌고 있다.
이미지와 비디오로 세상을 이해하는 비전 모델: 제파
대표적인 시도가 딥러닝과 컴퓨터 비전의 선구자 격인 메타의 얀 르쿤(Yann LeCun)에 의해 제안된 제파(JEPA: Joint-Embedding Predictive Architecture)이다. 제파는 기존 LLM의 한계를 극복하고 진정한 의미의 인공지능(AGI)에 도달하기 위해 개발되고 있는 차세대 신경망 아키텍처이다.
제파의 특징은 먼저, 이미지와 비디오를 통해 세상을 이해하고 학습하는 비생성형(non-generative) AI 모델이라는 점이다. 마치 인간이 태어나 눈을 통해 시각적으로 받은 신호를 통해 물리적 세계를 이해하는 것과 같다. 텍스트, 이미지, 비디오 등 다양한 모달리티 데이터를 다룰 수 있는 범용 대규모 모델인 기본모델(Foundation Model)이자 이미지와 비디오 데이터에서 시각적 표현을 학습하는 비전(Vision) 모델이다.
둘째, LLM같이 확률적 출력 방식이 아닌 추론과 계획 기반의 접근 방식이다. 트랜스포머 기반 LLM이 자기주목(self-attention) 메커니즘을 통해 단어 간 연관성을 파악하고 확률적으로 다음 단어를 예측하는 방식인데 반해, 제파는 단순한 확률적 출력이 아닌 추론과 계획과정을 통해 답을 내놓는다. 즉 단순히 통계 기반 예측이 아닌 상황을 이해하고 논리적으로 추론하여 답변을 도출한다.셋째, 레이블이 지정된 데이터가 필요없이 훈련된 자기지도학습(Self-supervised Learning)에 기반한다. 즉 인간이 일일이 데이터에 레이블을 붙일 필요가 없이 자기주도적으로 사전 학습이 이루어진다.
이러한 특징을 갖고 있는 제파는 현재 2가지 모델이 나와 있다. 작년에 출시한 아이제파(I-JEPA)와 올 2월에 출시된 후속 모델 브이제파(V-JEPA: Video Joint-Embedding Predictive Architecture)가 그것이다. 아이제파는 메타가 제안한 제파의 이미지 버전이다. 수백만 개의 이미지를 처리하고 비교하며 이를 통해 물리적 세계를 이해하고 세상이 어떻게 작동하는지에 대한 모델을 만든다.
반면 브이제파는 비디오를 통한 학습에 중점을 두고 있다. 새로운 콘텐츠를 생성하는 데 유용한 LLM과는 달리 동작 인식, 객체 감지, 장면 분류 등의 작업 수행에 적합하다. 이는 숨겨진 정보를 예측하여 의미 있는 표현을 학습하기 때문에 가능한 것이다. 이에 따라 브이제파는 무엇보다 감시 및 보안, 스포츠 분석, 자율주행차, 인간 컴퓨터 상호 작용 등에 응용될 전망이다. 한편 메타에 의하면 브이제파 이후 메타의 다음 단계는 비디오에 오디오를 추가하는 것이라 한다.
차세대 AI모델 승자는
메타의 얀 르쿤은 제파가 지향하는 궁극적인 목적은 인간처럼 세상을 관찰하고 이해하며 계획을 세울 수 있는 모델을 개발하는 것이라고 한다. 이로 인해 그는 오랫동안 인간의 개입 없이도 스스로 세상을 탐색하고 이해하는 방법을 배울 수 있는 기계 학습(ML)에 몰두해 왔다.
그는 LLM은 시각과 청각을 통해 학습할 수 없어 현실세계 이해에 한계가 있어 AGI로 가기에는 무리라고 주장한다. 그는 AI의 미래는 생성형 모델이 아니며, LLM으로 AGI에 도달할 수 있다는 오픈AI의 주장을 반박한다. 특히 LLM을 “지능을 가진 것처럼 보이는 단순한 패턴 인식기”라고 폄하하며 학생들에게 LLM을 공부할 필요가 없다고까지 말하고 있다.
물론 이에 대한 반론도 만만치 않다. AI 분야의 대부로 불리는 제프리 힌턴 교수는 인간 두뇌와 유사한 LLM이 AGI에 가는 지름길이라고 주장하며 LLM에 무게를 실어 주고 있다. 그에 의하면 LLM은 대규모 데이터에서 패턴을 학습하여 지식을 습득하는 방식이 인간 두뇌와 유사하며, 언어 이해 및 생성 능력이 뛰어나 인간과 유사한 수준의 추론과 문제 해결 능력이 있다는 것이다.
이처럼 차세대 AI 모델에 대한 엇갈린 전망이 나오고 있어 누구의 바람대로 흘러갈지 누가 이 경주에서 승리할지 가늠하기 어려운 상황이다. 다만 한가지 분명한 것은 모두가 지향하는 AI의 미래는 인간과 유사한 방식으로 세상을 인식하고, 학습하고, 추론할 수 있는 AI 시스템을 개발하는 것이다. 얀 르쿤의 제파가 현시점의 LLM 모델을 뛰어넘을 수 있을지 또는 AGI 개발을 앞당길 수 있을지 지켜봐야 할 것 같다.