LAM·EAI 통해 산업과 현실 일상 바꾸는
AI 에이전트 등장 기대
2022년 챗GPT가 출시된 이후 거대기술기업(Big Tech)과 스타트업을 중심으로 거대언어모델(LLM)을 기반으로 산업이나 일상생활에 새로운 혁신을 가져오려는 노력이 본격화되고 있다.
최근에는 단순한 텍스트 형태의 질의응답을 넘어 다양한 확장기능을 탑재한 거대멀티모달모델(Large Multi-modal Model, LMM)에 기반한 애플리케이션이 쏟아지고 있다.
LMM은 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 통합적으로 처리하고 이해할 수 있는 모델이다. 인간 수준의 텍스트를 생성하고 다양한 언어 관련 작업을 수행하는 LLM에 비해 좀 더 확장된 개념으로 보면 된다. 대표적으로 오픈AI의 GPT-4부터 구글의 제미니(Gemini), 오픈AI의 소라(Sora), 그리고 최근 출시된 메타의 무비젠(Movie Gen)을 들 수 있다.여기에 더해 특정 산업에 특화된 분야별 전문성을 가진 소위 수직적 AI(Vertical AI)에 대한 관심도 높아지고 있다. 수직적 AI는 여러 산업 분야에 광범위하게 적용되는 수평적 AI(Horizontal AI)와 달리 해당 분야의 전문지식과 데이터를 활용함으로써 특정 산업의 문제 해결 역량이나 정확성 측면에서 우수하다. 그렇다면 LLM과 LMM을 이을 다음 단계는 무엇일까.
LLM에서 LAM으로 진화하는 AI
현재로서는 LLM과 LMM에 이어 거대행동모델, 즉 LAM(Large Action Model)으로 무게중심이 옮겨가고 있는 느낌이다.
LAM은 단순한 언어처리를 넘어 사용자의 맥락을 파악하고 이를 기반으로 실제 행동을 수행하는 AI 모델이다. LLM이 주로 텍스트 생성, 번역, 요약 등 언어 관련 작업에 특화된 모델이라면 LAM은 거기서 한발 더 나아가 ‘행동하는 AI’ 모델인 것이다.
현재 LAM의 실체를 가늠해 볼 수 있는 사례로는 2024년 소비자가전전시회(CES)에서 소개된 래빗 R1이나 휴메인 AI 핀(Pin)을 들 수 있다. 둘 다 LAM 기반 개인비서로 행동학습을 통해 스마트폰 없이도 음성으로 앱이나 서비스를 제어할 수 있는 일종의 앱 제어장치(app controller)이다. 아직 초기 버전이라 완성도 면에서 많은 개선이 필요한 상태이지만 시장에서 많은 주목을 받고 있는 제품이다.이런 맥락에서 AI의 미래는 당분간 LAM 기반의 AI 에이전트가 되지 않을까라는 전망이 나오고 있다. 최근 퍼블릭시티의 CEO인 아라빈드 스리나바스도 국내 언론 인터뷰에서 자신이 원하는 것은 ‘답변엔진(answer engine)’이 아니라 행동엔진(action engine)이라고 말한 바 있다. 단순히 질문하고 대답하는데 그치지 않고 영화 ‘아이언맨’의 자비스처럼 사용자를 위해 무언가를 대신해 주는 개인 비서 서비스를 지칭한 말이다. 그렇다면 구체적으로 행동기반의 에이전트란 무엇일까.
“행동을 생성하라” LAM과 EAI의 결합
우선 AI 에이전트라는 말부터 정의해야 할 듯하다. AI 에이전트란 “인간의 개입 없이도 특정 작업을 수행할 수 있는 자율적 AI 시스템’을 말한다. 즉 주변 환경을 인식하고, 정보를 처리하고, 미리 정의된 목표를 달성하기 위해 자율적으로 판단해서 작업을 수행하는 개인비서인 셈이다.
아마존의 알렉사나 애플의 시리 등 기존의 1세대 챗봇이 일반적으로 인간과 대화를 하는 기능에 중점을 두었다면 AI 에이전트는 좀 더 복잡한 작업을 자율적으로 결정하고 수행할 수 있는 역량까지 갖춘 존재인 것이다.
이러한 AI 에이전트가 행동 기반으로 작업을 수행하기 위해서는 기본적으로 2가지 기술에 따라 각각 다르게 사용될 수 있다.
첫째는 LAM 기반의 AI 에이전트이다. LAM 기반의 AI 에이전트는 특성상 작업 지향적 행동을 수행하도록 설계되어 있어 기존의 LLM과 연계되어 더 향상된 서비스를 제공하는 AI 모델이다.
따라서 LLM, LAM, AI 에이전트는 따로 독립적으로 작동하기보다는 한 몸처럼 움직여 작업을 수행한다. AI 전문가인 루팔리 파틸은 이를 두고 “LAM이 생각하고 LLM은 말하고 AI에이전트는 행동한다”는 표현을 썼다. 이 말은 “계획과 의사결정 등 두뇌 역할은 LAM이 수행하고, 인간과 원활한 소통을 위해서는 LLM이 소통자(communicator)로서의 역할을 수행하고, AI 에이전트는 실제 세계와의 상호작용을 가능하게 하는 본체(entity)라는 의미”로 해석된다.둘째는 구현된 AI(Embodied AI, EAI)에 기반한 AI 에이전트이다. EAI 기반 AI 에이전트는 LAM에 기반한 AI 에이전트에 비해 더 고도화된 자동화와 현실세계와의 상호작용이 가능하다. 특히 사용자를 대신해 물리적인 환경에서도 복잡한 작업을 수행할 수 있는 행동형 AI이다.
EAI라는 개념이 처음 언급된 것은 1991년에 MIT의 로봇공학과 교수인 로드니 브룩의 논문 ‘표현 없는 지능(Intelligence without representation)’에서이다. 그는 최근 EAI를 “지능과 신체가 밀접하게 결합되어 있는 감각”이라는 말로 표현하고 있다. 감각적 지각과 물리적 행동을 통합한다는 의미이다. 기존 AI에서는 알고리즘과 데이터 처리에 중점을 두지만 EAI에서는 센서나 액추에이터 같은 하드웨어와 실시간 데이터 처리 기능이 추가된다. 센서와 액추에이터를 통해 환경을 인지하고 분석하며 로봇 같은 물리적 실체를 통해 현실세계와 직접 상호작용을 하는 것이다.
이는 실제 환경에서 효과적으로 작동할 수 있는 로봇을 만드는데 중점을 둔 행동 기반 로봇공학의 개발로 이어지고 있다. 험난한 지형을 탐색하고 복잡한 환경에서 작업을 수행할 수 있는 보스턴다이내믹스의 4족 로봇이 대표적인 사례이다.반도체 회사인 엔비디아의 기어(Generalist Embodied Agent Research, GEAR)그룹도 EAI 관련 프로젝트를 진행하고 있다. 이 프로젝트의 목적은 다양한 작업과 환경에서 유연하게 적응할 수 있는 범용 AI 에이전트를 개발하는 것이다. 다시 말해 물리적인 실체를 가진 AI 에이전트가 현실세계에서 행동을 취하도록 하는 것이다. 주로 로보틱스, 자율주행차, 스마트홈, 그리고 가상 및 증강현실 애플리케이션에 적용될 수 있다. LAM 기반 로봇과 EAI 기반 로봇의 차이는 무엇일까.
LAM이나 EAI나 모두 AI 시스템이 자율적으로 작동하고 디지털 환경이나 물리적 환경에 적응할 수 있는 능력을 가지고 있다는 점에서는 동일하다. 즉 LAM과 EAI 모두 단순히 텍스트 기반의 응답을 생성하는 것을 넘어 실제 환경에서 작업을 수행한다.
차이점을 들자면 LAM은 소프트웨어 기반의 AI 에이전트로 주로 디지털 환경에서 구현되다 보니 물리적 실체가 반드시 필요하지는 않다. 반면 EAI는 주로 물리적 형태를 가진 로봇이나 다른 물리적 실체를 통해 작업을 수행한다.
이처럼 두 가지 기술은 어디에 더 중점을 두고 사용할 것이냐에 따라 그 성능과 기능, 그리고 구현방식이 달라질 수 있다.
LAM과 EAI의 결합으로 진화하는 AI 에이전트
지금까지 내용을 종합해 보면 향후 AI의 미래는 AI 에이전트를 중심으로 진행될 가능성이 높아 보인다. 그리고 이러한 AI 에이전트는 기존의 단순 챗봇 형태의 AI 에이전트의 기능을 넘어 LAM와 EAI가 결합된 생각하고 행동하는 AI로 진화할 것으로 전망된다.이는 현재의 AI가 단순한 디지털 환경에서 벗어나 물리적 현실에서 인간과 직접 상호작용할 수 있는 단계로까지 진화한다는 것을 의미한다. 단순히 사용자가 원하는 정보를 제공하는 차원을 넘어 스스로 판단하고 행동할 수 있는 진정한 의미의 AI 에이전트가 빨리 출현하기를 기대해 본다.