애플, 멀티모달 실험...이미지 분석에 자연어 추론

LLM이어 멀티모달 실험
파라미터수 300억개 그쳐

애플이 연구 문헌 사이트인 아카이브를 통해 대규모언어모델(LLM)에 대한 연구 성과를 17일(현지시각) 공개했다.

애플이 공개한 모델은 ‘MM1’으로 이미지 캡셔닝, 시각적 질문 답변, 자연어 추론 등 멀티모달에 대한 테스트를 담고 있다. MM1은 최대 300억개 파라미터를 지원하는 멀티모달이다. 애플은 “멀티모달 벤치마크 범위에서 지도 학습 후 경쟁력 있는 성능을 달성했다”고 설명했다. 애플이 이미지 등을 자유롭게 분석하는 멀티모달을 개발한 이유는 경쟁이 언어모델에서 멀티모달로 넘어갔기 때문이다. 연구진은 “멀티모달은 넥스트 프런티어로 부상했다”고 말했다.

애플이 연구한 300억 파라미터는 소형 LLM이다. 오픈AI GPT-3.5가 1750억개인 점을 고려할 때 작은 규모다. 하지만 애플은 “모델이 성능과 신뢰성을 높이면서 이러한 모델을 더 큰 데이터 세트로 확장하는 데 도움이 될 돌파구를 제공한다고 믿는다”고 말했다. 앞서 애플은 LLM인 페렛(Ferret)에 대한 실험을 작년 10월에 단행한 바 있다.