멀티모달 AI 구축 방법론 발표한 애플

애플 연구진이 텍스트와 이미지 모두에서 대규모 언어 모델을 학습시키는 새로운 ‘MM1’ 방법론을 개발했습니다. 이에 대해 보도에선 더 강력하고 유연한 AI 시스템 구축이 가능해져 AI와 애플 제품에 큰 진전이 있을 것이라고 지적했다.

애플이 발표한 MM1 관련 연구 논문에서는 다양한 학습 데이터와 모델 아키텍처를 신중히 결합하면 어떤 결과가 나오는지 보여준다. MM1을 활용하면 다양한 AI 벤치마크 테스트에서 첨단 성능을 달성할 수 있다. 연구진은 이미지 캡션, 이미지-텍스트 인터리빙, 텍스트 전용 데이터를 신중히 결합한 대규모 다중 모달 사전 학습이 다수 벤치마크에 걸쳐 첨단 결과를 달성하는 데 중요하다는 걸 증명했다고 설명했다. MM1은 이미지 캡셔닝, 시각적 질의응답, 자연어 추론 같은 작업에서 뛰어난 성능을 발휘한다.

연구진에 따르면 이미지 인코더 선택과 입력 이미지 해상도가 모델 성능에 큰 영향을 미친다는 것도 발견했다. 연구진은 이미지 인코더와 이미지 해상도, 이미지 토큰 수가 크게 영향을 미치지만 시각-언어 커넥터 설계는 비교적 무시할 수 있음을 보여줬다고 밝혔다. 이에 대해 보도에선 다중 모달 모델 시각 컴포넌트를 지속적으로 확장하고 정교화하는 게 더 많은 이득을 얻는 키가 될 것임을 시사한다고 지적하고 있다.

파라미터 최대 30억 개를 가진 MM1은 강력한 컨텍스트 학습 능력을 보유하고 있으며 사고 연쇄 프롬프트를 사용해 다중 입력 이미지에 대한 다단계 추론을 수행할 수 있었다. 이는 대규모 다중 모달 모델이 증거 기반 언어 이해와 생성을 필요로 하는 복잡하고 무제한적인 문제를 다룰 수 있는 가능성을 보여준다는 설명이다.

보도에선 MM1에 대해 생성형 AI와 제품 통합을 추진 중인 구글, 마이크로소프트, 아마존 등 경쟁사를 따라잡기 위해 애플이 AI 분야 투자를 강화하는 가운데 MM1이 발표됐다는 점을 지적하고 있다. 애플이 AI 개발에 막대한 자금을 투입하고 있다는 소문이 계속되어 왔고 지난 2월 말 주주총회에서 팀 쿡 CEO 역시 AI에 대규모 투자를 하고 있다고 인정한 바 있다.

애플은 에이젝스(Ajax)라는 대규모 언어 모델 개발 프레임워크와 애플 GPT로 불리는 대화형 AI를 개발 중인 것으로 전해지고 있다. 목표는 애플 GPT를 시리, 메시지 앱, 애플 뮤직 등 서비스에 통합하는 것으로 추정되며 AI를 활용해 음악 재생목록 자동 생성, 개발자 코드 작성 지원, 자유로운 대화 및 태스크 수행 등이 가능해질 것으로 보인다. 관련 내용은 이곳에서 확인할 수 있다.