메타, 대규모 언어 모델‧생성형 AI 발표했다

메타는 AI 연구 개발에도 힘을 쏟고 있다. 메타는 새로 대규모 언어 모델인 LLaMA(Large Language Model Meta AI) 차세대 모델인 Llama 2를 발표했다. Llama 2는 무료 공개되어 있어 연구 목적 이외 상용 이용도 가능한 것 외에 마이크로소프트나 퀄컴과 강력하게 윈도나 스마트폰에 최적화하는 걸 목표로 하는 것도 발표되고 있다.

Llama 2는 토큰 2조개로 학습된다. 이전 세대 Llama 1에 비해 컨텍스트 길이 2배를 취급할 수 있다고 한다. 또 Llama 2는 파라미터 수마다 7B(70억), 13B(130억), 70B(700억)이라는 3개 모델 크기가 준비되어 있다.

Llama 2와 MPT, 팔콘(Falcon)이라는 오픈소스 언어 모델을 비교하면 Llama 2는 다른 언어 모델 점수를 크게 웃돈다. 더구나 메타는 마이크로소프트, 아마존, IBM, 엔비디아, 퀄컴 등 기술 기업과 강력하게 Llama 2 개발을 진행할 것이라고 밝혔다. 이미 마이크로소프트는 애저에서 Llama 2 미세 조정과 배포를 가능하게 하거나 Llama 2를 윈도에서 로컬로 작동할 수 있도록 최적화한다고 발표했다. 또 퀄컴은 2024년까지 스냅드래곤이 탑재된 장치에서 Llama 2를 실행할 수 있다고 밝혔다.

LLaMA 2는 오픈AI가 발표한 GPT-4 등과는 달리 오픈소스다. 메타는 블로그를 통해 LLaMA를 개방하는 이점에 대해 강조한다. 개발자나 연구자가 LLaMA를 스트레스 테스트해주기 때문에 더 안전할 수 있다는 것. LLaMA 2는 연구 목적으로 상업 이용에서도 무료로 이용할 수 잇지만 초대보다 405 늘어난 데이터로 학습했다고 한다. 메타는 마이크로소프트와 파트너십을 맺어 클라우드 플랫폼 애저에서 LLaMA 2를 사용할 수 있게 했다.

Today, Meta has announced we are opening access to our next generation large language model Llama 2, in partnership with Microsoft. By making AI models available openly, they can benefit everyone. AI innovation is inevitable and AI should be built to benefit the whole of society.…
— Nick Clegg (@nickclegg) July 18, 2023

동시에 퀄컴도 메타와 협업해 LLaMA 대응 기기를 더 늘리기 위해 움직이고 잇다. 퀄컴은 LLaMA 2가 2024년 이후 스냅드래곤 스마트폰이나 PC에 내장된다. 다시 말해 LLaMA 2는 클라우드 뿐 아니라 하드웨어에도 탑재된다. 개발자로선 클라우드 컴퓨팅에 드는 비용을 줄일 수 있고 LLaMA 안정성을 높이는 것도 가능하다고 한다.

Llama 2 모델 데이터는 무료로 공개되며 다운로드를 요청할 수 있다. 또 Llama 2는 연구 목적 뿐 아니라 상용 이용도 가능하다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

메타는 또 텍스트에서 이미지를 생성하거나 이미지에서 텍스트를 생성할 수 있는 단일 AI 모델인 카멜레온(CM3leon)을 발표했다. 카멜레온은 REALM과 2번째 멀티 태스크 미세 조정 단계 STF를 포함한 텍스트 전용 언어 모델을 사용해 학습된 첫 멀티모달 모델이다.

카멜레온은 간단하고 강력한 모델을 생성해 토크나이저 기반 트랜스포머를 기존 확산 모델만큼 효율적으로 학습할 수 있다. 더구나 트랜스포머 기반 학습보다 5배 적은 컴퓨팅으로 학습해도 텍스트로부터 이미지를 생성하는 성능으로 첨단 모델과 같은 퍼포먼스를 실현할 수 있다.

Introducing CM3leon, a first-of-its-kind multimodal model that achieves state-of-the-art performance for text-to-image generation with 5x the compute efficiency of competitive models.

More details https://t.co/VR12zkmLDs pic.twitter.com/jUnG7G1Fxf
— Meta AI (@MetaAI) July 14, 2023

카멜레온은 또 낮은 학습 비용과 추론 효율을 유지하면서 자기 회귀 모델 다용도와 효과를 갖추고 있다. 이는 다른 이미지와 텍스트 콘텐츠 임의 시퀀스를 조건으로 텍스트 이미지 시퀀스를 생성할 수 있다. 보통 생성형 AI는 지시 프롬프트를 따르는 능력을 향상시키기 위해 다양한 작업에 맞게 다중 작업 지시가 조정된다. 한편 이미지 생성 모델은 특정 작업에 특화되어 있다고 한다. 대조적으로 카멜레온은 텍스트와 이미지를 모두 생성할 수 있도록 대규모 멀티태스킹 명령 튜닝을 적용해 이미지 캡션 생성, 시각적 질문 응답, 기본 편집 조건부 이미지 생성 같은 성능이 크게 향상됐다.

카멜레온은 사하라 사막에 있는 밀짚모자와 선글라스를 건 작은 선인장 등 복잡한 구성 요소를 가진 이미지를 생성할 수 있을 뿐 아니라 시각적 질문에 대한 응답과 긴 형식 캡션, 다양한 시각 언어 태스크 등 뛰어난 성능을 발휘한다. 이는 불과 30억 텍스트 토큰으로 이뤄진 데이터세트로 학습된 경우에도 마찬가지라고 한다.

카멜레온을 이용하면 이미지 생성 도구는 입력 프롬프트를 잘 따르는 일관된 이미지를 생성할 수 있다. 이에 대해 메타는 많은 이미지 생성 모델은 전체적 모양과 국부적인 세부 사항을 복원하는 능력에 어려움을 겪고 있지만 카멜레온은 이 분야에서 강력한 성능을 발휘하고 있으며 다양한 작업을 한 모델로 실행할 수 있다.

메타는 카멜레온 같은 모델은 궁극적으로 메타버스에서 창의력을 높이고 더 나은 애플리케이션을 만드는데 도움이 될 수 있다며 많은 모델을 출시하기를 기대한다고 밝혔다. 메타가 카멜레온을 릴리스할 예정이 있는지 언제 릴리스할지는 불명이다. 관련 내용은 이곳에서 확인할 수 있다.