메타 AI 연구팀이 100만 토큰이 넘는 텍스트나 이미지, 오디오 포맷 등 콘텐츠를 생성할 수 있는 가능성을 가진 메가바이트(Megabyte) 아키텍처를 발표했다. GPT-4나 바드 등 AI 모델 기반이 되는 아키텍처는 트랜스포머(Transformer)지만 메가바이트를 AI 모델에 채택하면 더 고도로 숙련된 AI 모델 개발이 가능하게 된다는 주장이다.
오픈AI가 개발하는 GPT-4와 같은 고성능 생성형 AI 모델은 사용자가 복잡한 입력을 이해하고 긴 문장을 생성하는데 도움이 되는 트랜스포머 아키텍처를 기반으로 개발됐다. 하지만 메타 AI 연구팀은 트랜스포머 아키텍처에는 2가지 제한이 있다고 지적한다. 한 가지 제한은 사용자 입력과 AI 모델 출력이 길어짐에 따라 트랜스포머 아키텍처에서 계산량이 많아지고 토큰량이 많은 시퀀스를 효율적으로 처리하는 게 어려워진다는 점이다.
또 다른 한계는 언어 모델이 일련의 수학적 연산과 변환을 통해 단어를 이해하고 처리하는 걸 돕는 피드 포워드 신경 네트워크가 트랜스포머 아키텍처에선 문자 그룹별로 독립적으로 단독 동작하기 때문에 결과적으로 계산량이 많아져 토큰량이 많은 시퀀스 처리가 곤란해져 버린다는 것이다.
이런 요인으로 현재 트랜스포머 아키텍처는 토큰량이 많은 입출력을 효율적으로 처리한다는 점에서 한계에 도달하고 있을 가능성이 지적되고 있다. 따라서 메타 AI 연구팀은 이런 한계를 해결하고 콘텐츠 생성의 새로운 가능성을 이끌어내는데 중점을 둔 AI 아키텍처를 개발했다.
메타가 개발한 메가바이트는 I/O와 관련된 시퀀스를 개별 토큰이 아닌 패치별로 분할하는 독자 시스템을 채택하고 있다. 각 패치는 로컬 AI 모델에 의해 처리된 다음 글로벌 AI 모델이 모든 패치를 통합해 최종 출력을 수행한다. 메가바이트 접근 방식은 현재 AI 모델이 직면하는 과제를 해결하는 것으로 알려져 있으며 단일 피드 포워드 신경망이 여러 토큰을 포함하는 패치에서 병렬로 작동함에 따라 이제까지의 문제를 극복할 수 있을 것으로 생각되고 있다.
토큰이 아닌 패치 기반으로 시스템을 구축하면 계산을 순차적으로 수행하는 기존 트랜스포머 아키텍처와 달리 메가바이트에선 계산을 병렬로 수행할 수 있다. 병렬 처리를 통해 메가바이트를 탑재한 AI 모델 파라미터가 많은 경우에도 트랜스포머 아키텍처 기반 AI 모델보다 상당한 효율화를 실현할 수 있다.
연구팀이 실시한 실험에서 파라미터 수가 15억이었던 메가바이트는 파라미터 수가 3억 5,000만인 트랜스포머 모델보다 40% 빠르게 시퀀스를 생성할 수 있다는 걸 보여줬다. 더구나 GPT-4에선 3만 2,000토큰, 앤트로픽(Anthropic)의 텍스트 생성 AI인 클로드(Claude)에선 10만 토큰 생성이 상한이었지만 메가바이트 모델에선 120만 토큰이 넘는 시퀀스를 처리할 수 있다. 120만 토큰을 처리할 수 있는 메가바이트 모델은 콘텐츠 생성에 대한 새로운 가능성을 열어 현재 AI 모델 한계를 넘는 아키텍처가 될 것으로 기대되고 있다.
오픈AI 엔지니어는 메가바이트는 대규모 언어 모델에서 토큰화를 폐지할 수 있다는 점에서 유망하다며 챗GPT는 창조적인 글쓰기와 요약 등 작업이 뛰어나지만 요약된 문장을 복원하는 등 작업을 싫어하는 건 토큰화가 요인이라고 밝히고 있다.
메타 AI 연구팀은 메가바이트 아키텍처가 획기적인 기술이라는 걸 인정하면서도 최적화를 위한 다른 수단이 있을 가능성으 ㄹ시사한다. 패치 기술을 채택한 더 효율적인 인코더 모델이나 시퀀스를 더 작은 블록으로 분해하기 위한 디코드 모델 등 분야에 있어 기존 트랜스포머 아키텍처를 확장해 차세대 모델에 대응할 가능성이 있다고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.