보통 대규모 언어 모델(LLM) 대부분은 다음 단어 예측이라는 작업을 수행하며 한 번에 출력되는 데이터 그러니까 토큰은 하나다. 이에 대해 메타는 2024년 4월 논문에서 한 번에 여러 토큰을 출력하는 멀티토큰 예측(multi-token-prediction)이라는 접근 방식을 제안했다. 7월 4일 메타는 멀티토큰 예측을 사용한 사전 훈련된 모델을 AI 개발 플랫폼인 허깅페이스에 오픈소스로 공개했다.
대부분 대규모 언어 모델은 한 번에 토큰 하나를 출력하는데 이는 단순하고 확장 가능한 반면 훈련에 방대한 데이터가 필요하고 비효율적이라는 문제점도 있다. 이에 대해 메타가 제안한 멀티토큰 예측은 한 번에 여러 토큰을 생성해 대규모 언어 모델 성능과 훈련 효율성이 향상된다고 한다.
In April we published a paper on a new training approach for better & faster LLMs using multi-token prediction. To enable further exploration by researchers, we’ve released pre-trained models for code completion using this approach on @HuggingFace ⬇️https://t.co/OnUsGcDpYx
— AI at Meta (@AIatMeta) July 3, 2024
메타는 7월 4일 멀티토큰 예측을 구현한 4개 사전 훈련된 대규모 언어 모델을 허깅페이스에 오픈소스로 공개했다. 4개 모델은 코드 생성 작업에 초점을 맞추고 있으며 각각 70억 개 매개변수를 갖고 있다. 각 모델은 한 번에 4개 토큰을 출력한다고 한다. 멀티토큰 예측이 기존 접근 방식보다 고품질 코드를 생성하는 이유는 불분명하지만 대규모 언어 모델 훈련에 사용되는 기법(teacher-forcing)으로 인한 제한이 여러 토큰 생성으로 완화될 가능성이 있다고 메타 측은 생각하고 있다.
메타는 멀티토큰 예측을 채택한 모델 성능을 코딩 작업 벤치마크인 MBPP와 HumanEval로 테스트했다. 그 결과 기존 대규모 언어 모델과 비교해 MBPP에서 17%, HumanEval에서 12% 뛰어난 성능을 발휘했으며 출력 속도도 3배로 향상됐다고 한다.
보도에선 멀티토큰 예측이 단순히 대규모 언어 모델 효율성 향상에 그치지 않고 언어 구조와 맥락을 더 높은 정확도로 이해할 수 있게 해 인간과 AI 사이 격차를 좁힐 가능성이 있다고 지적한다. 한편으로 AI를 이용한 잘못된 정보 생성이나 사이버 공격 등 잠재적인 악용 장벽도 낮추기 때문에 고급 AI 도구를 오픈소스로 공개하는 건 장단점이 모두 있다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.