테크레시피

메타, 멀티토큰 예측 코드 생성 모델 오픈소스로 공개

보통 대규모 언어 모델(LLM) 대부분은 다음 단어 예측이라는 작업을 수행하며 한 번에 출력되는 데이터 그러니까 토큰은 하나다. 이에 대해 메타는 2024년 4월 논문에서 한 번에 여러 토큰을 출력하는 멀티토큰 예측(multi-token-prediction)이라는 접근 방식을 제안했다. 7월 4일 메타는 멀티토큰 예측을 사용한 사전 훈련된 모델을 AI 개발 플랫폼인 허깅페이스에 오픈소스로 공개했다.

대부분 대규모 언어 모델은 한 번에 토큰 하나를 출력하는데 이는 단순하고 확장 가능한 반면 훈련에 방대한 데이터가 필요하고 비효율적이라는 문제점도 있다. 이에 대해 메타가 제안한 멀티토큰 예측은 한 번에 여러 토큰을 생성해 대규모 언어 모델 성능과 훈련 효율성이 향상된다고 한다.

메타는 7월 4일 멀티토큰 예측을 구현한 4개 사전 훈련된 대규모 언어 모델을 허깅페이스에 오픈소스로 공개했다. 4개 모델은 코드 생성 작업에 초점을 맞추고 있으며 각각 70억 개 매개변수를 갖고 있다. 각 모델은 한 번에 4개 토큰을 출력한다고 한다. 멀티토큰 예측이 기존 접근 방식보다 고품질 코드를 생성하는 이유는 불분명하지만 대규모 언어 모델 훈련에 사용되는 기법(teacher-forcing)으로 인한 제한이 여러 토큰 생성으로 완화될 가능성이 있다고 메타 측은 생각하고 있다.

메타는 멀티토큰 예측을 채택한 모델 성능을 코딩 작업 벤치마크인 MBPP와 HumanEval로 테스트했다. 그 결과 기존 대규모 언어 모델과 비교해 MBPP에서 17%, HumanEval에서 12% 뛰어난 성능을 발휘했으며 출력 속도도 3배로 향상됐다고 한다.

보도에선 멀티토큰 예측이 단순히 대규모 언어 모델 효율성 향상에 그치지 않고 언어 구조와 맥락을 더 높은 정확도로 이해할 수 있게 해 인간과 AI 사이 격차를 좁힐 가능성이 있다고 지적한다. 한편으로 AI를 이용한 잘못된 정보 생성이나 사이버 공격 등 잠재적인 악용 장벽도 낮추기 때문에 고급 AI 도구를 오픈소스로 공개하는 건 장단점이 모두 있다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사