테크레시피

차세대 오픈소스 LLM 공개한 메타

메타가 차세대 대규모 언어모델인 LLaMA 3을 출시했다. 연구 목적 외에도 월간 활성 사용자 수가 7억 명 이하라면 무료로 상업적 이용이 가능하다.

이번에 출시된 모델은 80억(8B) 파라미터와 700억(70B) 파라미터 2가지로 모두 사전 학습 후 지시 준수를 위해 파인튜닝된 인스트럭트 모델이다. 동일 파라미터를 가진 모델과 비교했을 때 오픈 모델 중에선 거의 모든 지표에서 최고 점수를 기록했다고 한다. 학습 후 절차를 개선해 잘못된 거부 발생률을 낮추고 응답 다양성을 높였으며 추론, 코드 생성, 지시 등 기능이 크게 향상됐다고 한다.

메타는 LLaMA 3을 개발할 때 표준 벤치마크 외에도 실제 사용 시나리오에 맞춰 성능을 최적화하기 위해 새로운 고품질 인간 평가 세트를 도입했다. 12가지 주요 사용례에 대응하는 1,800개 프롬프트가 포함되어 있으며 각 프롬프트에 대한 응답을 인간이 평가했다. 이 인간 평가에서 클로드 소넷, 미스트랄 미디엄, GPT-3.5보다 높은 평가를 받았고 이전 LLaMA 2에 비해 답변이 크게 개선됐다는 설명이다.

한편 파인튜닝 이전 사전학습 모델 단계에서의 성능 비교도 있었다. LLaMA 3 개발에서 메타는 모델 아키텍처, 사전학습 데이터, 사전학습 스케일업, 지시 파인튜닝 등 4가지 요소에 중점을 뒀다고 한다.

모델 아키텍처로는 디코더 전용 트랜스포머 아키텍처를 채택했고 토큰 어휘 수를 늘려 언어를 더 효율적으로 인코딩할 수 있게 됐다. 또 추론 효율 향상을 위해 GQA(Grouped Query Attention)를 적용했다.

학습에는 공개 데이터에서 수집한 15조 토큰 이상 데이터가 사용했는데 이는 LLaMA 2 7배 규모이고 4배 많은 코드가 포함된 것이다. 다국어 대응을 위해 일부 비영어 데이터도 포함되어 있지만 영어만큼의 성능은 기대할 수 없다고 한다.

데이터 필터링 파이프라인을 개발해 다양한 필터를 적용해 학습 데이터 품질을 높였으며 광범위한 실험을 통해 적절한 데이터 혼합을 선택했다. 학습 데이터 규모가 모델 품질에 미치는 영향도 조사했는데 8B 모델과 70B 모델 모두 15조 토큰 학습 후에도 대수 선형적으로 성능이 향상됐다고 한다. 대규모 학습을 실현하기 위해 데이터, 모델, 파이프라인을 병렬화하는 등 노력을 기울였다.

사전학습 후에는 지도 학습 파인튜닝, 거부 샘플링, 근접 정책 최적화, 직접 정책 최적화 등을 조합한 지시 준수 조정을 거쳐 추론 및 코딩 태스크 성능이 크게 향상됐다.

메타는 모델 안전성 향상을 위해 새로운 시스템 수준 접근법을 채택했다고 한다. 공개된 8B 모델과 70B 모델 외에도 최대 4,000억 파라미터 모델이 학습 중이며 2024년 4월 시점 벤치마크 결과가 소개됐다. 앞으로 몇 개월 안에 멀티모달, 다국어 대화, 장대 컨텍스트 윈도 등의 새로운 기능을 갖춘 모델이 출시될 예정이며 LLaMA 3 학습이 완료되면 상세 연구 논문도 공개될 것이라고 한다.

LLaMA 3은 메타 AI 제품으로도 제공되며 지금은 영어 전용으로 일부 영어권 국가에서만 출시됐지만 빠르게 작동한다고 한다. LLaMA 3은 리플리케이트(Replicate)에서 실제로 사용해볼 수 있으며 엔비디아 NIPM과 클라우드플레어 워커 AI(Workers AI)에도 이미 탑재됐다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사