완전 공개·재현 가능한 LLM…오픈코더 나왔다

이석원 기자

2024.11.12

중국 상하이에 위치한 AI 기업 INF테크놀로지(INF Technology)와 오픈소스 AI 연구 커뮤니티 M-A-P 등에 속한 연구팀이 최종 모델 뿐 아니라 훈련 데이터와 데이터 처리 파이프라인까지 모델을 재현하는 데 필요한 모든 정보를 공개한 대규모 언어 모델인 오픈코더(OpenCoder)를 공개했다.

대규모 언어 모델에서 오픈 모델이라고 할 때 공개 범위는 다양하다. 모델 아키텍처가 공개되어 누구나 독자 데이터로 모델을 훈련할 수 있는 경우를 오픈소스라 하고 훈련이 완료된 모델이 공개되어 누구나 로컬 PC에서 실행할 수 있는 경우를 오픈웨이트라 하며 훈련에 사용된 데이터가 공개되어 누구나 훈련을 재현할 수 있는 경우를 오픈데이터라 한다. 오픈코더는 이 모든 걸 공개한 완전히 오픈된 모델이다.

오픈코더는 15억 개 파라미터 모델과 80억 개 파라미터 모델이 출시됐으며 그 중에서도 80억 파라미터 모델은 완전히 오픈된 모델 카테고리 기본 모델 중 최고 성능을 기록했다.

오픈코더는 90% 코드 데이터와 10% 코드 관련 웹 데이터를 포함한 750억 토큰을 사용해 2조 5,000억 토큰 분량으로 사전 훈련을 수행했다. 이후 450만 개에 이르는 고품질 예제를 사용해 지도 학습 방식으로 파인튜닝을 진행했다.

현재 모델 생성 방법이 상세히 설명된 논문과 훈련이 완료된 모델, 지도 학습에 사용된 고품질 예제 450만 개가 공개되어 있으며 나머지 데이터도 공개하기 위한 작업이 진행 중이다.

오픈코더를 실제로 사용해 본 사용자 평가에 따르면 오픈코더 품질은 그다지 높지 않으며 GPT-4에는 한참 미치지 못하고 알리바바 Qwen2.5 72B 모델이나 메타 Llama 3.1 70B 모델에도 성능이 크게 뒤처지는 것으로 보인다. 또 환각 발생률이 다소 높은 편이다.

다른 모델과 달리 오픈코더는 모델 개발에 필요한 모든 정보를 공개했다는 점에서 모델 성능과 관계없이 모든 과정이 공개된 건 모두에게 이익이 되는 일이라는 긍정적인 평가를 받고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사