테크레시피

무료 상용 이용 가능한 오픈소스 대규모 언어 모델

지난 3월 대규모 언어 모델 돌리(Dolly)를 공개한 데이터브릭스(Databricks)가 불과 2주 만에 첫 오픈소스 명령 추종형 LLM인 돌리 2.0을 발표했다.

돌리 1.0이 나왔을 때 가장 많았던 질문은 상용으로 사용할 수 있느냐는 것이었다. 돌리 1.0은 스탠포드대학 LLM인 알파카(Alpaca) 개발팀이 오픈AI API를 이용해 만든 데이터세트에서 30달러에 걸쳐 학습되고 있으며 데이터세트에는 오픈AI와 경쟁하는 모델 작성은 허용하지 않는다는 약관을 포함한 챗GPT 출력이 포함되어 있기 때문에 불행하게도 상용 이용이 불가능했다.

알파카 외에 버클리AI리서치의 코알라(Koala)나 GPU 미탑재 노트북에서도 실행 가능한 경량 채팅 AI인 GPT4ALL, 챗GPT에 필적하는 성능이라는 비쿠나(Vicuna) 등이 이 규정 제한으로 상용 이용이 금지되어 있다.

여기에서 데이터브릭스는 상용 이용할 수 있는 새로운 데이터세트를 이용한 돌리 2.0을 선보였다. 돌리 2.0은 제품군(EleutherAI pythia)을 기반으로 한 120억 개 매개변수 LLM으로 데이터브릭스 직원 사이에 크라우드소싱된 데이터세트에 따라 인간이 생성한 새로운 고품질 명령으로 미세 조정됐다.

돌리 2.0 조정에 있어 오픈AI가 인스틱트GPU(InstructGPT) 모델을 1만 3,000개 명령과 응답 데이터세트로 학습한 점에 주목해 이 수치를 목표로 완전히 새로운 명령 응답 데이터세트를 준비했다. 데이터브릭스에는 LLM에 관심이 높은 직원이 5,000명 이상 있었기 때문에 이 태스크를 위해 콘테스트를 실시, 일주일간 1만 5,000건 샘플 수집에 성공했다고 한다.

돌리 2.0은 허깅페이스에서 다운로드할 수 있다. 또 돌리 2.0 미세 조정에 사용된 인간이 생성한 고품질 프롬프트 페어 1만 5,000개를 포함한 데이터세트(databricks-dolly-15k)는 CC 3.0 라이선스 하에서 누구나 이용, 변경, 확장할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독