테크레시피

무료로 노트북에서도 실행 가능한 70억 파라미터 챗봇

노믹AI(Nomic AI)가 GPT-3.5-터보와 메타 대규모 언어 모델 LLaMA로 학습한 데이터를 활용해 노트북에서도 실행할 수 있는 GPT4ALL을 발표했다. 다양한 주제 학습에 사용된 질문과 답변쌍 학습 데이터세트도 모두 공개되어 있다.

노믹AI는 먼저 GPT-3.5-터보를 이용해 100만 개 질문과 답변 쌍을 수집했다. 스탠포드대학 알파카(Alpaca) 해설을 바탕으로 노믹AI는 데이터 준비와 큐레이션에 주의를 기울여 수집한 쌍을 아틀라스(Atlas)라는 툴을 통해 정리했다. 다양성이 낮은 질문은 삭제해 학습 데이터가 다양한 주제를 다룰 수 있도록 했다. 정리 후 남은 쌍은 43만 7,605개였다.

노믹AI는 LLaMA 7B 인스턴스에서 미세 조정된 여러 모델을 학습시켰다. 첫 번째 공개와 관련한 모델은 LoRA로 훈련됐다. 이 모델은 오픈소스인 알파카-LoRA오 비교한 결과 일관되게 낮은 결과를 보였다.

GPT4ALL은 챗GPT 오픈소스 경량 클론이라고 할 수 있다. 한 전문가는 GPT4ALL의 매력은 양자화 4비트 버전 모델을 공개했다는 데 있다고 평가했다. 이는 모델 일부 정확도를 낮춰 실행, 더 콤팩트한 모델로 만들어졌으며 전용 하드웨어 없이도 일반 소비자용 단말기에서도 실행할 수 있다는 걸 의미한다.

참고로 이 모델은 연구 목적으로만 라이선스가 부여되어 무료 사용할 수 있지만 상업적 이용은 금지되어 있다. 또 보조 데이터를 수집한 GPT-3.5-터보 사용 조건으로 오픈AI와 상업적으로 경쟁하는 모델 개발을 금지하는 조항이 있다는 점에 유의할 필요가 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사