채팅 AI나 코드 생성 등에 사용되는 대규모 언어 모델(LLM) 개발이 급속도로 진행되고 있지만 LLM에는 잘못된 정보를 진실인 것처럼 출력해버리는 환각이라는 문제가 존재한다. 이런 환각을 감소시킬 수 있는 AI 모델인 데이터젬마(DataGemma)가 구글에 의해 공개됐다.
데이터젬마는 구글이 주도하는 데이터세트 집적 프로젝트인 데이터 커먼스(Data Commons) 정보를 참조해 답변에 활용할 수 있는 AI 모델. 데이터 커먼스에는 UN이나 세계보건기구와 같은 신뢰성 높은 기관이 발표한 데이터세트가 포함되어 있으며 이런 정보를 출력에 포함시켜 환각을 감소시키고 답변 정확성을 높일 수 있다.
데이터젬마는 구글 오픈소스 LLM인 젬마 2 27B(Gemma 2 27B)에 미세 조정을 가한 것으로 RIG(Retrieval-Interleaved Generation)와 RAG(Retrieval-Augmented Generation)라는 2 가지 방식에 최적화되어 있다.
구조를 보면 먼저 RIG에서는 답변을 생성할 때 데이터 커먼스에서 데이터를 가져오는 프로세스를 끼워 넣어 신뢰성 높은 데이터를 포함한 답변을 출력한다. 예를 들어 일반적인 LLM에 재생 가능 에너지 사용량이 증가하고 있냐고 물으면 증가하고 있다며 전체 12% 이상이 재생 가능 에너지이며 이는 2000년부터 6% 증가한 수치 같은 답변이 출력된다.
반면 데이터젬마에서는 최종 답변을 생성하기 전에 내부적으로 증가하고 있다며 전체 12% 이상(데이터 커먼스에 전 세계 몇 %가 재생 가능 에너지인지 문의) 재생 가능 에너지이며 이는 2000년부터 6% (데이터 커먼스에 전 세계 재생 가능 에너지 사용량이 2000년부터 얼마나 증가했는지 문의) 증가했다는 데이터 커먼스에 대한 문의 문장을 포함한 문장을 생성한다. 그리고 데이터 커먼스로부터 목적 정보를 얻은 뒤 증가하고 있다며 전체 12% (18.71% 이상이 재생 가능 에너지이며 이는 2000년부터 6%∼16.87% 증가했다)와 같은 정확한 수치가 포함된 답변을 출력한다.
RIG는 모든 질문에 적용 가능하지만 데이터젬마가 데이터 커먼스 정보를 보유할 수 없기 때문에 후속 질문에 데이터 커먼스 데이터가 반영되지 않는 문제가 있다.
다음으로 RAG에서는 질문에 따라 데이터젬마로 데이터 머너스 대상 질문을 생성하고 데이터 커먼스에서 얻은 데이터를 보조 LLM에 입력해 최종 답변을 출력한다.
예를 들어 재생 가능 에너지 사용량이 증가하고 있냐는 질문이 입력된 경우 데이터젬마가 전 세계 재생 가능 에너지 사용 비율은?, 전 세계 재생 가능 에너지 사용 비율의 추이는? 등 데이터 커먼스 대상 질문을 생성하고 데이터 커먼스에서 얻은 데이터를 보조 LLM에 입력해 2021년 전 세계 재생 가능 에너지 사용률은 18.71%이며 이는 2000년과 비교해 16.87% 높은 수치와 같은 답변을 출력한다.
구글 실험에 따르면 보조 LLM에 입력하는 데이터 크기는 평균 3만 8,000토큰, 최대 34만 8,000 토큰이었다고 한다. 이 때문에 보조 LLM에는 제미나이 1.5 프로 등 컨텍스트 윈도가 큰 LLM을 사용할 필요가 있다. 또 사용자 질문 내용에 따라서는 직관적이지 않은 답변을 출력할 수도 있다고 한다.
한편 구글은 RIG와 RAG에 최적화된 데이터젬마 모델 데이터를 링크에서 공개하고 있다. 또 데이터젬마 연구 논문은 다음 링크에서 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.