최근 급격하게 발전한 생성형 AI는 복잡한 계산이나 문서 요약과 같은 작업을 단 몇 초 만에 수행할 수 있다. 하지만 생성형 AI에는 환각이라 불리는 문제가 있다. 이는 잘못된 정보나 오해를 불러일으키는 정보를 사실인 것처럼 제시하는 현상을 의미한다. 발렌시아 인공지능 연구소 연구팀이 오픈AI GPT 시리즈와 메타 LLaMA 등 대형 언어 모델을 대상으로 조사한 결과 성능이 높은 모델일수록 환각 현상이 더 자주 발생하는 게 드러났다.
보통 대형 언어 모델은 환각을 발생시킬 가능성이 3~10% 정도인 것으로 알려져 있으며 전문가가 이런 모델에 일종의 가드레일을 추가해 오류를 줄이고 더 정확한 정보를 제공할 수 있는 가능성이 있다.
하지만 고급 대형 언어 모델은 인터넷 상 다양한 데이터를 학습에 사용하기 때문에 때때로 AI가 생성한 출처로부터 학습하는 경우도 있다. 이 경우 일반적인 대형 언어 모델보다 더 많은 환각을 일으킬 가능성이 있다는 지적이 있다.
발렌시아 인공지능 연구소 연구팀은 GPT-4를 포함한 오픈AI GPT 시리즈, 메타 LLaMA, 빅사이언스(BigScience) 오픈소스 대형 언어 모델 블룸(BLOOM)을 사용해 실험을 진행했다. 이 실험에서는 계산, 아나그램, 지리, 과학 등 질문 수천 개를 모델에게 던졌으며 제시된 목록을 정렬하는 등 과제를 수행하게 했다.
연구팀은 이번 실험에서 대형 언어 모델이 질문이 너무 어려워 답할 수 없을 때는 답변을 거부할 것이라고 기대했으나 대부분 질문에 대해 모델은 답변을 내놨다. 연구팀은 모델 답변을 정답, 오답, 답변 거부 3가지로 분류했다. 실험 결과 간단한 질문에서는 모델 10%가 잘못된 답변을 내놓았으며 어려운 질문에서는 40% 답변이 오류를 포함한 것으로 나타났다.
연구팀은 이런 대형 언어 모델을 다루는 사람은 이 영역에서는 모델을 효과적으로 활용할 수 있지만 저 영역에서는 사용하지 말아야 한다는 사실을 이해할 필요가 있다고 주장했다. 또 간단한 질문에서의 성능을 향상시키기 위해 복잡한 질문에는 답변을 거부하도록 채팅봇을 프로그래밍할 걸 권장했다.
전문가는 의료 분야 등 특정 목적을 위해 개발된 채팅봇은 모르겠다 또는 질문에 답하기에 정보가 충분하지 않다 같이 지식 기반을 넘지 않도록 개선된 경우가 있다고 말했다. 하지만 챗GPT와 같은 다목적 채팅봇을 제공하는 기업은 이런 개선이 일반 고객에게 제공되기를 바라지 않는다는 점도 지적했다. 관련 내용은 이곳에서 확인할 수 있다.