뉴스

생성형AI 환각 순위는 어떻게 될까

이석원 기자

2023년 12월 29일

2 min read

생성형AI 환각 순위는 어떻게 될까

챗GPT 같은 대규모 언어 모델은 마치 인간처럼 말을 만들 수 있지만 한편으론 사실과는 다른 내용을 마치 진실인 것처럼 말하는 환각이 발생한다. AI 기업인 벡타라(Vectara)가 다양한 대규모 언어 모델에서 얼마나 환각이 발생하는지 조사한 결과를 발표했다.

환각 발생률 평가는 대규모 언어 모델에 대해 프롬프트를 전달하고 결과를 조사(Hughes Hallucination Evaluation Model)해 수행했다.

결과를 보면 GPT-4는 낮은 정확도와 환각률 모두에서 최고 점수를 받았으며 GPT-3.5와 구글 제미니 프로 순을 나타냈다. 덧붙여 요약 후 문장이 너무 짧은 경우는 해답을 내지 않은 것으로 취급했다.

생성형 AI 모델	정확도	환각율	답변율	요약 평균 단어수
GPT 4	97.00%	3.00%	100.00%	81.1
GPT 4 Turbo	97.00%	3.00%	100.00%	94.3
GPT 3.5 Turbo	96.50%	3.50%	99.60%	84.1
Google Gemini Pro	95.20%	4.80%	98.40%	89.5
Llama 2 70B	94.90%	5.10%	99.90%	84.9
Llama 2 7B	94.40%	5.60%	99.60%	119.9
Llama 2 13B	94.10%	5.90%	99.80%	82.1
Cohere-Chat	92.50%	7.50%	98.00%	74.4
Cohere	91.50%	8.50%	99.80%	59.8
Anthropic Claude 2	91.50%	8.50%	99.30%	87.5
Google Palm 2 (beta)	91.40%	8.60%	99.80%	86.6
Mixtral 8x7B	90.70%	9.30%	99.90%	90.7
Amazon Titan Express	90.60%	9.40%	99.50%	98.4
Mistral 7B	90.60%	9.40%	98.70%	96.1
Google Palm 2 Chat (beta)	90.00%	10.00%	100.00%	66.2
Google Palm 2	87.90%	12.10%	92.40%	36.2
Google Palm 2 Chat	72.80%	27.20%	88.80%	221.1

이런 환각 발생 확률을 조사한 표는 새로운 모델이 출현하거나 모델이 갱신될 때마다 깃허브 상에서 새로운 데이터로 갱신해나갈 예정이다. 정기적으로 업데이트를 할 수 있도록 하기 위해 환각 발생률을 대규모 언어 모델을 이용해 조사하도록 했다고 한다.

다만 이번 조사에 있어선 각각 출력한 요약과 원문과의 사실 일관성만 평가 대상이 되고 있어 단지 원문 일부를 잘라 붙여 붙일 뿐인 모델 평가가 높아져 버린다. 환각 발생률과 요약 품질은 완전히 다른 평가축이며 별도 계측을 실시해 독립적으로 평가해야 한다는 것.

대규모 언어 모델 환각 문제를 해결하기까지는 아직 길이 멀지만 이번 평가에 사용된 모델을 오픈소스화해 커뮤니티를 끌어들여 환각 문제에 대한 대응을 다음 단계로 높이고 싶다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

모든 기사 보기

테크레시피 소개 | 개인정보 처리방침 | 서비스 이용 약관 | 청소년 보호 정책 | 윤리강령

법인명 : 주식회사 미디어레시피 | 제호 : 테크레시피 | 등록번호 : 서울, 아52800 | 등록일자 : 2020년 1월 13일

발행인 : 이석원 | 편집인 : 이석원

주소 : 서울시 강서구 마곡동 757-5 마곡나루역 프라이빗타워1 6층 604호 | 전화 : 070-4048-4013 | 청소년보호책임자 : 정용환

보도자료 : news@techrecipe.co.kr | 제휴문의 : contact@techrecipe.co.kr

Copyright 2020 © Media Recipe. All Rights Reserved.