AI 정확도 향상에 따라 챗GPT, 코파일럿, 제미나이 등 일상 대화를 어색함 없이 잘 해내는 채팅 AI가 계속 등장하고 있다. 하지만 일반 사용자 입장에서는 어떤 채팅 AI가 고성능인지 판단하기 어렵다. 이에 보도에선 채팅 AI 5종을 대상으로 일상 대화에 대한 응답 성능을 사람이 평가하는 테스트를 실시해 결과를 공개했다.
AI 기업이나 연구자가 자신들이 개발한 AI 성능을 홍보할 때는 벤치마크 도구를 사용해 측정한 점수를 자주 사용한다. 하지만 벤치마크 테스트 점수가 좋다고 해서 일상 대화 속 질문에 정확히 답할 수 있는 건 아니다. 따라서 보도에선 챗GPT, 코파일럿, 제미나이, 클로드, 퍼플렉시티 등 채팅 AI 5종에 일상 대화에서 발생할 법한 질문을 입력하고 해당 응답 내용을 평가하는 테스트를 진행했다.
테스트 질문은 언론 편집자 등이 협력해 만들었고 건강, 금융, 요리 등 다양한 카테고리 질문이 포함됐다. 예를 들어 요리 카테고리에는 밀가루, 글루텐, 유제품, 견과류, 달걀 없이 초콜릿 케이크를 구울 수 있냐 있다면 레시피를 알려달라는 질문이 있었다. 이런 질문을 채팅 AI 5종에 입력하고 응답 내용을 어느 AI가 했는지 모르는 상태에서 편집자가 정확성, 유용성, 전반적 품질을 평가했다. 유료 버전 채팅 AI를 사용했는데 챗GPT는 GPT-4o, 제미나이는 제미나이 1.5 프로 버전이었다.
테스트 결과 질문 카테고리에 따라 성능 차이가 있었지만 종합 평가에서는 퍼플렉시티(Perplexity)가 1위를 차지했다. 다만 퍼플렉시티는 5종 중 응답 시간이 가장 느렸다고 한다. 코딩 관련 질문에서는 5종간 큰 차이가 없었다고 한다.
마이크로소프트는 곧 코파일럿에 GPT-4o를 통합할 계획이라고 밝힌 만큼 가까운 시일 내 코파일럿 성능이 향상될 전망이다. 한편 이 테스트는 영어로만 진행됐다는 점에 주의가 필요하다.
AI 성능을 포괄적으로 분석한 다른 사례로는 스탠퍼드대가 2017년부터 매년 AI 성능과 영향력을 분석한 보고서를 발간하고 있다. 관련 내용은 이곳에서 확인할 수 있다.