테크레시피

AI 창조적 사고 능력도 인간 평균 초과했다?

챗GPT나 미드저니 등 생성형 AI가 등장하며 많은 직업이 영향을 받을 것으로 예상되고 있으며 AI가 생성한 회화가 인간 작품과 경쟁해 콘테스트에서 우승하는 등 창의적 분야에서도 생성형 AI의 존재감이 증가하고 있다. 이런 생성형 AI와 인간이 내놓은 아이디어를 AI 답변이 섞여 있는지 모르는 사람에게 평가받는 실험을 실시했는데 인간 아이디어보다 AI가 생성한 아이디어 쪽이 창조성 점수가 유의하게 높았다는 논문이 발표됐다.

핀란드 투르쿠대 연구팀과 노르웨이 베르겐대 연구팀은 2023년 9월 14일자 사이언티픽리포트에 게재한 연구에서 인간 피험자 256명과 3종류 AI에 주제를 내고 답변을 비교하는 실험을 실시했다.

피험자 256명은 여성 108명, 남성 145명이며 성별 등을 밝히지 않은 3명이 있다. 연령은 19∼40세 사이로 평균 연령은 30.4세였다. 피험자는 모두 영어 네이티브 스피커로 연구 플랫폼(Open Science Framework)을 통해 모집했고 13분 협력으로 피험자에게는 2파운드 보수를 지급했다.

한편 AI는 오픈AI 챗봇인 챗GPT 3.5와 챗GPT4, 챗GPT 3.5를 기반으로 한 AI 시스템인 Copy.ai를 사용했다. 3가지 챗봇은 서로 다른 세션으로 생성된 프롬프트 4개에 대해 11회 테스트를 실시했으며 132개 응답이 수집됐다. 챗복은 같은 대답을 반복하는 경향이 있기 때문에 회답수를 필요 최소한으로 줄였다.

실험 내용은 로프와 상자, 연필, 촛불이라는 4가지 일용품에 대해 원래와 다른 대체 용도를 가능하면 많이 답하게 하는 것이다. 응답 독창성은 다양한 생각을 하는 사고를 평가하기 위한 AUT(Alternative Uses Test)에 의해 의미적 거리 그러니까 응답이 원래 용도와 얼마나 가까운지, 창조성 2가지로 평가했다. 의미적 거리 채점은 분석용 계산 방법, 창조성 채점은 응답 일부가 AI에 의한 것이라고 알리지 않은 인간 6명 주관으로 이뤄졌다.

실험 결과 AI 독창성 접수 평균점은 의미적 거리와 창의성 모두에서 인간 평균점을 유의하게 웃돌았지만 최고점은 인간이 높았다.

평균점을 보면 의미적 거리에선 0.95:0.91로 AI가 승리했고 창의성에서도 2.91:2.47로 인간을 웃돌았다. 인간 응답은 AI에 비해 편차가 크고 최소 점수는 AI보다 훨씬 낮았지만 최고 점수는 8개인 평가 항목 중 7개로 AI 최고 점수를 웃돌았다.

AI 중에선 챗GPT4가 특히 우수했고 주제별 창의성 평균 점수에선 연필이 다소 서투른 게 판명됐지만 나머지에선 뛰어난 성적을 거뒀다.

이번 연구에 대해 연구팀은 가장 전형적인 창조성 사고 테스트인 AUT에선 AI가 평균적인 인간 아이디어 생성 능력과 동등하거나 그 이상을 나타낸다며 챗봇은 보통 인간보다 뛰어난 성능을 발휘했지만 가장 우수한 인간이라면 여전히 챗봇과 경쟁하는 게 가능했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독