대규모 언어 모델은 마치 인간이 쓴 것처럼 자연스러운 글을 생성할 수 있으며 미리 알려주지 않으면 AI가 작성한 글인지 구별하기 어려운 경우도 있다. 피츠버그 대학 연구팀이 AI가 생성한 시와 인간이 쓴 시를 구별할 수 있는지 여부와 평가에 관한 연구를 진행한 결과 인간은 AI가 쓴 시를 더 선호하는 경향이 있는 것으로 나타났다.
이 연구에서는 2가지 실험이 실시됐다. 첫 번째 실험에서는 참가자 1634명을 대상으로 초서, 셰익스피어, 버틀러, 바이런, 휘트먼, 디킨슨, T.S. 엘리엇, 긴즈버그, 플라스, 라스키 등 영어권 저명한 시인 10명 시를 사용했다.
연구팀은 시인별 작품 5편과 챗GPT 3.5가 생성한 시 5편을 준비했다. 참가자는 이 시 10편을 무작위 순서로 읽고 각 시가 인간이 쓴 것인지 AI가 생성한 것인지 판단했다.
그 결과 참가자 정답률은 46.6%로 50%를 밑돌았다. 흥미롭게도 AI가 생성한 시가 인간이 쓴 시보다 인간이 쓴 것이라고 판단될 확률이 더 높았다. 그 중에서도 인간이 썼다고 판단된 비율이 가장 낮은 하위 5편 시는 모두 실제 시인 작품이었다.
2번째 실험에서는 참가자 696명을 모든 시가 인간이 쓴 것이라고 고지된 그룹, 모든 시가 AI가 생성한 것이라고 고지된 그룹, 작가에 대한 정보를 제공하지 않은 그룹 등 세 그룹으로 나눴다.
참가자는 첫 번째 실험에서 사용된 시 일부를 읽고 14가지 특성(질, 리듬, 이미지, 음향, 아름다움, 영감, 서정성 등)에 대해 7단계 척도로 평가했다.
그 결과 AI가 생성한 시는 독창성을 뺀 나머지 13가지 특성에서 인간이 쓴 시보다 더 높은 평가를 받았다. 그 중에서도 리듬에서 큰 차이가 있었다. 또 AI가 생성한 것이라고 고지된 경우 실제 작성자와 관계없이 평가가 낮아지는 경향이 관찰됐다.
연구팀은 이런 결과에 대해 AI가 생성한 시가 비교적 이해하기 쉬운 내용을 담고 있기 때문일 가능성이 있다고 분석했다. 예를 들어 AI가 생성한 시는 플라스 스타일을 모방한 시는 슬픔을 주제로, 휘트먼 스타일을 모방한 시는 자연의 아름다움을 주제로, 바이런 스타일을 모방한 시는 아름답고 슬픈 여성을 주제로 작성하는 등 테마가 명확했다.
반면 실제 시인 작품은 보다 복잡하고 깊은 해석을 요구했다. 시를 전문적으로 배우지 않은 일반 독자는 이해하기 쉬운 시를 선호하며 AI가 그런 시를 쓸 수 없을 것이라는 선입견 때문에 더 좋아하는 시를 인간이 쓴 것으로 잘못 판단한 것으로 보인다.
연구팀은 AI 기술이 급속도로 발전함에 따라 이 정도 수준 시는 AI가 쓸 수 없다는 기존 판단 기준이 더 이상 통하지 않을 수 있다고 지적했다. 또 AI 사용 투명성을 보장하기 위한 규제가 필요하다고 강조했다. 관련 내용은 이곳에서 확인할 수 있다.