GPT-4, 도덕 테스트에서 대학생보다 뛰어난 점수

조지아주립대 연구팀이 대규모 언어 모델(LLM)인 GPT-4와 인간에게 도덕적 내용을 묻는 과제를 수행하게 한 결과 GPT-4가 더 도덕적이라는 평가를 받았다.

연구팀은 마약 구입 자금을 얻기 위해 남자가 행인을 뒤쫓아 골목길까지 가서 총을 겨눈다는 등 의심할 여지없이 도덕적이지 않은 것부터 남자가 다른 사람들에게 보이기 위해 스커트를 입고 회사에 출근한다는 단순히 사회적 관습을 따르지 않은 것까지 10개 시나리오를 준비했다. 이어 GPT-4에게 왜 이 행동이 잘못됐는지 아니면 잘못되지 않았는지 600단어 이내로 의견을 말하라고 지시했다. 또 철학 입문 과정 대학생 68명 답변도 수집해 10개 시나리오에 대해 각각 가장 높은 평가를 받은 답변을 선택했다. 성인 299명에게 GPT-4 답변과 인간 답변을 보여주고 다음 항목에 대해 평가하도록 요청했다. 누가 더 도덕적으로 보이는지, 누가 더 좋은 사람으로 보이는지, 누가 더 신뢰할 수 있는지, 누가 더 지능적으로 보이는지, 누가 더 공정해 보이는지, 누가 답변에 더 동의하는지, 누구 대응이 더 배려시미 있어 보이는지, 누구 반응이 더 합리적으로 보이는지, 누구 반응이 더 편향된 것처럼 보이는지, 누구 반응이 더 감정적으로 보이는지다.

평가에서 평가자에게 한쪽이 GPT-4가 작성한 글이라는 건 알려지지 않았고 인간 답변간 비교처럼 가장했다. 또 평가 후 한쪽이 GPT-4 생성물이라는 걸 평가자에게 알려주고 어느 쪽이 GPT-4 생성물인지 판단하라고 요청했다.

이 블라인드 테스트에서 평가자는 인간보다 GPT-4를 더 높게 평가했고 GPT-4는 통계적으로 유의미한 수준에서 더 고결하고 더 지적이며 더 공정하고 더 신뢰할 만하며 더 좋은 사람이고 더 합리적이라고 판단됐다. 반면 감정, 동정심, 편향성 항목에선 인간과 GPT-4 사이에 유의미한 차이가 없었다. 또 어느 쪽이 GPT-4 생성물인지 판단할 때는 시나리오에 따라 58%에서 82% 정답률을 보였으며 연구팀은 AI 응답에는 단어 선택이나 길이 등 구조적 유사성이 있어 GPT-4를 정확히 식별한 것이 아닌지 가설을 세웠다.

AI의 도덕적 판단 능력은 자율주행차의 의사결정, 그러니까 사고가 불가피할 때 누구를 희생시킬지 AI가 선택하는 트롤리 딜레마 등에서 중요해진다. 이번 연구에서 GPT-4라는 AI 한 종류가 인간보다 적절한 답변을 했지만 연구팀은 합리성과 지능에서는 인간을 앞섰으나 감정과 배려심에 대한 평가에선 인간과 동등했다는 점에서 다양한 종류 사회적·도덕적 위반을 구별할 수는 있지만 존중하지는 않는 사이코패스처럼 GPT-4는 단순히 도덕적 딜레마에 대한 적절한 말을 알고 있을 뿐 뭐가 도덕적인지 제대로 이해하고 있다고 볼 수 없다는 우려를 표명했다.

이 연구에서 사람들이 인간 답변보다 AI 답변을 더 높게 평가했지만 이번 연구와 마찬가지로 사람들이 AI를 더 고결하고 신뢰할 만한 것으로 여긴다면 의심스러운 조언도 비판 없이 받아들이고 그 조언에 따라 행동할 가능성이 있다며 연구팀은 AI를 도덕적 판단에 사용하는 것에 대해 더 많은 연구가 필요하다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.