AI vs 철학자, 전문가도 구별 어렵다?

오픈AI(OpenAI)가 개발한 언어 모델인 GPT-3은 고정밀 문장 생성이 가능해 해외 게시판에서 일주일에 걸쳐 인간과 대화하거나 GPT-3이 생성한 기사가 소셜 뉴스 사이트 1위에 오르는 등 화제를 불러 모았다. 이번에는 GPT-3에 미국 철학자 다니엘 데닛 저서를 학습시켜 데닛의 발언인지 GPT-3 발언인지 인간 피험자에게 판별하도록 하는 실험을 진행했다고 한다.

인간은 AI와 철학자를 구별할 수 있을지 확인하는 실험을 실시한 건 캘리포니아대학 리버사이드 철학자 에릭 슈비츠게벨(Eric Schwitzgebel) 연구팀. 이번 실험 결과는 그의 블로그에 게재되어 있다.

연구팀은 이전에 GPT-3을 18세기 철학자인 임마누엘 칸트 저작으로 훈련시켜 AI 칸트에 철학적 질문을 하는 실험을 실시한 적도 있다. 이번 실험은 데닛이 생명 철학자라는 점에서 크게 다르다. 또 데닛은 의식에 초점을 맞춘 철학자이며 로봇 의식과 튜링 테스트 문제에 관한 저작도 있다.

이번 연구팀은 GPT-3을 데닛 저작이나 발언으로 훈련할 때 사전에 데닛 허가를 얻었다고 한다. 루트비히막시밀리안대학 철학 연구자 안나 스트라서는 본인에게 물어보지 않고 AI 복제본을 만드는 건 윤리적으로 잘못된 일이라고 말한다. 데닛 본인도 이런 종류 윤리적 배려가 중요하다고 지적하고 저작권으론 이 문제를 다룰 수 없으며 피해를 입을 가능성이 있다고 밝혔다.

연구팀은 데닛과 훈련한 GPT-3 모두에 대해 의식, 신, 자유 의지 등 철학적 주제에 대해 질문 10개를 했다. GPT-3에선 인터뷰어 질문에 데닛이 대답하는 형식으로 텍스트를 자동 생성해 GPT-3이 생성한 텍스트가 데닛 대답과 거의 같은 길이가 되도록 너무 긴 문장은 뒤쪽을 잘랐다. 또 연구팀은 데닛 답변보다 5개 단어 이상 적은 답변이나 인터뷰어, 데닛 등 부자연스러운 단어가 포함된 답변은 제외해 이 과정에서 전체 답변 3개 중 1개가 제외됐다고 한다. 더구나 연구팀은 인용부호 통일이나 대시 정규화 등을 실시했지만 내용에 근거하는 체리피킹은 이뤄지지 않았다고 밝히고 있다. GPT-3에 의한 텍스트 생성은 질문에 대한 답변이 4개가 될 때까지 반복됐다고 한다.

연구팀은 GPT-3 대답과 데닛 대답을 섞어 질문 1개에 대해 대답 5개를 피험자에게 제시했다. 피험자는 연구 플랫폼 프로리픽(Prolific)에서 모집된 대학 학위를 가진 98명과 블로그로 모집한 302명, 데닛 저작을 잘 안다고 지명된 전문가 25명을 대상으로 프로리픽에서 모집한 피험자에게는 5개 문항, 그 외 피험자에게는 10개 문항을 출제했다. 덧붙여 프로리픽에서 모집된 피험자에게는 진지하게 답하는 인센티브로 5개 중 3개 이상 정답을 맞추면 보수를 1달러 추가로 지불하는 보너스를 제시했다.

피험자는 각각 회답에 대해 전혀 인간 철학자가 회답하고 있지 않은 것 같다부터 확실히 인간 철학자가 답하는 것으로 생각한다까지 5단계로 평가하고 마지막까지 답했을 때 어느 정도 정밀도로 AI인지 철학자인지 판별할 수 있었는지 측정했다. 덧붙여 프로리픽 피험자는 데닛의 지식이 없다고 추측됐기 때문에 인간 철학자라는 문언으로 질문받았지만 그 밖에 다른 피험자에게는 데닛 이름으로 질문을 받았다고 한다. 연구팀은 블로그에 링크를 붙인 페이지로 실제 출제한 질문과 답변을 공개하고 있다.

실험 결과 프로리픽에서 모집된 피험자 정답률은 불과 24%로 5개 중 1개를 적당히 선택한 경우 20%를 조금 웃도는 정도였다. 또 철학에 관심이 있어야 하는 블로그 독자조차 정답률은 48%였고 놀랍게도 전문가라도 정답률은 51%에 불과했다. 이 결과는 전문가라면 적어도 80% 정답을 맞출 것이라는 예측을 훨씬 밑도는 것이었다고 한다. 덧붙여 응답해준 블로그 독자에게 앙케이트를 하자 57%는 철학 대학원을 나왔고 64%는 데닛 저작을 100페이지 이상 읽은 적이 있다고 답했다.

모든 질문이 다 어려웠던 건 아니며 전문가 정답률이 80%에 이르는 문제도 있었다고 한다. 정답률이 낮았던 건 인간은 신념을 가진 로봇을 만들 수 있을지에 대한 문제로 정답률은 20%까지 떨어졌다. 연구팀은 데닛 연구 전문가인 철학자조차 이 언어 생성 프로그램으로 만들어진 대답과 데닛의 답변을 구별하는 건 상당히 어렵다고 밝혔다.

GPT-3이 생성한 대잡에 대해 어떻게 생각하는지 묻자 데닛은 대부분 기계에 의한 대답은 꽤 좋았지만 일부는 넌센스이거나 자신의 견해나 주장에 대해 아무 것도 제대로 이해하지 못한 명백한 실패이기도 했다며 이번 실험이 결코 GPT-3 튜링 테스트가 되지 않는다고 밝혔다. 이번에는 어디까지나 질문 1개와 답변에 대한 것으로 실제로 GPT-3과 질문 답변을 거듭하면 AI인 게 간파될 수 있다. 또 GPT-3은 독자 아이디어와 철학 이론을 갖고 있지 않은 만큼 의미를 갖고 있지 않다는 점도 지적된다.

데닛은 사람들이 AI에 속기 쉽다는 점을 지적하며 이런 시스템이 사용될 수 있는 여러 방법을 금지하는 법이 필요하다고 생각한다고 밝혔다. 연구팀은 앞으로 실험 방법과 결과를 논문에 정리해 발표할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.