60년대 챗봇, 튜링 테스트에서 GPT-3.5 이겼다?

대화 상대가 기계인지 인간이 예상하게 하는 튜링 테스트 결과 챗GPT에 사용되는 오픈AI 언어 모델인 GPT-3.5가 1960년대 챗봇인 엘리자(ELIZA)에게 패배했다고 한다.

미국 캘리포니아대 샌디에이고 연구팀이 엘리자와 GPT-4, GPT-3.5를 인간과 겨루게 해 인간이 얼마나 기계를 구분할 수 있는지 검증했다. 엘리자는 1960년대 컴퓨터 가학자인 조셉 웨이젠바움(Joseph Weizenbaum)이 만든 소프트웨어로 인간 말을 듣고 대답하는 채팅봇 선구자 같은 존재다. 인간 말에 근거해 어떤 내용이냐, 자세하게 알려달라 등 대화하듯 답을 하지만 조금 복잡한 말을 던지면 곧바로 혼란에 빠진다.

연구자는 GPT-3.5와 GPT-4에 인간답게 행동하라는 명령문을 주고 자신이 인간이라는 걸 상대방에게 납득시키도록 지시했다. 연구자는 웹사이트(turingtest.live)를 이용해 인터넷상에서 튜링테스트를 실시했다. 이를 통해 참가자는 심문자 또는 증인에 할당되어 심문자가 된 인간은 상대방이 기계인지 여부를 심문하고 반대로 증인이 된 인간은 상대방에게 인간이라는 걸 납득하도록 지시됐다.

증인에는 인간 외에 엘리자와 GPT-3.5, GPT-4가 포함되어 있었기 때문에 심문자가 된 인간은 대화를 통해 상대방이 기계인지를 판단할 필요가 있었다. 심문자가 기계를 구분할 수 있는지 여부를 보면 심문자가 상대방을 인간이라고 정확하게 식별할 수 있었던 비율은 63%였다. 심문자가 엘리자를 인간이라고 착각한 확률은 27%로 GPT-3.5 14%를 웃돌았다. GPT-4는 프롬프트에 따라 다르며 최대 41%였다.

GPT-3.5는 무료 보전 챗GPT 기본 모델이며 오픈AI가 자신을 인간으로 보이지 않도록 특별하게 설정되어 있었다. 연구자는 GPT-3.5와 GPT-4는 형식적 어조가 되도록 미세 조정했다. 엘리자는 의외로 GPT-3.5를 웃돈 결과에 대해 엘리자는 보수적인 응답을 하는 경향이 있어 잘못된 정보나 불명료한 지식을 제공하지 않는 경우가 많다는 점, GPT에 일부러 친절함이나 우호적 태도도 나타내지 않은 점 등으로부터 인간 눈에는 비협력적인 인간처럼 비춰졌을 가능성이 있다고 밝히고 있다. 연구팀은 프롬프트를 조정해 GPT-3.5와 GPT-4가 더 높은 성공률을 보이지 않을 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기