챗GPT, 고성능 대화 가능하지만…

챗GPT는 인간 질문에 대해 상당히 자연스럽게 대답할 수 있을 뿐 아니라 기술 시험에 합격하거나 실제로 동작하는 프로그램을 몇 분 안에 완성시키는 등 다양한 활용을 기대할 수 있다. 한편 챗GPT는 의미 없는 대답을 하는 일도 많다. 챗GPT를 이용해 논문을 작성하는 걸 학술지 사이언스나 국제회의 ICML은 금지하고 있기도 하다.

챗GPT는 일련의 단어에 확률 분포를 할당하는 구조 언어 모델을 기반으로 한다. 예를 들어 1일 1개 사과라는 문장을 주면 방대한 라이브러리 중에서 다음에 나올 가능성이 높은 단어나 문장을 도출해 웨일즈에서 유래된 속담인 1일 1개 사과는 의사를 멀리하게 한다는 문장에 대해 설명해준다. 사실 더 정교한 메커니즘으로 챗GPT는 문장 시작을 예측하고 문장 전체 일관성을 유지하는 기능을 갖고 있지만 대략적으로 문장 시작부터 다음에 올 수 있는 가능성이 높은 단어를 예측해 나간다고 생각된다고 할 수 있다.

Why does chatGPT make up fake academic papers?

By now, we know that the chatbot notoriously invents fake academic references. E.g. its answer to the most cited economics paper is completely made-up (see image).

But why? And how does it make them? A THREAD (1/n) pic.twitter.com/kyWuc915ZJ
— David Smerdon (@dsmerdon) January 27, 2023

챗GPT 실제 동작을 확인하기 위해 지금까지 가장 인용된 경제학 논문은 뭐냐고 프롬프트에 입력한다. 이 질문에 대한 문장 내보내기로 가장 일반적인 건 가장 많이 인용된 경제학 논문이며 챗GPT는 이 글 뒤에 오는 문장을 생각해간다.

A simplistic example: Give it “An apple a day…” and it will scan its immense library and come up with the most likely continuation: “…keeps the doctor away.” (3/n) pic.twitter.com/Dg5IKlVYjR
— David Smerdon (@dsmerdon) January 27, 2023

하지만 챗GPT는 실제로 인용된 횟수가 많은 논문 자체를 발견할 수 없고 인용된 횟수가 많은 경제학 논문 제목에 빈번한 단어를 라이브러리에서 추출한다. 챗GPT는 지난 70년간 인용 횟수가 많은 경제학 논문 제목에서 경제와 이론이라는 단어 출현 횟수가 많다는 걸 이해하고 경제학적 이론(A Theory of Economic)을 선택한다. 경제학적인에 이을 가능성이 높은 말로 역사를 인용해 경제사 이론(A Theory of Economic History)이라는 논문 타이틀을 출력한다. 그리고 경제사와 관련해 가장 인용되는 노벨경제학상 수상자인 더글라스 노스를 저자로 챗GPT는 기재한다.

Now consider the prompt “What is the most cited economics paper of all time”. The most ‘likely’ beginning to a language-based answer to this question is “The most cited economics paper of all time is”, which is what chatGPT spits out. (5/n) pic.twitter.com/olfbeYtrof
— David Smerdon (@dsmerdon) January 27, 2023

더구나 논문 공동 저자로 과거 노스와 공저가 가장 많이 인용된 로버트 토머스를 병기해 가짜 논문이 출판된 저널로 노스의 가장 인용된 논문이 게재된 경제사 저널을 선택해 답변을 완료한다. 이렇게 해서 챗GPT는 가장 가능성 있을 수 있는 답변으로 항상 선택을 계속하기 때문에 결과적으로 존재하지 않는 타이틀이나 작품과 작자 조합 등을 나누고 있다는 지적이다.

Now we have the title of our fake paper: “A Theory of Economic History”. We need the most probable author of this paper.
The most highly-cited author associated with economic history is Nobel laureate Douglass North. https://t.co/CvtqwZodnO
(9/n)
— David Smerdon (@dsmerdon) January 27, 2023