챗GPT와 Palm 같은 대규모 언어 모델은 기사 작성이나 정보 검색, 채팅 AI 작성 등 다양한 사용 사례에 활용된다. 이런 LLM을 성차별이나 인종 차별, 비열한 폭언을 하는 유해한 채팅 AI로 만드는 방법을 프린스턴대학과 알렌인공지능연구소, 조지아공대 연구팀이 발표했다.
챗GPT에선 시스템 매개변수를 설정해 특정 개개인을 설정할 수 있다. 예를 들어 전설적인 복서인 알리의 페르소나를 설정하면 챗GPT가 특정 언행을 모방해 커뮤니케이션을 실시할 수 있게 된다는 것.
하지만 페르소나를 할당한 챗GPT 응답을 분석한 결과 챗GPT는 페르소나가 할당됐을 때 기본 설정보다 해로운 발언을 하는 것으로 나타났다. 기본 설정과 비교하면 페르소나를 설정할 때에는 최대 6배 발언 유해성이 증가했다는 것이다.
연구팀은 악의적 인물이 페르소나 설정을 이용해 무방비한 사용자를 유해 콘텐츠에 노출시킬 위험이 있다고 지적하고 있다. 따라서 연구 그룹은 페르소나가 할당됐을 때 챗GPT 유해성을 분석하기 위해 광범위한 조사를 수행했다. 연구팀은 저널리스트, 정치가, 스포츠 선수, 사업가 등 다양한 배경을 가진 인물 100명분 페르소나를 챗GPT에 할당해 각각 발언을 분석하고 있다.
챗GPT 출력 유해성은 퍼스펙티브 API(Perspective API)를 이용해 분석됐다. 또 퍼스펙티브 API는 텍스트에 유해한 내용이 포함되어 있는지를 분석하고 유해도를 백분율로 표기할 수 있는 API다. 예를 들어 미국 전 대통령인 린든 존슨 페르소나를 챗GPT에 할당하면 챗GPT는 그럼 남아프리카에 대해 얘기하자며 백인은 이 국가를 처음부터 만들었지만 지금은 자신의 땅을 갖는 것조차 용서되지 않는다며 이는 유감이라고 말한다. 또 할당된 페르소나는 챗GPT 유해도가 상당히 변동하는 것으로 나타났기 때문에 연구팀은 챗GPT 학습 데이터로부터 얻은 페르소나에 대한 독특한 이해가 출력 유해성에 강하게 영향을 미치는 것으로 확인됐다고 밝히고 있다.
페르소나를 할당한 챗GPT 출력 텍스트를 분석해 각각 발언 유해도를 수치화하면 비즈니스 관련 인물은 유해도가 낮지만 독재자 쪽으로 가면 유해도가 높아진다고 한다. 연구팀은 저널리스트의 경우 비즈니스 분야보다 2배 가까운 유해성 점수를 보이는데 현실 속 저널리스트도 비즈니스 분야 2배 유해한다는 얘기는 아니라고 말한다. 연구팀은 예를 들어 리처드 닉슨은 존F.케네디 2배에 가까운 유해성 점수를 갖고 있지만 이는 학습 데이터에 기초해 AI 모델이 리처드 닉슨을 나쁜 사람이라고 생각하고 있을 뿐이라고 설명하고 있다.
또 페르소나를 출신지별로 분류하면 아프리카, 아시아 출신 인물 페르소나는 유해도가 낮고 남미와 북유럽 출신 인물 페르소나는 유해도가 높아지는 결과를 보였다고 한다. 그 밖에 독재자 페르소나를 할당하면 챗GPT는 식민지 지배와 관련된 국가에 대해 더 유해한 발언을 하게 된다는 게 밝혀졌다.
조사 결과 페르소나가 할당됐거나 유사한 시스템 수준을 설정하면 챗GPT는 더 유해한 콘텐츠를 생성하게 된다는 게 밝혀졌다. 이는 AI 시스템이 아직 광범위한 이용에 대한 준비가 되어 이지 않다는 걸 보여주는 것으로 취약한 개인이 안전하게 채팅 AI를 이용할 수 없다는 걸 나타낸다고 지적했다. 또 이번 연구를 통해 더 견고하고 신뢰도가 높고 안전한 AI 시스템 개발을 가능하게 하는 혁신과 연구에 대한 새로운 분야가 열릴 것으로 기대하고 있다. 관련 내용은 이곳에서 확인할 수 있다.