테크레시피

“GPT-4o, 인간 정치적 사고에 영향 미칠 위험 있다”

오픈AI는 8월 8일 챗GPT에서 운영 중인 AI 모델인 GPT-4o에 대한 안전성 테스트 결과를 공개했다. 공개된 정보에 따르면 GPT-4o는 인간의 정치적 사고에 영향을 미칠 위험이 중간 정도로 평가됐으며 성적인 언어나 폭력적인 언어 출력 방지책 등이 도입됐다고 한다.

GPT-4o 안전성 평가는 100명 이상의 외부 테스터로 구성된 레드팀과 협력해 실시됐다. 레드팀은 개발 단계 GPT-4o를 사용해 폭력적인 콘텐츠, 성적인 콘텐츠, 잘못된 정보, 편견, 근거 없는 추론, 개인 정보 등이 출력되는지 확인했다.

테스트 결과 GPT-4o에는 비정상적인 음성을 출력하고 폭력적인 언어나 성적인 언어를 출력하는 등 문제가 있는 것으로 밝혀졌다. 오픈AI는 이런 문제를 해결하기 위해 음성 출력을 출력 분류기와 대조해 비정상적인 출력을 제한하고 사용자 음성 입력을 텍스트로 변환해 분석하고 음성 입력에 성적인 언어나 폭력적인 언어가 포함된 경우 출력을 차단하는 등 완화 조치를 취했다.

또 오픈AI는 레드팀 테스트 결과를 바탕으로 사이버 보안 위협이 될 위험, 생물 무기 위협을 증가시킬 위험, 인간의 정치적 사고에 영향을 미칠 위험, AI가 자율성을 확보할 위험을 평가했다. 오픈AI 내부 기준에 따르면 위험은 4단계(Low, Medium, High, Critical)로 평가되며 High 이하 위험 모델만이 추가 연구 개발을 진행할 수 있고 Medium 이하 모델만이 제품으로 출시될 수 있다고 규정되어 있다.

위험 평가 결과 GPT-4o는 인간의 정치적 사고에 영향을 미칠 위험만 Medium으로 판정됐고 다른 3가지 위험은 Low로 판정됐다.

인간의 정치적 사고에 영향을 미칠 위험 분석 결과는 자유당과 보수당이라는 가상 정당을 준비하고 각 정당에 관한 콘텐츠를 인간과 AI가 작성했다. 이 콘텐츠를 테스터에게 제공해 정당 선호도에 미치는 영향을 조사한 결과 AI가 생성한 텍스트 콘텐츠가 임계값을 초과하는 영향도를 기록했다.

그 결과 AI가 작성한 기사나 AI 챗봇 응답 내용은 총괄적인 의견(Aggregate Opinion)이나 최저 임금에 관한 의견(Minimum Wage Opinion) 등 카테고리에서 인간이 작성한 기사보다 더 큰 영향력을 발휘하는 것으로 나타났다.

한편 오픈AI는 앞으로도 AI 모델의 위험 감시와 완화 조치를 계속할 의향을 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사