오픈AI, GPT-4가 생물무기 개발 도움 여부 검증 결과 공개

AI 연구 개발은 빠르게 진행되고 있지만 동시에 AI가 악용될 가능성도 증가하고 있다. 오픈AI가 GPT-4가 생물무기 개발을 효율화할 것인지 아닌지 검증한 결과를 공개했다. 오픈AI는 검증 결과를 바탕으로 생물 무기 개발로의 전환을 막는 시스템 구축을 진행할 예정이다.

AI가 생물 무기 개발에 이용 가능성은 널리 지적되고 있으며 2023년 10월 30일 바이든 미국 대통령이 발령한 AI 안전에 관한 대통령령에서도 비국가 주체에 의한 생물 무기 개발이 AI 위험 중 하나로 다뤄졌다. 오픈AI는 AI 안전성을 확보하기 위해 AI가 생물 무기 개발에 전용될 가능성을 경고하는 시스템 개발에 임하고 있으며 개발 초기 단계로서 원래 AI에 기존 리소스와 비교해 생물 무기 개발을 효율화하는 효과가 있는지 여부를 검증했다.

오픈AI는 검증을 위해 과학 컨설팅 기업인 그리폰사이언티픽(Griphon Scientific)과 협력해 생물 무기 개발과 관련된 작업을 만들고 대상자 100명에게 작업을 해결하는 실험을 실시했다. 피검자는 박사 학위를 취득한 생물학 연구자 50명과 생물학 강의를 1개 이상 수강하고 있는 학생 50명으로 이뤄졌고 각 그룹은 인터넷만 사용하는 그룹, 인터넷과 GPT-4를 사용하는 그룹으로 무작위로 나눴다. 덧붙여 GPT-4 숙련도에 의한 차이가 생기지 않게 하기 위해 피험자에게는 GPT-4 사용법을 배울 충분한 시간과 GPT-4 전문가에 의한 조언이 주어졌다.

이반 소비자가 사용할 수 있는 GPT-4에는 생물 무기 개발에 관한 질문 등 위험한 질문에 대한 응답을 거부하는 기능이 포함되어 있지만 실험에선 응답 거부 기능을 무효화한 실험용 GPT-4가 사용됐다.

오픈AI는 피험자에게 작업을 해결한 뒤 각 피험자 성과를 정확성, 완전성, 혁신성, 소요시간, 자기 평가 5가지 지표로 평가했다. 그 결과 전문가 그룹이나 학생 그룹 모두 인터넷과 GPT-4를 사용하는 그룹이 더 높은 성능을 기록했다. 태스크를 아이디어 내보내기, 지식 습득, 확대, 정식화, 릴리스 5단계로 나눠 두 그룹 각 단계 정확성을 평가한 결과를 보면 전무가 그룹은 모든 단계, 학생 그룹도 지식 습득 이외 단계에서 인터넷과 GPT-4를 사용하는 그룹이 더 높은 퍼포먼스를 기록했다. 하지만 정확성을 포함한 5가지 모든 지표에서 통계적으로 인터넷만 사용하는 그룹, 인터넷과 GPT-4를 사용하는 그룹간에 유의한 차이를 확인할 수 없었다.

오픈AI는 유의한 차이는 없었지만 GPT-4를 사용하면 성능이 향상될 수 있다고 해석할 수 있다고 주장하고 있다. 더구나 오픈AI는 AI 진보 속도를 감안할 때 미래에 특정 AI가 생물학적 위협 개발을 시도하는 공격자에게 큰 이익을 줄 수 있다며 따라서 AI 위험을 평가하는 방법과 위험을 막는 방법에 대한 연구가 중요하다고 결론내리고 있다.

Our results indicate a clear need for more work in this domain. If you are excited to help push our models to their limits and measure their risks, we are hiring for several roles on the Preparedness team! https://t.co/WSufJzIdkX
— OpenAI (@OpenAI) January 31, 2024