테크레시피

앤트로픽이 공개한 기존 AI 안전 정책 반성 포인트는…

채팅 AI 클로드(Claude) 등을 개발하는 AI 기업 앤트로픽(Anthropic)이 AI 안전성에 관한 정책 반성점을 발표했다. 이번에 발표된 반성을 토대로 새로운 정책이 수립될 예정이다.

앤트로픽은 오픈AI에서 GPT-2와 GPT-3 개발에 참여했던 다리오 아모데이가 CEO를 맡고 있는 AI 기업. 앤트로픽은 AI 성능 향상에 따른 안전 위협을 AI 안전 레벨(ASL)이라는 지표로 분류하고 있다. 이를 통해 심각한 위험을 초래하지 않는 AI를 ASL-1, 생물 무기 개발 등에 악용될 조짐을 보이는 AI를 ASL-2, 검색 엔진이나 교과서와 비교해 파괴적 위험을 초래하는 AI를 ASL-3, 현재 AI와는 차원이 다른 성능을 지니고 위험도를 정의할 수 없는 AI를 ASL-4로 규정하고 있다.

앤트로픽 제품인 채팅 AI 클로드를 포함해 현재 주류인 채팅 AI는 ASL-2에 해당한다. 앤트로픽은 ASL-2에 해당하는 AI를 안전하게 개발하기 위해 큰 위험을 초래할 수 있는 레드라인 기능을 특정해 정보를 공개하고 레드라인 기능을 안전하게 다루기 위한 새로운 표준을 개발 및 구현하는 작업에 주력하고 있다. 이 중 레드라인 기능을 안전하게 다루기 위한 새로운 표준 개발 및 구현 작업은 ASL-3 표준이라고 불리는데 기존 정책으로는 ASL-3 표준을 충분히 추진할 수 없다고 한다.

새롭게 앤트로픽은 정책 개선 작업을 진행하는 데 있어 중요한 기존 정책에 대한 반성점을 공개했다. 반성점에는 신세대 모델에는 모델마다 새로운 기능이 추가되어 있어 미래 모델 특성을 예측하기 어렵다, 화학, 생물학, 방사성 물질, 핵 등 비교적 정립된 분야에서조차 전문가마다 어떤 위험이 더 큰 영향을 미치는지, AI 능력이 어떤 위험을 초래하는지에 대한 의견이 갈린다는 개선이 필요한 부분도 포함되어 있다.

그 밖에도 분야별 전문가와의 신속한 피드백 사이클은 테스트나 작업 문제점 인식에 도움이 됐다거나 위협 모델을 정량화하려는 시도는 우선 기능이나 우선 시나리오를 결정하는 데 도움이 됐다는 식으로 앞으로도 계속 활용해야 할 조치도 포함되어 있다.

앤트로픽은 기존 정책에서의 반성점을 바탕으로 정책을 개선하고 새로운 정책을 곧 공개할 예정이다. 한편 아모데이 앤트로픽 CEO는 ASL-4에 해당하는 현재 AI와는 차원이 다른 성능을 지니고 위험도를 정의할 수 없는 AI가 2025∼2028년 사이 등장할 것으로 내다봤다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사