테크레시피

16개 AI 기업 “안전한 AI 개발 첫 합의”

오픈AI와 구글, 아마존, 메타, 마이크로소프트 등 16개사가 제2회 AI서밋 서울(AI Summit Seoul)에서 AI 안전성에 관한 일정 수준 합의에 도달했다고 발표했다.

이번 합의는 북미, 아시아, 유럽, 중동 등 다양한 지역 기업이 AI 개발 안전 확보를 위한 공동 노력에 합의한 첫 사례다.

AI서밋은 주요 AI 개발 기업들이 참가하는 회의체로 1회는 2023년 11월 영국 블레츨리 파크(Bletchley Park)에서 개최됐고 2회는 영국과 한국이 공동 주최해 5월 21∼22일까지 서울에서 개최됐다.

이번 회의에서는 안전한 AI를 개발한다는 것 그러니까 위험을 충분히 줄일 수 없다고 판단되는 경우에는 AI 모델을 개발하거나 전개하지 않는 것과 첨단 AI를 지칭하는 프론티어AI 안전성에 대한 설명 가능한 거버넌스와 투명성 확보에 대해 합의가 이뤄졌다.

합의한 16개사는 아마존과 앤트로픽, 코히어, 구글, G42, IBM, 인플렉션AI, 메타, 마이크로소프트, 미스트랄AI, 네이버, 오픈AI, 삼성전자, TTI(Technology Innovation Institute), xAI, 지푸AI다.

충분한 위험 감소가 불가능할 경우에서 제시되는 위험 기준은 정부를 포함한 이해관계자 의견을 수렴한 뒤 2025년 초 프랑스에서 개최될 AI 액션 서밋((AI Action Summit)에서 발표될 예정이다.

이번 합의에 대해 영국 수낙 총리는 이처럼 다양한 지역 내 주요 AI 기업이 AI 안전성 노력에 합의한 건 세계에서 처음이라며 이는 AI 안전성 글로벌 표준 선례가 되어 혁신 기술 혜택을 가져올 것이라고 평가했다.

또 미셸 더넬란 영국 과학혁신기술부 장관은 AI의 진정한 가능성은 위험을 인식할 때 비로소 발휘된다며 이번 합의로 AI 기업 노력이 강화되어 세상이 더 나아질 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

한편 이와 관련해 GPT-4 등을 개발한 오픈AI는 자사가 실천하고 있는 안전성 관련 사례 10가지를 공개해 눈길을 끈다.

첫째 제품 출시 전 실증적 모델에 대한 레드팀 공격 및 테스트. 오픈AI는 AI 제품 출시 전 내외부에서 모델 안전성을 실증적으로 평가한다. 리스크 임계값이 준비 프레임워크에서 중간 수준을 넘으면 완화 조치 후 점수가 중간 수준으로 돌아올 때까지 새 모델을 출시하지 않는다. 또 70명 이상 외부 전문가가 GPT-4 리스크 평가를 위한 레드팀으로 협력한다.

둘째 정렬 및 안전성 연구. 오픈AI 모델은 시간이 지날수록 더 안전해지고 있다. 이는 더 스마트한 모델 구축을 통해 사실 오인이 줄고 적대적 상황에서도 유해 콘텐츠 출력 가능성이 낮아졌기 때문. 또 실용적 정렬, 안전 시스템, 훈련 후 연구 분야에 집중 투자한 효과도 있다. 이런 노력으로 인간 생성 미세조정 데이터 품질이 향상되어 향후 모델이 따르도록 훈련되는 지시 개선에 기여할 것이다. 지문 탈출 등 공격에 대한 시스템 견고성을 크게 높이는 기초 연구 역시 수행하고 공개한다.

셋째 오용 모니터링. 오픈AI는 API와 챗GPT를 통해 고성능 언어 모델을 배포하고 전용 모더레이션 모델, 안전성 리스크 및 오용 모니터링 독자 모델 등 다양한 도구를 활용하고 있다. 이 과정에서 다른 사용자도 유사한 리스크로부터 적절히 보호되도록 국가 기관 기술 오용 사례를 마이크로소프트와 공동 공개하는 등 중요한 조사 결과를 공유했다. 또 GPT-4를 콘텐츠 정책 수립과 모더레이션 의사결정에도 활용해 정책 개선을 위한 피드백 루프를 만들고 인간 모더레이터 유해 콘텐츠 노출 빈도를 줄였다.

4번째는 안전을 위한 체계적 접근법. 오픈AI는 사전 훈련에서 배포까지 전 주기에 걸쳐 다양한 안전 대책을 시행하고 있다. 더 안전하고 일관된 모델 동작 개발을 진행하는 한편 사전 훈련 데이터 안전성, 시스템 수준 모델 동작 제어, 지속적 안전성 개선을 위한 데이터 플라이휠, 강력한 모니터링 인프라 등에도 투자하고 있다.

5번째는 아동 보호. 오픈AI 안전 활동에서 중요한 초점은 아동 보호다. 챗GPT와 달리에는 아동에 대한 잠재적 위해를 줄이기 위한 강력한 가드레일과 안전 장치가 포함되어 있다. 2023년에는 오픈AI 제품에서 CSAM 그러니까 아동 성착취 콘텐츠를 다루려 할 때 이를 탐지, 검증, 신고하는 절차가 도입됐다. 오픈AI는 각 전문 기구 및 광범위한 기술 커뮤니티와 협력해 안전을 고려한 설계 원칙을 지키고 있다는 설명이다.

6번째 선거 공정성. 오픈AI는 AI 생성 콘텐츠 투명성을 확보하고 정확한 투표 정보에 대한 접근성을 개선하기 위해 정부 등과 협력하고 있다. 구체적으로는 달리 3에서 생성된 이미지를 식별할 수 있는 도구를 도입했고 C2PA 메타데이터 기술 사양을 통해 데이터 편집 기록을 남겨 온라인 콘텐츠 출처를 확인할 수 있게 했다. 또 챗GPT는 사용자를 미국과 유럽 공식 선거 정보원으로 안내하도록 설계됐다. 이 외에도 오픈AI는 미국 상원에서 제안된 초당적 법안 선거를 기만적 AI로부터 보호하는 법(Protect Elections from Deceptive AI Act)을 지지하고 있다.

7번째는 영향 평가 및 정책 분석 투자. 오픈AI 영향 평가 노력은 AI 시스템 관련 화학/생물/방사선/핵 리스크 측정을 위한 초기 연구, 언어 모델이 다양한 직업과 산업에 미치는 영향 연구 등 폭넓은 분야에 걸쳐 있다. 또 사회가 관련 리스크를 어느 정도 관리해야 하는지 예를 들어 외부 전문가와 협력해 영향력 있는 활동에 대한 언어 모델 영향을 평가하는 등 선구적인 연구도 진행하고 있다.

8번째 보안 및 액세스 제어 관리. 오픈AI는 고객, 지적 재산권, 데이터 보호를 최우선 과제로 삼고 있다. 오픈AI는 AI 모델을 서비스 형태로 전 세계에 배포하고 API를 통해 액세스를 제어하고 있다. 오픈AI 사이버보안 활동에는 훈련 환경 및 가치 있는 알고리즘 기밀에 대한 필요 최소한의 액세스 통제, 내외부 침투 테스트, 버그바운티 프로그램 등이 포함된다. 고도의 AI 시스템 보호를 위해선 인프라 보안 진화가 유익할 것으로 보고 GPU 기밀 컴퓨팅, 사이버보안을 위한 AI 적용 등 혁신적인 통제 방식을 모색하고 있다. 또 사이버보안 강화를 위해 연구자에게 지원금을 제공하는 프로그램도 운영 중이다.

9번째는 정부 협력. 오픈AI는 전 세계 정부와 협력해 효과적이고 실행 가능한 AI 안전 정책 개발에 정보를 제공하고 있다. 여기에는 오픈AI가 배운 내용 공유, 정부 및 기타 제3자 기관 보장 시험을 위한 협력, 새로운 기준이나 법률 논의 관련 정보 제공 등이 포함된다.

마지막으로 10번째는 안전성에 관한 의사결정 및 이사회 감독. 준비 태세 프레임워크 일환으로 오픈AI에는 안전성 의사결정을 위한 운영 체계가 마련되어 있다. 부서간 안전 자문 그룹은 모델 능력 보고서를 검토하고 배포 전 권고사항을 제시한다. 최종 결정은 회사 경영진이 내리며 이사회가 그 결정을 감독한다. 이런 접근 방식을 통해 오픈AI는 안전하고 강력한 모델을 구축, 배포할 수 있었다고 설명하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사