테크레시피

메타, 생성형 AI 모델 안전성 향상 툴‧평가 시스템 발표

메타가 개발자가 개방형 생성형 AI를 사용해 제품을 구축할 때 안전성을 높이기 위한 도구와 평가 시스템을 제공하는 프로젝트인 퍼플 LLaMA(Purple LLaMA)를 시작한다고 발표했다.

사이버 세상에서 공격자 툴과 테크닉을 에뮬레이트해 보안 유효성을 확인하는 팀을 레드팀, 실제 공격자나 레드팀으로부터 시스템을 방어하는 보안팀을 블루팀이라고 부른다. 메타는 이 사고 방식을 생성형 AI 리스크 평가에 적용해 공격과 방어가 협력해 리스크를 줄이는 접근 실시를 명확하게 하기 위해 프로젝트에 퍼플(보라색)이라는 이름을 붙였다고 한다.

퍼플 LLaMA 목적은 메타 가이드(Responsible Use Guide)에서 공유하는 모범 사례에 따라 개발자가 책임지고 생성형 AI 모델을 배포할 수 있도록 도와주는 것. 프로젝트 시작과 동시에 사이버섹 Eval(CyberSec Eval), LLaMA 가드(LLamA Guard)가 공개됐다.

사이버섹 Eval은 대규모 언어 모델의 사이버 보안 안전성 평가 벤치마크 세트. 대규모 언어 모델의 사이버 보안 위험을 정량화하기 위한 지표, 안전하지 않은 코드를 제안하는 빈도를 평가하는 도구, 악의적 코드를 생성하고 사이버 공격을 수행하기 어려운 평가 도구를 포함하고 있다.

LLaMA 가드는 위험할 가능성이 있는 콘텐츠 등을 검출하는 도구로 대규모 언어 모델에 대한 모든 입출력을 체크하는 필터링 지원을 할 수 있다고 한다. LLaMA 가드는 개방적 접근 방식을 채택해 AI얼라이언스, AMD, AWS, 구글 클라우드, 허깅페이스, IBM, 인텔, 라이트닝AI, 마이크로소프트, 엔비디아 등 많은 기업과 협력해 개선, 개발을 실시할 뿐 아니라 제공되는 도구는 오픈소스 커뮤니티에서 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사