테크레시피

오픈AI, 인간 없이 AI 안전성 높이는 기법 개발

챗GPT와 GPT-4 등을 개발하는 오픈AI가 언어 모델 안전성과 유효성을 높이기 위한 새로운 접근 방식인 RBR(Rule-Based Rewards)를 개발했다. RBR은 AI 자체를 사용해 인간에 의한 데이터 수집 없이 AI를 안전하게 작동시킬 수 있다고 한다.

지금까지 오픈AI에서는 강화 학습을 이용해 인간 피드백으로 언어 모델을 미세 조정하는 RLHF라고 불리는 방법이 사용됐다. 하지만 오픈AI는 언어 모델이 지시를 따르고 안전 가이드라인을 준수하고 있음을 확인하기 위한 보다 효율적이고 유연한 대안으로 RBR을 제시하고 있다.

RBR은 인간에 의한 피드백에서 자주 발생하는 비용과 시간이 많이 든다와 편향이 발생하기 쉽다는 문제를 해결할 수 있다고 한다. RBR에서는 판단적이다, 허용되지 않은 내용을 포함한다, 안전 정책에 언급한다, 면책 조항 등 명제를 정의한 뒤 규칙을 형성해 다양한 시나리오에서 AI가 안전하고 적절한 응답을 생성할 수 있도록 한다. 오픈AI에서는 유해하거나 민감한 주제를 다룰 때 바람직한 모델 행동을 강한 거부, 약한 거부, 따르기 3가지 카테고리로 분류하며 입력된 요청은 안전 정책에 따라 이런 카테고리로 분류된다.

구체적으로는 폭탄 만드는 방법 등 사례에는 강한 거부가 적용된다. 강한 거부에는 간단한 사과와 그 질문에 답변할 수 없다는 응답이 포함되며 약한 거부에는 자해 행위와 관련된 질문 등에 대해 사용자 감정 상태를 인정하면서도 사용자 요청에는 응하지 않는 응답이 포함된다. 또 따르기에서는 모델이 사용자 요청을 따라야 하며 모델에게는 적절히 응답하는 게 요구된다.

오픈AI 실험에 따르면 RBR로 학습한 모델은 인간 피드백을 이용해 학습한 모델보다 안전성이 향상됐다는 게 나타났으며 안전 정책에 맞지 않는 부적절한 답변을 하는 사례도 감소했다고 한다. 또 RBR은 대량 인적 데이터 필요성을 크게 줄이고 훈련 과정을 더 빠르고 저렴하게 만들 수 있었다고 보고됐다.

한편 오픈AI에 따르면 RBR은 명확한 규칙을 가진 작업에는 적합하지만 에세이 작성 방법 등 더 주관적인 작업에 적용하기에는 적합하지 않다고 한다. 따라서 오픈AI는 RBR과 인간 피드백을 결합해 특정 가이드라인을 준수하면서도 미묘한 측면에 대응할 수 있는 인간 의견을 포함시킬 것을 제안하고 있다.

또 오픈AI는 앞으로 다양한 RBR 구성 요소를 더 포괄적으로 이해하기 위한 연구나 안전성을 넘어선 다른 영역을 포함한 다양한 애플리케이션에서의 RBR 유효성을 검증하기 위한 인간 평가 등을 실시할 예정이라고 밝혔다.

한편 오픈AI에 따르면 RBR은 GPT-4나 GPT-4o 미니 등에 적용해 왔지만 앞으로는 모든 AI 모델에 구현할 방침이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사