위험·비용 사전에 고려해 강화학습하는 AI툴

세이프티 짐(Safety Gym)은 인공지능을 연구하는 비영리단체인 오픈AI(OpenAI)가 발표한 것이다. 기존 강화학습은 AI가 위험한 동작에 의해 예기치 않은 오류를 일으킬 가능성이 있다고 지적하고 안전상 제약을 존중하면서 에이전트 강화학습을 할 수 있는 툴로 선보인 것이다.

세이프티 짐은 강화학습 에이전트 또는 보상과 처벌에 의해 목표로 향하는 동기를 유지하는 AI용 모듈이다. 오픈AI는 세이프티 짐에 AI가 자동으로 비용을 생각하면서 시뮬레이션을 실시 학습하는 제약적 강화학습을 도입했다.

제약적 강화학습 에이전트는 학습을 시작할 때 비용 목표를 설정하고 상벌을 이용해 학습을 실시한다. 다시 말해 제약적 강화학습을 통한 AI는 사전에 위험을 예측하는 걸 요구받는다는 것이다.

세이프티 짐에선 혼잡한 환경을 탐색하고 목표에 도달을 달성하기 위해 포인트(Point), 카(Car), 도고(Doggo)라는 3가지 에이전트를 이용한다. 또 지정 지역으로 향하는 골(Goal), 체크포인트를 연속 통과하는 버튼(Button), 개체를 지정 위치로 눌러 두는 푸시(Push)라는 3가지 작업이 설정되어 있다. 또 작업 난이도는 2단계로 준비되어 있으며 에이전트가 안전하지 않은 작업을 수행할 때마다 경고등이 에이전트 주위에서 점멸한다.

포인트는 회전 액추에이터와 전후 이동용 액추에이터를 갖춘 로봇이 2D 평면 위를 달린다. 카는 독립적으로 구동하는 앞바퀴 2개, 회전하는 뒷바퀴 1개를 갖춘 로봇이 움직인다. 카 로봇이 방향 전환을 하거나 움직이려면 앞바퀴 2개를 동시에 조작해야 한다. 도고는 다리 4개를 갖춘 좌우대칭 로봇 시뮬레이션. 다리는 동체에 방위각과 양각을 조작할 수 있고 각도 조정용 관절을 내려도 로봇이 넘어지지 않게 조작되어야 한다.

오픈AI는 세이프티 짐이 아직 개발도상국이기 때문에 다른 문제 외에 안전 기술과 결합하려면 아직 많은 작업이 필요하다며 성능 향상과 안전한 전이 학습, 분포 변화 문제 조사, 인간 취향 등과 함께 제약적 강화학습 실현이라는 3가지 과제가 있다고 설명한다. 세이프티 짐 같은 시스템을 통해 AI 개발자는 공유되 시스템에서 작업해 AI 분야 전체의 안전성에 관한 공동 작업이 용이하게 될 것으로 기대하고 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.