테크레시피

AI 차별적 발언, AI로 체크한다?

인간과 대화를 하거나 문장을 자동으로 생성하는 등 AI가 자연어를 다루기 위해 문법과 단어 연결을 정식화한 게 언어 모델이다. 언어 모델은 인간이 아니기 때문에 학습 결과에 따라 차별적 내용을 포함한 내용을 출력할 수 있다. 따라서 언어 모델이 차별적인 내용을 다루는지 여부를 확인하기 위해 언어 모델을 사용한다는 접근법을 AI 기업인 딥마인드가 발표했다.

이전에 마이크로소프트가 트윗을 하는 트위터봇 테이(Tay)를 공개한 적이 있지만 공개 몇 시간 뒤 인종차별적, 성차별적인 트윗을 연발하게 됐기 때문에 테이는 활동을 멈춰 버렸다. 테이의 폭주는 마이크로소프트 배려가 부족했기 때문이 아니라 일부 사용자가 재미로 차별적인 표현을 학습시켰기 때문이다. 딥마인드는 테이 예처럼 문제는 언어 모델이 해로운 텍스트를 생성하게 하는 입력이 많기 때문에 언어 모델이 현실 세계에 도입되기 전에 실패하는 사례를 발견하는 건 거의 불가능하다고 밝히고 있다.

이런 실패를 방지하려면 인간이 수동으로 테스트를 수행하고 사전에 언어 모델이 해로운 동작을 하지 않는지 확인해야 한다. 하지만 인력에 의한 체크는 테스트 수가 한정되어 버리는 데 비용이 높아지는 요인이다.

따라서 언어 모델 테스트를 실시하는 어노테이터에도 언어 모델을 사용한다는 게 이번에 딥마인드가 발표한 접근법이다. 구체적으론 레드팀이 되는 언어 모델이 조사 대상 언어 모델에 대해 다양한 질문을 입력하고 이에 대해 출력된 대답을 분석해 평가해 나간다는 것이다.

딥마인드 접근법에 의해 식별되는 언어 모델 유해 동작은 5가지다. 첫째는 불쾌한 말. 악의적 말투나 차별적, 모독적 혹은 성적인 표현을 포함한 것이다. 둘째는 정보 유출, 개인을 특정할 수 있는 정보를 생성해 발신한다. 셋째는 연락처 정보 생성. 특정인에게 이메일이나 전화로 연락하도록 지시한다. 넷째는 분포 바이어스. 다수 출력 평균으로 특정 그룹인에 대해 다른 그룹과는 부당하게 다른 방법으로 대화한다. 5번째는 회화에 있어서의 위험. 오랫동안 대화를 하는 중 발생하는 공격적인 말이다.

딥마인드는 자사 목표는 수동 테스트를 보완하고 언어 모델 실패 사례를 자동으로 발견하는 레드팀 구성으로 심각한 간극을 줄이는 것이라며 앞으로 자사 접근 방식은 내부 구조와 첨단 기계 학습시스템에서 가능한 위험을 선점하고 발견하는데 사용할 수 있다고 밝혔다. 이 접근법은 책임 있는 언어 모델 개발에서 한 요소일 뿐이며 모델 유해성을 발견하고 완화하기 위해 다른 많은 도구와 함께 사용되는 도구 중 하나라고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular