자연어 처리 AI 모델 “의역에 취약하다”

인간이 보통 사용하는 자연어를 컴퓨터가 처리하도록 하는 기술인 자연 언어 처리는 인공지능 기술이 좋아지면서 발전을 이루는 분야 중 하나로 꼽힌다. 스팸 메일이나 SNS 게시물에 존재하는 수많은 글 중 해로운 걸 필터링하는 것 등에 쓰인다. 그 밖에도 가짜뉴스를 식별하는 데에도 이용하고 있지만 이런 자연 언어 처리에 이용하는 AI 모델이 의역 공격으로 불리는 의역에 취약하다는 지적이 나오고 있다.

IBM과 아마존, 텍사스대학 공동 연구팀이 실시한 조사에 따르면 적절한 도구를 이용하면 악의적 공격자가 자연 언어 처리에 이용하는 텍스트 분류 알고리즘을 공격하고 악의적 방법으로 알고리즘 행동을 조작하는 게 가능하다고 한다. 여기에서 말하는 텍스트 분류 알고리즘을 공격하는 방법이란 의역 공격으로 불리는 것. 연구팀은 이 내용을 실제 문장 의미를 바꾸지 않고 AI 알고리즘에 의한 문장 분류만 변화하도록 문장 단어를 바꾸는 것이라고 설명한다.

의역 공격 구조를 이해하기 위해 연구팀은 이메일이나 문자 메시지를 평가하고 이를 스탬 여부로 분류하는 AI 알고리즘을 이용해 설명한다. 의역 공격은 스팸 메일 내용을 문장 의미가 변하지 않게 수정해 원래 AI가 스팸으로 판단할 이메일에 스팸은 없다고 판단하게 유도한다. 문장 의미는 변하지 않도록 변경하기 때문에 이메일을 받는 측에 이상 여부를 알리지 않는다.

과거에도 신경망을 납치하는 방법 등 AI 모델을 해킹하는 수법에 대한 연구는 진행되어 왔다. 하지만 원래 텍스트 모델을 공격하는 건 컴퓨터비전이나 음성 인식 알고리즘을 변조하는 것보다 훨씬 어려운 일이다.

자연 언어 처리 전문가는 음성이나 화상은 완전한 차별화가 가능하다고 말한다. 예를 들어 이미지 분류 알고리즘이라면 이미지 픽셀 색상을 조금씩 수정만 해도 AI 모델이 뭘 출력할지 여부를 관찰할 수 있다. 이 방법을 이용하면 AI 모델의 취약점을 너무 쉽게 찾을 수 있다.

하지만 텍스트 모델은 사진처럼 문장 중에 10% 이상 갖고 있는 같은 조항을 설정하는 게 어렵고 특정 단어를 포함하거나 포함하지 않거나 혹은 같은 분류를 할 수 없다. 따라서 텍스트 모델의 취약점을 효율적으로 찾는 건 쉽지 않다는 얘기다.

텍스트 모델에 대한 공격 관련 연구는 과거에도 있었다. 문중 한 단어를 바꾸는 수법이 걸린 적도 있다. 이 방법은 AI 알고리즘 출력을 바꾸는 데 성공했지만 출력은 종종 인공적으로 만들어졌다고 느낄 만한 문장이 되어버렸다고 한다. 조사에 참여한 연구팀은 문장 내 단어를 바꿀 뿐 아니라 말의 의역이나 의미를 유지하면서도 긴 문장을 유지하는 수법을 이용해 텍스트 모델 출력을 의도적으로 바꿀 수 없을지 여부를 조사했다고 한다.

연구팀은 자연 언어 처리 모델 출력을 의도적으로 조작할 수 있는 문장 최적 변경 방법을 찾기 위한 알고리즘을 개발하는 데 성공했다. 이 알고리즘의 제약은 수정한 문장이 의미적으로 원래 문장과 유사 여부를 확인하는 것이었다고 한다. AI 모델 출력에 가장 큰 영향을 미치는 낱말이나 문장 의역을 찾기 위해 많은 조합으로 최적의 제품을 검색하는 알고리즘을 개발했다고 한다.

연구팀이 개발한 알고리즘을 이용해 가짜 뉴스 필터나 이메일 스팸 필터 출력을 바꾸는 데에도 성공했다고 한다. 같은 문장을 조금 바꿔 의미적으로 같은 것이라고 느끼지만 AI 모델 리뷰 평가를 100% 긍정적에서 100% 부정적으로 바꾸는 데 성공한 것이다.

의역 공격의 포인트는 원래 문장 의미를 유지하면서 일부 말만 바꾸기 때문에 인간이 인식하는 건 아니라는 것이다. 원래 문장과 수정한 문장을 인간 테스터가 평가하는 테스트를 해본 결과 알고리즘이 바꾼 문장 의미차를 사람이 확인하는 건 매우 어려운 것으로 밝혀졌다고 한다.

의역 공격에 대해 현재 문장에 오탈자가 있어도 이를 보안 문제로 생각하는 사람은 없다. 하지만 가까운 미래에는 이런 위치에 AI 모델을 공격하기 위한 장치를 더해 이에 맞서야 할 시대가 올지도 모른다고 말한다. 기술 기업마다 콘텐츠를 분류하기 위해 자연 언어 처리를 이용하고 있어 이번 연구 같은 공격에는 취약해질 수 있기 때문이다. 이 같은 의역 공격은 새로운 보안 위험으로 이어질 가능성도 있다.

또 구체적으로 특정 인물이 자신의 콘텐츠를 승인하기 위해 텍스트 모델에 대한 공격을 기업이 채용에 이용하는 이력서 처리 모델로 바꾼 공격으로 서류 심사를 통과시키는 것 같은 일이 일어날 가능성도 있다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.