이미지와 문장 자동 생성, 얼굴 인식, 게임 플레이 등 인간 행동을 모방하는 AI를 개발하기 위해선 방대한 데이터세트로 학습할 필요가 있다. 데이터세트 내용에는 인터넷에 존재하는 이미지나 문장이 사용되는 경우가 많지만 이 인터넷상에 있는 문장에 포함된 오자가 AI 발달에 큰 영향을 미칠 수 있다는 내용을 IBM 리서치와 아마존, 텍사스대학 연구팀이 발표했다.
딥러닝 진보로 AI는 지금까지 인간 오퍼레이터가 아니면 할 수 없었던 문장 입력 등 작업을 실행하게 됐다. 텍스트 콘텐츠 처리나 중요한 의사 결정을 AI 알고리즘에 맡기는 기업도 다수 등장하고 있다.
딥러닝을 구성하는 신경망은 수천 수백만 예에서 학습해 정확도를 높인다. 이는 프로그래머가 코드로 동작을 정의한 고전적인 인공지능 개발과는 별개다. 방대한 데이터세트에서 학습하는 접근법은 이미지 분석, 음성 인식, 자연어 처리 같은 규칙이 모호하고 복잡한 작업을 AI로 해결하는 것이다.
하지만 인간 측은 신경망 동작을 거의 제어할 수 없기 때문에 이 내부 구조는 개발자도 이해할 수 없는 경우가 많다. 또 딥러닝 알고리즘은 상당히 복잡하면서도 통계적 메커니즘이어서 언뜻 보면 인간과 같은 처리를 하고 있는 것 같고 실제로는 인간과는 완전히 다른 프로세스가 되고 있다.
만일 AI가 학습에 사용하는 데이터세트 내용에 문제가 있으면 결과적으로 AI 알고리즘에도 큰 영향이 나온다. 예를 들어 영국 경찰이 압수한 기기에 범죄 증거가 되는 사진이 포함되어 있는지 여부를 자동 판별하기 위해 아동 학대 사진을 AI에게 학습시킨 결과 사막 이미지를 누드 이미지로 판단하는 문제가 생겼다는 예도 보고된 바 있다.
AI 동작에 큰 영향을 미치는 데이터세트 작은 변경을 적대적 사례라고 한다. 연구팀은 이 적대적 사례가 AI에 대한 사이버 공격으로 바뀔 가능성을 지적하고 있다. 적대적 사례를 이용한 사이버 공격 중 하나가 패러프레이즈 공격(paraphrasing attack)이다. 이는 인간이 읽어도 깨닫지 않는 변화를 학습시키는 문장에 더해 자연어 처리 모델 동작을 미치게 한다는 것이다. 연구팀이 실제로 AI에 학습시키는 데이터세트 논문 단 1문을 재작성해 대상이 되는 AI 거동에 변화가 인정됐다고 한다.
이 패러프레이즈 공격 문제는 인간에게 알기 어려운 점이다. 인간은 문장에 있는 작은 오자나 탈자를 마음대로 머릿속에서 보충해 읽을 수 있기 때문에 AI보다 둔감하다. 연구팀이 수정 전 문장과 수정 후 문장을 인간에게 보여준 결과 어떤 부분에 차이가 있는지는 거의 판별되지 않았다는 것. 연구팀은 인간은 매일 오자나 탈자에 대처하고 있기 때문에 패러프레이즈 공격을 검출하려고 하는 건 어려운 일이라고 지적한다. 연구자는 AI 모델을 적대적 사례로부터 보호하는 방법 중 하나로 올바른 데이터세트와 라벨로 재교육하는 것이라고 말한다. 또 적대적 사례에서 학습한 뒤 올바른 데이터세트로 재교육하는 것으로 모델이 패러프레이즈 공격에 대해 견고하게 될 뿐 아니라 더 정확하고 다재다능한 게 된다는 걸 알았다고 한다.
연구팀은 2000년대 초 스팸 메일이 유행했듯 현대에도 같은 일이 일어나 우려 사항이 될 것이라면서 적대적 사례를 사용한 공격을 이용해 AI에 민주 원칙을 위반하는 일을 해 정치적 이유로 커뮤니티 전체를 공격할 수도 있다면서 기존 보안만큼이나 이 문제에도 비용이 들 수 있다는 점이 우려된다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.