테크레시피

구글 “인간만 읽을 수 있는 스팸 메일도 자동 감지”

대량 전송되는 스팸 메일은 단순히 제품이나 서비스 프로모션에 이용될 뿐 아니라 때론 악질적인 악성코드를 배포하거나 개인 정보를 뽑아내는 웹사이트 유도에도 사용된다. 구글이 많은 이들에게 고민이 되는 스팸 메일을 검출하는 필터를 업그레이드해 대폭적인 검출 능력 향상에 성공했다고 보고했다.

악의적 공격자는 특수 문자나 이모티콘, 의도적 오타 등을 섞어 인간에게는 일반 문장으로 보이지만 컴퓨터에는 읽을 수 없는 문장을 만들어 스팸 필터 검출을 회피하고 있다고 한다. 이런 적대적 텍스트 조작이라고 불리는 방법으로 만들어진 메시지(Congratulations! A balance of $1,000 is available for your jackpot account)의 경우 잭팟 계좌에 1,000달러 잔액이 있다고 적혀 있는 것처럼 보이지만 실제로는 알파벳 O 대신 숫자 0를 섞는 등 인간 눈에는 알파벳으로 보이는 수학 기호를 사용하는 것으로 컴퓨터에 의한 스팸 판정을 피하고 있다.

구글은 2023년 11월 29일 스팸 메일을 감지하는 텍스트 분류 모델을 더 견고하고 효율적으로 만들기 위해 RETVec(Resilient & Efficient Text Vectorizer)라는 새로운 다국어 텍스트 벡터라이저를 개발했다고 발표했다.

RETVec은 문자마다 디지털 기호로 인식하는 게 아니라 기계학습을 통해 인간 시각과 비슷하게 시각적 유사성으로 식별하므로 적대적 텍스트 조작에 효과적이다. 또 20만 파라미터 이하 경량 단어 임베디드 모델을 탑재하고 있기 때문에 계산 비용이 대폭 줄어 지연시간도 대폭 단축할 수 있는 것 외에 로컬 기기에서도 실행 가능하게 됐다고 한다.

구글은 지난 1년간 RETVec 유용성을 철저하게 테스트해 보안, 무단 사용 방지 애플리케이션에서 효과적이라는 걸 확인했다. G메일 정크 메일 분류 도구 텍스트 벡터라이저를 기존 모델에서 RETVec으로 대체하면 스팸 감지율이 385 높아졌으며 오탐지율이 19.4% 감소했다고 보고했다. 구글은 또 RETVec을 사용해 모델 TPU 사용량이 83% 줄고 RETVec 배포는 최근 몇 년간 가장 큰 보안 업그레이드 중 하나가 됐다며 스팸 감지 정밀도 향상을 어필했다. 구글은 RETVec 소스코드도 공개한 상태다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사