클라우드 보안 기업인 위즈는 마이크로소프트 AI 연구부서가 2020년 7월 오픈소스 AI 학습 모델을 깃허브 저장소에 공개했을 때 38TB에 이르는 기밀 데이터를 유출했다고 밝혔다. 민감한 데이터에는 비밀번호, 개인키, 3만 개가 넘는 마이크로소프트 팀즈 내부 메시지가 포함됐다.
위즈 측은 클라우드에서 호스팅되는 데이터로 유출이 없는지 조사하던 중 마이크로소프트 AI 연구 부서가 공개하는 오픈소스 이미지 인식 AI 모델 소스 코드를 공개한 저장소를 발견했다.
파일 공유는 마이크로소프트 애저 SAS(Shared Access Signature) 토큰이라는 기능을 사용해 수행됐다. 하지만 이 토큰은 읽기 전용이 아닌 전체 제어 권한을 허용하도록 구성됐다. 다시 말해 악의적 공격자가 액세스하면 애저 스토리지 계정 모든 파일을 탐색할 수 있을 뿐 아니라 기존 파일을 삭제하거나 덮어쓸 수 있다.
그리고 발견된 저장소에 스토리지 계정에 대한 링크가 포함되어 있다는 걸 확인했다 이 애저 스토리지는 AI 모델 소스 코드 외에도 마이크로소프트 직원이 소유한 PC 백업을 포함한 30TB 기밀 정보에 액세스할 수 있다는 걸 확인했다.
스토리지에 있던 백업에는 마이크로소프트 서비스에 대한 암호와 개인키가 포함됐다. 더구나 마이크로소프트 직원 359명으로부터 3만 건이 넘는 마이크로소프트 팀즈 메시지 등도 포함되어 있다는 것도 판명됐다.
위즈는 6월 22일 조사 결과를 마이크로소프트(Microsoft Security Response Center)에 보고하고 6월 24일에는 SAS 토큰이 취소되어 애저 스토리지 계정에 대한 외부 액세스가 모두 차단됐다고 한다. 마이크로소프트는 이번 사건으로 인해 고객 데이터가 유출된 기록은 없으며 다른 내부 서비스가 위험에 처하지 않았다고 보고했다.
AI 모델은 텐서플로 라이브러리에 의해 생성된 ckpt 형식으로 파이썬 모듈(Pickle)로 포맷되어 있기 때문에 설계상 임의 코드를 실행할 수 있다. 다시 말해 공격자가 이 스토리지 계정 모든 AI 모델에 아성코드를 삽입할 수 있으며 마이크로소프트 깃허브 저장소를 신뢰하는 모든 사용자가 해당 코드 영향을 받을 수 있다는 지적이다.
위즈는 SAS 토큰은 모니터링과 거버넌스가 부족하기 때문에 보안 위험이 있으며 사용은 가능하면 제한되어야 한다며 이런 토큰을 추적하는 건 어렵다고 밝혔다. 또 이런 토큰은 만료 한도가 없으며 실질적으로 지속되도록 구성되어 있으므로 SAS 토큰을 외부 공유하는 건 안전하지 않으며 피해야 한다고 덧붙였다.
위즈 측은 AI는 기술 기업에 큰 가능성을 가져다주지만 새로운 AI 솔루션을 프로덕션 환경에 도입하기 위해 경쟁하는 동안 대량 데이터에는 추가 보안 검사와 보호 수단이 필요하다면서 오픈소스 프로젝트를 공개하며 공동 작업을 할 필요가 있기 때문에 이번 같은 사례를 모니터링하고 인시턴트를 회피하는 게 어려운 일이 되고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.