
브라질 미나스제라이스 연방대학 연구진 15명이 연구 프로젝트 일환으로 디스코드(Discord) 스크래핑을 실시해 20억 건 이상 메시지를 데이터베이스화해 온라인에 공개했다. 연구진은 데이터를 익명화했다고 전했다.
연구진은 공개된 3167개 서버 데이터를 수집해 2015년부터 2024년까지 473만 5,057명이 주고받은 20억 5,220만 6,308건에 이르는 메시지를 수집해 JSON 파일로 공개했다.
디스코드 서버는 사용자가 자유롭게 생성할 수 있으며 공개 또는 비공개로 설정이 가능하다. 사용자는 디스코드 내 발견 기능을 사용해 공개 서버를 찾을 수 있다. 연구진은 이 발견 기능을 사용해 모든 공개 디스코드 서버를 맵핑하려고 시도했으며 2024년 11월 17일 기준으로 3만 1,673개 서버를 발견했다고 밝혔다. 그 중 서버 10%를 무작위로 선택해 스크래핑했다고 전했다.
연구진에 따르면 데이터베이스화 목적은 다른 연구팀이 정신건강이나 정치에 대해 연구하거나 봇을 훈련할 때 사용할 수 있도록 하기 위해서라고 밝혔다. 연구진은 데이터세트를 통해 디지털 플랫폼이 정치적 담론에 미치는 영향이나 잘못된 정보가 퍼지는 양상, 그런 환경에 맞는 효과적인 조정이나 규제 전략을 연구할 수 있다고 기술했다.
연구진은 채팅 기록을 공개하면서 사용자명을 바꾸고 사용자 ID나 메시지를 해시화해 절단하는 등 안전에 배려했다고 설명했다.
하지만 확실히 누구나 볼 수 있는 서버에서 취득한 정보이긴 하지만 디스코드는 기본적으로 좁은 커뮤니티 내 소통 수단으로 사용되기 때문에 공개 서버 정보가 문자 그대로 공개되는 걸 예상하지 못한 이들이 있다고 일부에서 지적하고 있다.
보도에선 연구진이 데이터를 익명화했다고 주장하고 있지만 자신의 디스코드 메시지가 온라인상 공개 파일에 저장되는 걸 좋게 생각할 사람은 없을 것이라며 이용약관을 읽는 이는 거의 없으며 디스코드 사용자 상당수가 어린이라는 점을 유의해야 한다고 지적하고 디스크드는 무엇보다 먼저 게이머가 커뮤니티를 조직하기 위한 플랫폼이며 아이는 자신이 무심코 한 농담이 공개 데이터베이스에 등록될 것이라고는 생각하지 못할 것이라고 언급했다.
한편 디스코드 개발자 정책에는 디스코드에 의해 특별한 허가가 주어진 경우를 제외하고 API로 취득된 메시지 내용을 기계학습이나 AI 훈련에 사용해서는 안 된다, 디스코드 서비스에서 또는 이를 통해 이용 가능한 어떤 데이터, 콘텐츠, 정보도 마이닝이나 스크래핑해서는 안 된다고 명시되어 있으며 이용약관에서도 스크래핑을 금지하는 문구가 있다. 이 때문에 이번 연구는 프라이버시 우려 이전에 애초에 이용약관에 위반되는 것으로 보인다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.