챗GPT와 마이크로소프트 빙, 구글 바드 등 채팅 AI는 인터넷 데이터로 학습된다. 이런 AI 모델은 학습 데이터 장르를 좁히는 거승로 금융 전문, 군사 전문 등 특정 분야에 특화시키는 것도 가능하지만 국내 연구팀이 새롭게 크래커나 사이버 범죄자가 모이는 다크웹 데이터만으로 학습시킨 다크웹 특화 모델인 다크버트(DarkBERT)를 개발했다고 밝혔다.
한국과학기술원 연구팀은 다크웹에 접속에 자주 사용되는 토르 네트워크를 통해 다크웹을 16일간 크롤링해 다크웹 데이터베이스를 만들었다. 연구팀이 구축한 데이터를 메타 자연 언어 처리 아키텍처인 RoBERTa로 처리해 다크웹 전문 AI인 다크버트를 개발했다고 한다.
다크웹 데이터로 학습시켜 다크버트는 다크웹에서 사용되는 독특한 용어와 고도로 난독화된 메시지를 분석하고 이로부터 유용한 정보를 추출할 수 있다고 한다. 연구팀은 다크버트를 일반에 공개할 예정은 없다고 하지만 연구 목적으로의 사용 요구를 받아들이고 있다고 한다.
다크버트는 제한된 데이터로 학습됐음에도 불구하고 다른 대규모 언어 모델에 필적하는 실력을 자랑한다고 한다. 다크버트는 새로운 AI 모델이지만 기반이 된 건 2019년 페이스북 연구팀이 개발한 RoBERTa다. RoBERTa는 2018년 구글이 공개한 자연 언어 처리 모델 BERT를 바탕으로 만든 것으로 자연 언어 처리 모델 학습 단계에서의 성능을 개선한 것으로 설명됐다.
보도에선 다크버트는 특정 분야에서 학습되고 더 전문화된 AI 모델 미래를 상징할 수 있다며 AI 인기를 감안하면 앞으로 이런 방법으로 개발된 비슷한 AI 모델이 등장해도 이상한 일은 없을 것이라고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.