테크레시피

다크웹 데이터로 학습한 AI?

챗GPT와 마이크로소프트 빙, 구글 바드 등 채팅 AI는 인터넷 데이터로 학습된다. 이런 AI 모델은 학습 데이터 장르를 좁히는 거승로 금융 전문, 군사 전문 등 특정 분야에 특화시키는 것도 가능하지만 국내 연구팀이 새롭게 크래커나 사이버 범죄자가 모이는 다크웹 데이터만으로 학습시킨 다크웹 특화 모델인 다크버트(DarkBERT)를 개발했다고 밝혔다.

한국과학기술원 연구팀은 다크웹에 접속에 자주 사용되는 토르 네트워크를 통해 다크웹을 16일간 크롤링해 다크웹 데이터베이스를 만들었다. 연구팀이 구축한 데이터를 메타 자연 언어 처리 아키텍처인 RoBERTa로 처리해 다크웹 전문 AI인 다크버트를 개발했다고 한다.

다크웹 데이터로 학습시켜 다크버트는 다크웹에서 사용되는 독특한 용어와 고도로 난독화된 메시지를 분석하고 이로부터 유용한 정보를 추출할 수 있다고 한다. 연구팀은 다크버트를 일반에 공개할 예정은 없다고 하지만 연구 목적으로의 사용 요구를 받아들이고 있다고 한다.

다크버트는 제한된 데이터로 학습됐음에도 불구하고 다른 대규모 언어 모델에 필적하는 실력을 자랑한다고 한다. 다크버트는 새로운 AI 모델이지만 기반이 된 건 2019년 페이스북 연구팀이 개발한 RoBERTa다. RoBERTa는 2018년 구글이 공개한 자연 언어 처리 모델 BERT를 바탕으로 만든 것으로 자연 언어 처리 모델 학습 단계에서의 성능을 개선한 것으로 설명됐다.

보도에선 다크버트는 특정 분야에서 학습되고 더 전문화된 AI 모델 미래를 상징할 수 있다며 AI 인기를 감안하면 앞으로 이런 방법으로 개발된 비슷한 AI 모델이 등장해도 이상한 일은 없을 것이라고 지적하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독