테크레시피

1억 건 이상 웹페이지 기반 오픈소스 AI 지식 도구

메타가 인터넷에 존재하는 방대한 정보를 활용해 AI와 기타 시스템이 작동하기 위한 지식 기반을 제공하기 위한 AI 툴인 스피어(Sphere)를 발표했다.

스피어는 인용문 수십만 건을 한 번에 자동으로 검증할 수 있다. 메타 측은 스피어를 1억 3,400만 건에 달하는 웹페이지를 지식원으로 구성한 검색엔진으로 표현하고 있다. 이런 종류 AI 지식 도구로는 기존보다 큰 규모이며 복잡하다고 밝히고 있다.

스마트폰에 탑재되어 있는 시리 같은 음성 비서는 지식 집약형 자연어 처리 KI-NLP라고 불리는 질의응답 혹은 사실 확인 태스크를 실시해 데이터베이스 상에서 관련 정보를 검색, 취득해 사용자가 요구하는 대답을 반환한다. 하지만 기존 KI-NLP는 몇 가지 문제가 있다. 이 가운데 하나는 관련 웹 지식을 검색하기 위해 상업용 알고리즘에서 작동하는지 알 수 없는 검색엔진에 의존한다는 점이다.

메타는 현실 세계 지식을 더 효과적으로 활용할 수 있도록 더 개방된 웹상 데이터를 이용해 여러 KI-NLP 작업을 한꺼번에 해결할 수 있는 보편적으로 큐레이트된 게 아닌 구조화되지 않은 지식 기반을 구축하는 게 중요하다고 보고 AI 지식 도구인 스피어를 개발했다고 밝히고 있다. 기존 KI-NLP와 달리 데이터베이스가 검색엔진에 의존하지 않기 때문에 스피어를 이용하는 AI 연구자는 코퍼스를 조사하고 제어할 수 있어 다양한 방법으로 스케일링과 최적화가 가능해지며 메타는 검색 기술 발전에도 기여할 수 있다고 설명한다.

스피어는 인터넷상에서 공개된 1억 3,400만 건 문서가 데이터베이스로 되어 있으며 각 문서는 9억 600만 개 정도 절과 100개 정도 토큰으로 분할되기 때문에 기존 KI-NLP에서 이용되는 지식원보다 훨씬 많은 데이터를 제공할 수 있다고 한다.

스피어는 오픈소스 AI 지식 도구로 깃허브에 공개된다. 스피어는 웹을 크롤링하고 아카이브와 데이터세트를 자유롭게 일반 제공하는 커먼 크롤(Common Crawl)과 CCNet를 변경시킨 것으로 중복 자료를 버리고 쓰기 품질에 따라 페이지를 채점한다. 하지만 스피어는 어떤 시스템에 의존하지 않기 때문에 첨단 신경 언어 프로그래밍 연구에 자유롭게 활용할 수 있다. 스피어의 경우 코퍼스 전체 액세스를 해방해 연구자는 스피어상에서 모든 텍스트를 조사하는 게 가능하다. 이를 활용해 특정 약점을 없애는 아키텍처를 구축하거나 보편적인 KI-NLP 모델을 구축할 수 있다.

코퍼스가 오픈되어 있다는 건 새로운 아키텍처 실험도 가능하게 한다. 기존 검색 엔진은 인간이 사용하는 걸 전제로 설계되어 있기 때문에 시스템은 자연어로 상호 작용해야 해 번역 오류 등이 일어날 가능성이 높아진다. 메타는 전통적 검색 엔진이 AI 연구자에게 KI-NLP 모델 구축에 계속 접근할 수 잇다는 보장은 없어 실험 촉진을 위해 스피어를 출시한다며 스피어는 연구자가 더 광범위한 문서를 처리하도록 교육하는데 도움이 되며 웹에서 가장 까다로운 과제인 잘못된 정보, 일관성 없는 텍스트, 디지털 리터러시와 비판적 사고 기술 강화가 가능하다고 밝히고 있다.

참고로 위키피디아는 곧바로 스피어를 이용해 자동으로 플랫폼 내 기사를 스캔해 인용원 웹페이지 검증을 실시하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독