세일즈포스(Salesforce) AI 연구 부문인 세일즈포스 AI 리서치(Salesforce AI Research)가 1조 개에 이르는 텍스트 토큰을 포함한 오픈소스 멀티모달 데이터세트 MINT-1T를 공개했다.
AI 개발에는 방대한 텍스트와 이미지를 포함하는 데이터세트가 필요하며 고품질 데이터세트가 오픈소스로 공개되는 건 AI 분야 발전에 큰 이점이 된다. MINT-1T는 오픈소스 멀티모달 데이터세트로 텍스트 토큰 1조 개와 이미지 34억 장이 포함되어 있으며 PDF와 프리프린트 서버인 아카이브 논문 등 기존 데이터세트에서는 활용되지 않았던 데이터도 포함되어 있다고 한다.
Breaking news! ➡️➡️➡️ We just released the MINT-1T 🍃dataset! One trillion tokens. Multimodal. Interleaved. Open-source. Perfect for training multimodal models and advancing their pre-training. Try it today!
— Salesforce AI Research (@SFResearch) July 24, 2024
Blog: https://t.co/e36YvEBrcP
Dataset: https://t.co/FHKhkAURdN pic.twitter.com/guqup91SBW
OBELICS나 MMC4 같은 기존 오픈소스 데이터세트 토큰 수는 최대 1,150억 개였던 점을 감안하면 MINT-1T는 토큰 수가 크게 증가한 것이다.
MINT-1T에 포함된 문서 샘플에는 이미지와 함께 텍스트가 병기되어 있으며 다양한 그래프와 히트맵 등도 포함되어 있다. 세일즈포스 AI 리서치 측은 MINT-1T 큐레이션 주요 원칙은 규모와 다양성이라며 다양성을 향상시키기 위해 HTML 문서를 넘어 웹 PDF와 아카이브 논문도 포함하도록 했다며 이런 추가 소스로 인해 과학 문서 영역 커버리지가 향상됐다는 걸 확인했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.