테크레시피

세일즈포스가 발표한 오픈소스 데이터세트

세일즈포스(Salesforce) AI 연구 부문인 세일즈포스 AI 리서치(Salesforce AI Research)가 1조 개에 이르는 텍스트 토큰을 포함한 오픈소스 멀티모달 데이터세트 MINT-1T를 공개했다.

AI 개발에는 방대한 텍스트와 이미지를 포함하는 데이터세트가 필요하며 고품질 데이터세트가 오픈소스로 공개되는 건 AI 분야 발전에 큰 이점이 된다. MINT-1T는 오픈소스 멀티모달 데이터세트로 텍스트 토큰 1조 개와 이미지 34억 장이 포함되어 있으며 PDF와 프리프린트 서버인 아카이브 논문 등 기존 데이터세트에서는 활용되지 않았던 데이터도 포함되어 있다고 한다.

OBELICS나 MMC4 같은 기존 오픈소스 데이터세트 토큰 수는 최대 1,150억 개였던 점을 감안하면 MINT-1T는 토큰 수가 크게 증가한 것이다.

MINT-1T에 포함된 문서 샘플에는 이미지와 함께 텍스트가 병기되어 있으며 다양한 그래프와 히트맵 등도 포함되어 있다. 세일즈포스 AI 리서치 측은 MINT-1T 큐레이션 주요 원칙은 규모와 다양성이라며 다양성을 향상시키기 위해 HTML 문서를 넘어 웹 PDF와 아카이브 논문도 포함하도록 했다며 이런 추가 소스로 인해 과학 문서 영역 커버리지가 향상됐다는 걸 확인했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독