고정밀 문자 인식 AI 모델 ‘미스트랄 OCR’ 발표

AI 개발 기업인 미스트랄AI(Mistral AI)가 이미지에 포함된 텍스트를 인식하여 텍스트 데이터로 변환할 수 있는 AI 모델인 미스트랄 OCR(Mistral OCR)을 발표했다. 미스트랄OCR은 LaTeX로 작성된 복잡한 수식도 인식할 수 있을 뿐 아니라 문서에 포함된 그림이나 표 위치 관계를 유지하며 마크다운 형식으로 출력할 수 있다.

미스트랄AI는 미스트랄OCR 능력을 보여주는 예시를 여러 개 공개했다. 먼저 처리 전 원본 데이터에는 텍스트뿐만 아니라 그림이나 표도 포함되어 있다. 미스트랄OCR로 처리한 결과는 그림과 텍스트 위치 관계를 유지하며 변환할 수 있다. 또 표 내용도 행과 열 관계를 유지하며 변환할 수 있다. OCR 결과는 마크다운 형식으로 출력되며 출력 결과를 JSON 등 구조화된 데이터 형식으로 정리하는 것도 가능하다. 채팅 AI 같은 AI 서비스에 미스트랄OCR을 통합해 문서 스캔 데이터나 촬영 데이터를 AI가 처리하기 쉬운 형식으로 변환할 수 있다. 복잡한 수식을 포함한 문서도 OCR 처리할 수 있다.

미스트랄OCR 성능을 구글 도큐먼트AI(Google Document AI), 애저(Azure) OCR, 제미나이 1.5 플래시, 제미나이 1.5 프로, 제미나이 2.0 플래시, GPT-4o와 비교해보면 미스트랄OCR은 수식이나 스캔 데이터를 포함한 모든 카테고리에서 가장 정밀도가 높은 OCR이 가능하다.

또 미스트랄OCR은 다국어 지원을 염두에 두고 개발됐으며 러시아어나 프랑스어 등 영어 이외 언어도 고정밀로 인식할 수 있다.

미스트랄OCR은 빠른 처리 속도도 특징이며 단일 노드에서 1분당 최대 2,000페이지 OCR 처리가 가능하다.

미스트랄OCR은 르챗(Le Chat)에서 무료로 사용할 수 있다. 또 API는 미스트랄AI 개발자 플랫폼(la Plateforme)을 통해 이용 가능하다. 더불어 가까운 시일 내에 각종 클라우드 플랫폼에서의 제공이 시작될 예정이며 엄격한 데이터 프라이버시 요구사항을 가진 조직을 위한 온프레미스 제공도 예정되어 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기