오픈AI가 텍스트와 이미지를 숫자로 변환하는 임베디드 모델(text-embedding-ada-002)을 발표했다. 이 모델은 기존 모델보다 상당히 기능이 향상되어 비용 성능이 높아지고 사용이 간편하다고 한다.
알고리즘 텍스트와 이미지를 인식하려면 텍스트와 이미지를 숫자 데이터로 변환해야 한다. 엠베딩은 텍스트와 이미지를 일부 벡터로 변환하는 과정으로 요즘 자연 언어 처리 모델과 이미지 생성 AI에 필수적인 기술이다.
오픈AI에 따르면 텍스트 검색, 코드 검색, 문의 유사성에 있어 이 모델은 기존 모델보다 성능이 뛰어나고 텍스트 분류에서 기존과 동등한 퍼포먼스를 발휘했다고 한다. 기존 모델은 목적에 따라 모델이 따로 되어 있지만 이 모델은 텍스트 검색, 코드 검색, 문장 유사성, 텍스트 분류가 통합되어 한 모델로 할 수 있게 됐다.
또 지금까지 입력 가능한 토큰 길이가 2048까지였던 게 8192까지 늘었다. 이렇게 하면 더 긴 문장을 처리할 수 있다. 더구나 텍스트를 떨어뜨리는 벡터 차원이 1536 차원과 이전 세대 모델 8분의 1로 억제될 수 있게 됐다고 한다. 덧붙여 사용료는 이전 세대 다빈치보다 90% 인하됐으며 비용 대비 성능을 고려하면 기존보다 99.8% 유익하다는 주장이다. 오픈AI는 새로운 임베디드 모델은 자연어 처리와 코드 작업을 위한 더 강력한 도구라고 강조하고 있다. 관련 내용은 이곳에서 확인할 수 있다.