오픈AI가 오픈AI o1 API를 공개했다. 함께 AI와의 음성 대화 기능을 제공하는 리얼타임(Realtime) API 업데이트와 모델 미세 조정 기능 업데이트, Go 라이브러리 및 자바(Java) 라이브러리 출시도 발표했다.
오픈AI o1 API는 텍스트와 이미지 입력에 대응하며 컨텍스트 창은 20만 토큰, 최대 출력 토큰 수는 10만 토큰이다. 참고로 오픈AI o1 학습 데이터에는 2023년 10월까지의 정보가 포함되어 있다.
오픈AI o1 API는 reasoning_effort라는 매개변수를 지원하며 추론에 소요되는 시간을 조정할 수 있다. 또 특정 요청에 대해 오픈AI o1-preview보다 평균 60% 적은 추론 토큰으로 응답 가능하며 함수 호출, JSON 형식으로 출력, 이미지 추론, 개발자 메시지와 같은 기능도 지원한다. 오픈AI o1 API는 이미 티어 5 개발자를 위해 공개됐으며 향후 몇 주에 걸쳐 제공 범위를 확대할 예정이다.
다음으로 리얼타임 API는 AI를 사용해 음성 대화 기능을 제공하는 API다. 새로 리얼타임 API가 WebRTC를 지원해 웹 앱, 모바일 기기, IoT 기기 등 플랫폼 간 실시간 음성 대화 앱을 쉽게 구축할 수 있게 됐다.
또 음성 품질을 향상시키면서 비용을 절감한 gpt-4o-realtime-preview-2024-12-17과 gpt-4o-mini-realtime-preview-2024-12-17도 출시됐다. gpt-4o-realtime-preview-2024-12-17 가격은 음성 입력 100만 토큰당 40달러, 음성 출력 100만 토큰당 80달러, 캐시된 음성 입력 100만 토큰당 2.5달러다. 또 gpt-4o-mini-realtime-preview-2024-12-17 가격은 음성 입력 100만 토큰당 10달러, 음성 출력 100만 토큰당 20달러, 캐시된 음성 입력 100만 토큰당 0.3달러다.
다음으로 퍼포먼스 파인-튜닝(Preference Fine-Tuning)은 DPO(Direct Preference Optimization)라는 접근 방식을 채택한 모델 미세 조정 방법. 퍼포먼스 파인-튜닝을 사용하면 모델 응답을 2개 출력하고 선호하는 응답과 선호하지 않는 응답을 구분하도록 학습시키는 작업이 가능하다. 이를 통해 사용자와 개발자 선호도에 기반한 미세 조정을 실행할 수 있다고 한다.
오픈AI는 타입스크립트, 자바스크립트, 파이썬, 닷넷용 공식 라이브러리를 공개하고 있다. 새로 Go와 자바 라이브러리도 출시됐다. 공식 Go 라이브러리는 이곳, 공식 자바 라이브러리는 이곳에서 공개되고 있다. 관련 내용은 여기에서 확인할 수 있다.