오픈AI가 5월 14일 AI 모델인 GPT-4o를 발표했다. GPT-4o는 단일 모델로 텍스트, 음성, 시각 입력을 높은 속도로 처리할 수 있으며 실시간으로 대화하면서 계산 문제 풀기, 이미지 생성, 주변 영상에서 상황 판단 등 작업을 수행할 수 있다.
GPT-4o는 텍스트, 음성, 시각 입력을 고속 처리할 수 있는 멀티모달 AI 모델. GPT-4o 응답 시간은 평균 320밀리초이며 음성 입력에는 고작 232밀리초로 인간과 동등 속도로 응답할 수 있다. o는 모든, 전체 같은 의미를 가진 옴니(omni) 약자다.
GPT-4나 GPT-3.5를 탑재한 챗GPT 음성 대화 모드는 음성을 텍스트로 변환하는 모델, 입력 텍스트로부터 답변 텍스트 생성 모델, 답변 텍스트를 음성 변환하는 모델 등 복수 모델로 구현됐다. 반면 GPT-4o는 단일 모델로 음성, 이미지, 영상 같은 입력을 받아 답변하는 처리를 수행할 수 있다.
GPT-4o 발표에 맞춰 다수 실시간 응답 데모가 진행됐다. 예를 들어 한 데모에선 스마트폰으로 주변을 촬영하며 여기서 자신이 뭘 할 것 같은지 추측해보라고 질문했고 GPT-4o는 조명과 삼각대 설정을 보니 어떤 촬영이나 라이브 스트리밍 준비 중인 것 같다며 이 발표가 오픈AI와 관련이 있는지도 모르겠다고 답했다. 이어 이건 너에 대한 발표라고 하자 내가요?라며 놀란 듯한 대답을 했다.
일반 챗봇이 부족한 수학 분야 데모도 있었는데 문제를 보여주며 아들에게 정답은 알려주지 말고 풀이 방식을 가르쳐달라는 지시에 GPT-4o는 문제가 삼각함수에 관한 것임을 인식하고 빗변이 어떤 변인지 아니라며 한 단계씩 풀이를 설명해줬다.
또 다른 데모에선 카메라 입력 활성화 GPT-4o와 카메라 입력 비활성화 GPT-4o를 대화시키며 주변 상황을 파악하게 했고 4분 27초쯤에는 방금 일어난 일에 대해 노래를 불러보라는 지시에 GPT-4o는 노래를 부른다.
GPT-4o는 이미 챗GPT 플러스 가입자를 위해 공개됐으며 텍스트 대화, 음성 대화 같은 기능을 사용할 수 있다. 무료 사용자에게도 텍스트와 시각 처리 기능이 5월 14일부터 순차 전개되고 있으며 몇 주 이내 GPT-4o를 사용한 음성 모드도 제공 예정이다. 관련 내용은 이곳에서 확인할 수 있다.