테크레시피

챗GPT, 보고 듣고 말하기에도 대응한다

오픈AI가 챗GPT에 이미지 내용을 판단하고 응답하는 기능과 텍스트가 아닌 음성으로 커뮤니케이션하는 기능을 추가한다고 발표했다. 이를 통해 냉장고 내용을 보고 레시피를 제안해주는 등 시각을 수반한 커뮤니케이션이 가능하게 되는 것 외에 인간과 대화하도록 음성 커뮤니케이션을 취하는 게 가능해진다.

오픈AI에 따르면 앞으로 2주 안에 유료 플랜인 챗GPT 플러스와 챗GPT 엔터프라이즈 가입자에게 이미지 내용을 인식하고 응답하는 기능과 음성으로 커뮤니케이션하는 기능을 제공할 예정이다. 이 가운데 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있으며 음성 커뮤니케이션 기능은 iOS 버전 챗GPT와 안드로이드 버전 챗GPT에서만 사용할 수 있다.

이미지 인식 기능에선 챗GPT에 이미지를 입력하는 것으로 GPT-3.5나 GPTW-4를 이용해 이미지 인식 처리가 이뤄져 이미지를 근거로 해 응답을 돌려준다. 예를 들어 앞서 밝혔듯 냉장고 내용을 보여주고 레시피를 제안하거나 그래프를 보이고 요점을 해설해준다는 조작이 가능하다. 자전거 사진을 보이면서 챗GPT에 자전거 안장을 내리는 방법을 가르쳐 달라고 질문하면 레버나 볼트를 조작하는 등 안장 내리는 방법을 알려준다.

음성 커뮤니케이션은 사용자가 말한 내용이 문자로 바꿔주는 AI인 위스퍼(Whisper)로 인식해 해당 내용에 대해 챗GPT가 음성으로 응답해준다. 챗GPT 목소리는 텍스트와 몇 초 음성 샘플만으로 합성 음성을 만들어낼 수 있는 AI 모델을 이용해 작성됐고 현재 5종류 음성 샘플이 공개된 상태다. 덧붙여 챗GPT 합성 음성 제작에 이용되는 AI 모델은 스포티파이로 테스트 중인 자동 번역 기능에도 채용되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독