
오픈AI가 온라인 정보를 AI 모델에 수집하는 딥리서치(Deep research) 기능을 챗GPT에 도입한다고 발표했다. 딥리서치는 오픈AI 추론 모델인 o3를 기반으로 한 AI 에이전트로 인터넷상 정보를 검색하고 추론을 거쳐 조사 결과를 정리할 수 있다.
오픈AI는 챗GPT가 인터넷 접근 기능이 부족한 게 큰 과제였으며 이런 제한으로 인해 일상생활에서 사용하는 많은 정보에 모델이 접근할 수 없는 상황이 지속됐다고 밝혔다.
이 과제를 해결하기 위한 기능이 딥리서치다. 딥리서치는 인터넷상에서 여러 단계를 거친 검색을 실행할 수 있으며 콘텐츠 발견, 콘텐츠 통합, 정보에 대한 추론이라는 3가지 주요 기능을 갖추고 있다. 또 새로운 정보를 발견할 때마다 검색 계획을 동적으로 적응·업데이트하는 능력도 갖추고 있다.
딥리서치는 o3 추론 모델을 기반으로 엔드투엔드 강화학습을 통해 개발됐다. 이를 통해 모델은 여러 단계를 거치는 검색 프로세스를 계획·실행하고 실시간 정보에 따라 궤도를 수정할 수 있다. 또 사용자가 업로드한 파일 열람, 파이썬 도구를 사용한 계산과 이미지·플롯 생성, 웹사이트 이미지 임베딩도 가능하다.
모델 성능에 관해 딥리서치는 센터포AI세이프티(Center for AI Safety)와 스케일AI(Scale AI)가 공개한 벤치마크(Humanity’s Last Exam)에서 26.6% 정확성을 달성했다. GPT-4o(3.3%), Grok-2(3.8%), 클로드 3.5 소넷(4.3%), Gemini Thinking(6.2%), 오픈AI o1(9.1%), DeepSeek-R1(9.4%), 오픈AI o3-mini medium(10.5%), 오픈AI o3-mini high(13.0%)라는 결과를 크게 웃돌았다. 오픈AI는 딥리서치의 문제 해결 프로세스가 온라인 리서치를 활용하는 인간 사고 프로세스와 유사하다고 강조했다.
또 실제 세계 문제에 대한 AI 평가를 수행하는 GAIA라는 공개 벤치마크에서 딥리서치는 추론 능력, 멀티모달 기능, 웹 브라우징, 도구 사용 숙련도 등을 요구하는 과제에서 새로운 최고 기록을 달성했다. 구체적인 수치로 레벨1에서는 74.29%(pass@1) 및 78.66%(cons@64), 레벨2에서는 69.06%(pass@1) 및 73.21%(cons@64), 레벨3에서는 47.6%(pass@1) 및 58.03%(cons@64)를 기록해 평균적으로 각각 67.36%와 72.57%를 달성했다. 이는 기존 최고 기록인 63.64%를 웃도는 결과다.
오픈AI는 딥리서치의 혁신적 특징으로 기존 모델에 있던 응답 시간의 제약을 완전히 제거했다는 점을 들었다. 일반 모델이 비교적 빠른 응답을 반환하는 것에 비해 딥리서치는 5분에서 30분이라는 긴 처리 시간을 소요할 수도 있다. 오픈AI는 이 긴 처리 시간을 자율적인 태스크 실행 실현과 범용 인공지능 그러니까 AGI 개발 로드맵에서 중요한 진전으로 긍정적으로 평가했다.
딥리서치 출력은 분석가나 분야 전문가가 작성하는 것과 같은 포괄적이고 완전한 인용이 포함된 연구 논문에 상당하다고 오픈AI는 평가했다. 그 용도는 다양하며 지식 노동 관련 태스크부터 광범위한 웹 검색이 필요한 작업까지 대응 가능하고 특정 조건에 맞는 상품 검색이나 프레젠테이션용 콘텐츠 작성 등에도 활용할 수 있다고 오픈AI는 밝혔다.
챗GPT에 iOS와 안드로이드 도입률, 언어 학습 희망자 비율, 지난 몇 년간의 스마트폰 보급률 변화에 대해 선진국과 개발도상국 비교 데이터를 출력하도록 지시하고 또 표를 포함한 리포트 형식 출력과 가장 유망한 신흥 시장에 관한 명확한 추천 사항을 요구한다. 프롬프트를 입력한 뒤 딥리서치 버튼을 클릭한다.
그러면 챗GPT가 요구 내용을 명확히 하기 위한 질문을 몇 가지 반환했다. 이는 조사를 시작하기 전 스마트폰 보급률 정의 방법이나 관심도 측정 방법 등 요건을 정확히 파악하기 위해서다. 사용자가 이런 질문에 답하면 챗GPT는 조사를 시작했다. 그 추론 과정이 오른쪽 칼럼에 표시된다.
오픈AI는 딥리서치는 다양한 지식 노동 분야에서 활용할 수 있다며 시장 조사 뿐 아니라 물리학, 컴퓨터 사이언스, 생물학 같은 학술 분야에서도 이용 가능하다면서 조사 과정은 사이드바에 표시되며 모델 추론 프로세스를 확인할 수 있다고 밝혔다. 모델은 실제로 웹 페이지를 열고 이미지, 표, PDF 등 다양한 콘텐츠를 분석하며 해당 정보를 바탕으로 다음 조사 단계를 결정해 나간다는 설명이다.
출시 일정에 관해서는 우선 2025년 2월 3일 발표 시점 프로 버전으로 서비스를 시작하고 이후 플러스 버전, 팀 버전, 교육기관용, 엔터프라이즈 버전으로 순차적으로 서비스가 전개될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.