
인터넷상 정보를 수집해 답변을 생성할 수 있는 AI 에이전트가 속속 등장하고 있다. 새롭게 오픈AI가 AI 에이전트 웹 검색 능력을 측정할 수 있는 벤치마크인 브라우즈컴프(BrowseComp)를 발표했다.
웹 검색 능력을 측정하는 테스트는 오픈AI가 2024년 10월 발표한 벤치마크 SimpleQA에도 포함되어 있지만 GPT-4o 등 브라우징 기능은 이미 SimpleQA로 측정할 수 있는 범위를 넘어서는 능력을 갖추고 있다고 한다. 이에 오픈AI는 인터넷상 복잡하고 찾기 어려운 정보를 찾는 능력을 측정할 수 있는 벤치마크 도구로 브라우즈컴프를 개발했다. 브라우즈컴프는 브라우징 경쟁(Browsing Competition) 약어다.
브라우즈컴프에는 고난도이면서 정오 평가가 간단한 문제가 1,266개 포함되어 있다. 각 문제는 인간 트레이너에 의해 다음 조건을 충족하도록 만들어졌다. 조건 1은 GPT-4o, 오픈AI o1, 딥리서치(Deep research) 초기 버전으로는 해결할 수 없다는 걸 확인한다. 조건 2는 인간 트레이너가 검색 엔진으로 5가지 검색을 실시하고 검색 결과 첫 페이지에 답변이 표시되지 않음을 확인한다. 조건 3은 인간이 10분 이내에 풀 수 없는 문제를 만든다. 다른 트레이너에게 도전시켜 40% 이상 트레이너가 정답을 맞춘 경우는 문제를 수정한다.
문제에서 정답을 이끌어내기는 어렵지만 반대로 정답인지 여부는 웹 검색 몇 번으로 검증할 수 있다.
브라우즈컴프에 포함된 문제 카테고리 내역은 이렇다. 텔레비전 프로그램 및 영화가 16.2%, 과학 및 기술이 13.7%, 아트 10.0%, 역사 9.9%, 스포츠 9.7%, 음악 9.2%, 게임 5.6%, 지리가 5.5%, 정치 4.7%, 기타가 15.6% 포함되어 있다.
브라우즈컴프에 포함된 문제 중 1,255개를 인간에게 풀게 한 결과 2시간 이내에 답변할 수 있었던 문제는 367개(전체 29.2%)였고 정답을 맞춘 문제는 317개(답변할 수 있었던 문제 86.4%)였다. 답변에 소요된 시간을 보면 문제 중에는 몇 분 안에 풀 수 있는 것도 있었고 몇 시간이 걸리는 것도 있었다.
오픈AI AI 모델에 브라우즈컴프 문제를 풀게 한 결과를 보면 추론 모델인 오픈AI o1도 9.9%밖에 정답을 맞추지 못했지만 웹 검색용 AI 에이전트인 딥리서치는 51.5%라는 비교적 높은 정답률을 기록했다.
같은 AI 에이전트로 추론에 사용하는 컴퓨터 리소스를 늘렸을 때의 브라우즈컴프 점수 추이를 보면 추론에 비용을 투자할수록 점수는 상승한다.
딥리서치에서의 답변 생성을 여러 번 실시하고 가장 신뢰 점수가 높은 답변(Best of N), 신뢰 점수로 가중치를 둔 다수결로 선택된 답변(Majority Voting), 가장 많이 출력된 답변(Majority Voting)이라는 조건으로 대표 답변을 선택했을 때의 점수를 정리해보면 어떤 답변 선택 방법도 생성 횟수가 증가함에 따라 정답률이 향상됐으며 가장 뛰어난 답변 선택 방법은 ‘Best of N’이었다.
더 나아가 브라우즈컴프 문제 난이도를 분석하기 위해 각 문제를 딥리서치로 64번 풀어 정답률을 조사했다. 그 결과 16% 문제는 정답률 100%였고 14% 문제는 정답률이 0%였다. 또 정답률 0%인 문제에 대해 정답을 제시받은 뒤 정답을 뒷받침하는 증거를 웹상에서 찾는 과제를 준 결과 대부분 문제에서 증거를 찾는 데 성공했다. 이런 결과로부터 오픈AI는 브라우즈컴프는 단순한 검색 능력뿐만 아니라 검색을 유연하게 재구성하는 능력과 여러 정보원에서 단편적인 단서를 추출해 답변을 조립하는 능력’을 측정할 수 있다고 결론지었다.
한편 브라우즈컴프는 정답이 하나뿐인 문제를 다루는 테스트이며 브라우즈컴프 점수가 자유 답변 형식 문제를 푸는 능력과 어느 정도 상관관계가 있는지는 불분명하다. 브라우즈컴프는 오픈AI 벤치마크 도구 모음인 ‘simple-evals’에 포함되어 있다. 관련 내용은 이곳에서 확인할 수 있다.