
오픈AI는 사용자 지시에 따라 자동으로 브라우저를 조작하는 AI인 오퍼레이터(Operator) 연구용 프리뷰 버전을 발표하고 CUA(Computer-Using Agent) 모델에 대한 데이터를 공개했다.
CUA는 GPT-4o 사고 능력을 갖추고 있으며 인간과 동일하게 화면을 보고 버튼, 메뉴, 텍스트 필드 등을 조작할 수 있도록 추가 훈련됐다. 각 서비스와 앱 특정 API를 사용하지 않고도 작업을 유연하게 실행할 수 있는 장점이 있다.
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
이번에 출시된 오퍼레이터 CUA는 컴퓨터 및 브라우저 조작 분야에서 새로운 최첨단 기술을 확립했다. 성능 비교 결과는 PC 조작의 경우 인간 72.4%에 비해 38.1% 점수를 기록했고 브라우저 조작은 58.1% 점수로 인간과의 격차를 20포인트 축소했다. 모델 작동 방식은 화면 상태 인식, 다음 동작 사고, 작업 실행 3단계로 진행된다.
오퍼레이터는 CUA에 브라우저 조작 기능을 결합해 프롬프트 지시만으로 자동 브라우저 작업이 가능하다. 로그인, 결제, 캡차(CAPTCHA) 등 사용자 지원이 필요한 작업에서는 사용자에게 도움을 요청하도록 훈련됐다. 현재 오퍼레이터 연구용 프리뷰 버전은 미국 거주 프로 플랜 사용자에게만 제공된다. 관련 내용은 이곳에서 확인할 수 있다.