“100만 달러어치 의뢰 작업 능력” 오픈AI, AI 벤치마크툴 공개했다

오픈AI가 2월 18일 AI 모델 코딩 성능을 평가하기 위한 오픈소스 벤치마크 SWE-Lancer를 공개했다.

SWE-Lancer는 프리랜서 소프트웨어 엔지니어가 100만 달러에 수행하는 작업을 AI가 실행할 수 있는지 측정하는 벤치마크 도구다. 50달러 상당 버그 수정부터 3만 2,000달러 상당 기능 구현까지 독립적인 엔지니어링 작업과 모델이 기술적인 구현안을 선택하는 관리 작업 모두를 테스트할 수 있다.

SWE-Lancer에서 측정되는 작업 가격은 실제 시장 가치를 반영하며 작업이 어려울수록 가격도 상승한다.

오픈AI는 SWE-Lancer를 사용해 AI 모델 성능을 측정한 결과 현행 AI 모델은 아직 대부분 작업을 해결하지 못했다고 보고했다. 실제로 오픈AI가 발표한 논문에서는 100만 달러 상당 작업에 대해 GPT-4와 클로드 3.5 소넷이 수행할 수 있었던 작업은 30만 달러~40만 달러 상당이었음이 나타났다.

Today we’re launching SWE-Lancer—a new, more realistic benchmark to evaluate the coding performance of AI models. SWE-Lancer includes over 1,400 freelance software engineering tasks from Upwork, valued at $1 million USD total in real-world payouts. https://t.co/c3pFcL41uK
— OpenAI (@OpenAI) February 18, 2025

오픈AI는 모델 성능을 금전적 가치에 맵핑해 SWE-Lancer가 AI 모델 개발의 경제적 영향에 관한 더 많은 연구를 가능하게 할 것을 기대한다고 밝혔다. 오픈AI는 또 향후 연구에 활용하기 위해 SWE-Lancer를 오픈소스화했다. SWE-Lancer 소스코드는 깃허브에서 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.