
오픈AI가 기능 개발, 코드베이스 관련 질문 응답, 버그 수정, 풀 리퀘스트 제안 등 여러 작업을 병렬로 실행할 수 있는 클라우드 기반 소프트웨어 엔지니어링 에이전트인 코덱스(Codex) 연구용 프리뷰 버전을 출시했다. 코덱스는 챗GPT 프로, 엔터프라이즈, 팀 사용자에게 제공되며 플러스와 에듀 사용자에게는 곧 제공될 예정이다.
코덱스는 강화학습을 통해 다양한 환경 내 실제 코딩 작업에서 훈련되었으며 인간 스타일과 풀 리퀘스트 선호도에 가까운 코드를 생성할 수 있다고 오픈AI는 주장하고 있다. 또 코덱스는 지시를 정확히 따르는 능력과 통과 결과를 얻을 때까지 반복적으로 테스트를 실행하는 기능도 갖추고 있다.
사용자는 챗GPT 사이드바에서 코덱스에 접근하고 프롬프트를 입력해 코드(Code) 버튼을 클릭해 코딩 작업을 할당할 수 있다. 코드베이스에 대해 질문할 경우에는 애스크(Ask) 버튼을 사용한다.
코덱스는 리포지토리 내에 배치된 README.md와 유사한 형식 텍스트 파일(AGENTS.md)을 통해 설정할 수 있으며 코드베이스 탐색 방법, 테스트용 명령어, 프로젝트의 표준 관행 등을 코덱스에 지시할 수 있다.
코덱스 핵심 특징은 여러 작업을 동시에 처리할 수 있는 병렬 처리 능력이다. 각 작업은 클라우드 상 독립된 환경에서 실행되며 사용자 리포지토리가 미리 로딩되어 있다. 기술적 기반으로는 오픈AI o3를 소프트웨어 엔지니어링용으로 최적화한 codex-1을 탑재하고 있다.
코덱스는 파일 읽기 및 편집, 테스트 하네스, 린터, 타입 체커 등 명령어 실행이 가능하다. 각 작업은 분리된 환경에서 독립적으로 처리되며 코드베이스가 사전에 로딩된다.
작업 완료에는 복잡성에 따라 1~30분 정도 소요되며 사용자는 실시간으로 진행 상황을 확인할 수 있다. 작업 완료 뒤 코덱스는 환경 내에서 변경 사항을 커밋하고 터미널 로그나 테스트 출력을 통해 처리 과정 각 단계를 증명한다. 또 사용자는 결과를 확인하고 추가 수정을 요청하거나 깃허브 풀 리퀘스트를 생성하거나 변경 사항을 로컬 환경에 통합할 수 있다.
코덱스는 안전하게 격리된 컨테이너 내에서 클라우드 상에서 작동하며 작업 실행 중에는 인터넷 접속이 비활성화된다. 에이전트와의 실시간 페어링이나 작업 위임은 깃허브 리포지토리를 통해 명시적으로 제공된 코드와 사용자가 설정 스크립트로 설정한 사전 설치된 의존성에만 제한된다.
오픈AI는 내부 벤치마크와 코딩 평가에서 codex-1은 AGENTS.md 파일이나 커스텀 스캐폴딩 없이도 높은 성능을 보여주고 있다고 주장한다. SWE-Bench Verified에서는 4회 시도로 80% 정확도를 달성했으며 오픈AI 내부 SWE 작업 벤치마크에서는 75% 정확도를 실현했다.
또 코덱스는 보안과 투명성을 중시해 설계됐으며 출력을 검증할 수 있는 기능이 내장되어 있다. 인용, 터미널 로그, 테스트 결과를 통해 사용자가 작업을 확인할 수 있도록 되어 있으며 불확실성이나 테스트 실패가 발생한 경우 코덱스는 명시적으로 이런 문제를 전달하고 사용자가 진행 방법에 대해 정보를 바탕으로 한 결정을 할 수 있도록 지원한다. 모든 에이전트 생성 코드는 통합이나 실행 전에 수동으로 검토하고 검증하는 게 권장된다.
오픈AI는 향후 계획으로는 더 대화적이고 유연한 에이전트 워크플로를 도입할 예정이라고 밝히며 개발자가 작업 중간에 가이드를 제공하거나 구현 전략에 대해 협력하거나 적극적인 진행 상황 업데이트를 받을 수 있게 되는 걸 목표로 한다고 말했다. 또 오픈AI는 현재 코덱스는 깃허브와 연결 가능하지만 향후에는 Codex CLI, 챗GPT 데스크톱, 심지어 외부 도구에서 작업을 할당할 수 있는 것도 목표로 하고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.