테크레시피

LLM이 난해한 코딩 문제 단번에 맞힐 확률은 제로

테크놀로지 기업 임원진 일부가AI가 코드를 작성하는 만큼 이제 프로그래밍을 배울 필요가 없다거나 코딩을 배우는 건 시간 낭비라는 말이 나올 만큼 대규모 언어모델(LLM) 코딩 능력은 높으며 이미 마이크로소프트 제품 코드 30%가 AI에 의해 작성되고 있다는 게 밝혀졌다. 하지만 LLM은 경쟁 프로그래밍 등에서 출제되는 난해한 문제에서는 여전히 숙련된 기술을 가진 인간 전문가에게 상대가 되지 않는다는 게 밝혀졌다.

LLM이 경쟁 프로그래밍에서 인간 경쟁 프로그래머보다 뛰어나다는 보고가 있다. 이에 의문을 품은 AI 연구자가 라이브코드벤치 프로(LiveCodeBench Pro)라고 불리는 벤치마크를 구축했다. 라이브코드벤치 프로는 세계적으로 유명한 경쟁 프로그래밍 사이트인 코드포스(Codeforces), 국제대학대항프로그래밍콘테스트인 ICPC, 경쟁 프로그래머 세계 1위를 결정하는 IOI(국제정보올림피아드) 문제로 구성된 벤치마크로 데이터 오염 가능성을 줄이기 위해 지속적인 업데이트가 예정되어 있다.

라이브코드벤치 프로에서는 국제정보올림피아드 메달리스트로 구성된 팀이 알고리즘 카테고리에 대해 모든 문제에 주석을 달았다. 또 LLM이 답변에 실패한 경우 메달리스트 팀이 행 단위로 LLM이 출력한 코드를 분석하고 있다.

라이브코드벤치 프로에서 여러 최첨단 LLM을 테스트한 결과 외부 도구가 없는 경우 최고의 LLM이라도 중난이도 문제에서 pass@1 그러니까 1회차에 생성한 코드(첫 번째 답안)로 정답을 맞힐 확률이 53%라는 게 밝혀졌다. 더구나 고난이도 문제의 경우 pass@1은 0%가 되어 숙련된 기술을 가진 프로그래머가 고난이도 문제에서는 뛰어난 성능을 발휘하고 있다는 게 밝혀졌다.

라이브코드벤치 프로 문제를 풀 때 정답률을 보면 고난이도 문제에서는 어떤 LLM도 올바른 답변을 내지 못해 0.0%로 표시된다. 한편 라이브코드벤치 프로에서는 체스의 일로 레이팅을 기반으로 LLM 성능을 점수 형식(Rating)으로 평가하고 있으며 오픈AI 최첨단 LLM인 o4-mini-high조차 점수는 2100이다. 점수 2700 이후가 우수한 기술을 가진 인간 경쟁 프로그래머로 평가되고 있다.

한편 LLM은 구현 중심 문제에서는 올바르게 답변할 수 있지만 뉘앙스가 풍부한 알고리즘 추론이나 복잡한 사례 분석에는 고전하며 종종 과신해 잘못된 답변을 생성한다는 게 밝혀졌다.

이로부터 연구팀은 고성능은 뛰어난 추론이 아니라 구현 정확도와 도구 확장에 크게 좌우되는 것 같다며 라이브코드벤치 프로는 인간 전문가와의 큰 차이를 부각시키는 동시에 코드 중심 LLM 추론에 대한 향후 개선을 이끌기 위한 세밀한 진단 기능을 제공한다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독

Most popular