테크레시피

AI와 변호사, 법적계약서 대결 결과는?

챗GPT가 로스쿨 시험에서 합격점을 받거나 대규모언어모델 GPT-3을 기반으로 한 AI 변호사에게 법정에서 변론시킬 계획을 발표하는 등 사법 현장에서도 생성형 AI가 힘을 발휘할 가능성이 지적되고 있다. 뉴질랜드에서 비즈니스 법무 관련 업무를 수행하는 온잇(Onit)이 법적 계약서에서 문제와 실수 지적 등을 포함한 리뷰에 대해 LLM과 기존 인간 담당자를 비교한 논문을 공개했다.

논문에선 외부 위탁되어 경험이 적은 변호사에게 맡겨지는 경우도 많은 법적 계약서 확인 작업에 대해 LLM과 젊은 변호사에선 계약에 있어 법적 문제 판단과 특정에 있어 어떤 게 뛰어난지, LLM과 젊은 변호사는 어느 쪽이 계약서 검토를 완료할 수 있는지 따졌다.

연구에선 먼저 실제 법적 합의에 근거한 조달 계약 계약서를 기밀성을 유지하기 위해 익명화한 뒤 10건 준비했다. 조달 계약은 주로 입찰에 관련된 안건으로 법률 실무자에 의해 검토되는 경우가 많기 때문에 선택되고 있다. 종종 다뤄지는 비밀 보유 계약 NDA는 보통 간결한 형식이어서 분석에선 제외됐다.

또 계약 관할 범위는 법정법과 관습법 조합에 근거한 미국과 관습법에 기초한 뉴질랜드 사이에 균형을 이룬 형태로 하고 있다. 이는 설문조사 결과가 다양한 법제도간에 관련성을 갖도록 하고 설문조사 유용성과 적용 가능성을 높이기 위한 접근법이다. 계약서를 변호사, LLM에 검토한 결과 상급 변호사가 정한 올바른 데이터와 비교하고 얼마나 일치하는지 F값으로 평가했다.

법적 문제 판단력에 관한 결과를 보면 가장 정밀도가 높은 건 법무 아웃소싱인 LPO로 보통 계약서 리뷰를 전문 업무 중 하나로 하기 때문에 높은 안정적 리뷰를 가능하게 한다. LPO와 거의 나린히 높은 점수를 기록한 건 2023년 11월 발표된 LLM인 GPT4-1106으로 젊은 변호사보다 높은 정밀도를 보였다.

법정 문제 특정에 관한 성능을 보면 최상위인 LPO에 이어 2023년 9월 릴리스된 LLM인 GPT4-32k가 높은 점수를 기록했다. 이어 오픈AI 경쟁업체인 앤트로픽 클로드 2.1(Claude 2.1), 판단력으로 높은 점수를 낸 GPT4-1106에 이어 젊은 변호사가 5위를 나타냈다.

다음으로 법적 계약서를 검토하는데 걸리는 시간을 비교했다. 논문에선 계약서 1건당 평균 걸리는 시간이 상급 변호사 43분, 젊은 변호사 56분, LPO 201분으로 기록됐다. 한편 GPT4-1106은 4.7분, GPT4-32k 2.11분, GPT-3.5 1.44분, 클로드 2.1 2.05분으로 시간 효율 면에서 LLM리 뛰어나다고 결론내리고 있다.

마지막으로 계약서 1건당 평균 비용. 변호사에 의존하면 75달러, LPO는 36.85달러지만 LLM의 경우 GPT4-32K이 1.24달러다. 비용 효율 면에서도 LLM이 압도적으로 낮아진다. 논문에선 LLM이 변호사나 LPO에 비해 압도적으로 빠르고 저렴하면서도 동등환 성능을 낼 수 있다는 조사 결과가 나왔다. 하지만 LLM이 계약서 문제를 파악하는 능력은 모델에 의존하기 때문에 연구를 실시할 때 법적 태스크에 적합한 모델을 선택하는 과정이 중요한 의미를 갖고 있는 어느 정도 전문 지식을 가진 사람이 LLM을 취급해야 한다.

논문에선 이번 조사 결과가 법률 업계에 미치는 영향은 깊고 다면적이라고 말한다. 최소한 계약서 검토 업무에 대해선 젊은 변호사와 LPO가 LLM을 대체할 수 있으며 유망한 변호사가 더 복잡한 업무에 대해선 젊은 변호사와 LPO가 LLM을 대체할 수 있으며 유망한 변호사가 더 복잡한 업무로 이른 단계로 진행할 수 있다. 또 LLM은 상당한 효율성 향상과 비용 절감을 가져오기 때문에 조기에 도입한 기업은 대규모 경쟁력을 획득하고 아마도 법률 분야에서 경쟁을 촉발시킬 가능성이 있다고 결론내렸다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사