GPT-4 절반 계산으로 동등 수준? 퍼스널 AI

AI 기업인 인플렉션(Inflection)이 개발하는 생성형 AI인 파이(Pi)는 사용자 개인에게 최적화된 퍼스널 AI다. 인플렉션이 이런 파이 능력을 비약적으로 끌어올린 기반 모델인 인플렉션-2.5(Inflection-2.5)를 발표했다.

파이는 안드로이드나 iOS 스마트폰, 브라우저 등을 통해 대화할 수 있는 AI다. 인플렉션 측에 따르면 파이는 1일 활성 사용자 수 100만 명, 월간 활성 사용자 수 400만 명에 달한다. 평균 대화 시간은 33분으로 10명 중 1명은 1시간 이상 말을 걸거나 사용자 60%는 다음주에도 또 파이를 사용하고 있다고 한다. 사용자 만족도 지표도 경쟁 서비스보다 높은 점수를 내고 있다.

파이 인기를 지탱하는 건 파이에 탑재되어 있는 기반 모델인 인플렉션-2.5다. 인플렉션-2.5는 학습에 소비된 컴퓨팅량이 GPT-4 40%, 이전 모델인 인플렉션-1에선 GPT-4 4% 밖에 안 되지만 멀티태스킹 성능을 측정한다. MMLU(Massive Multi-task Language Understanding)와 대학원 수준 지식을 요구하는 구글 벤치마크 GPQA(Baselines and analysis for the Google-proof Q&A) 최고 수준 데이터세트인 다이아몬드에서 GPT-4에 필적하는 점수를 내기도 했다.

인플렉션-2.5는 AI의 수적 처리 능력을 추측하는데 사용되는 헝가리 수학 시험이나 북미에서 사용되는 공통 시험인 GRE 물리학 문제 등 STEM 분야에서도 강점을 보인다. 인플렉션-2.5는 이수 분야 뿐 아니라 코딩에서도 뛰어난 성적을 거두고 있으며 코딩 벤치마크(MBPP+, HumanEval+)에서도 인플렉션-1보다 점수가 대폭 개선됐다.

인플렉션은 인플렉션-2.5가 파이의 독특하고 친숙한 성격과 뛰어난 안전 기준을 유지하면서 전체적으로 더 유용한 모델이 됐다고 설명하고 있다. 관련 내용은 이곳에서 확인할 수 있다.