LLM에 무한대 텍스트 처리 가능한 기술

구글 연구팀이 인피니-어텐션(Infini-attention)이라는 기술에 대한 논문을 발표했다. 이 기술은 트랜스포머(Transformer) 기반 LLM 핵심 메커니즘인 어텐션 메커니즘에 압축 메모리를 결합해 지역 어텐션과 장기 선형 어텐션을 단일 트랜스포머 블록에서 구현하는 접근법이다.

AI 모델에는 처리할 수 있는 토큰량을 나타내는 컨텍스트 윈도라는 제한이 있다. 예를 들어 챗GPT의 경우 대화량이 컨텍스트 윈도를 초과하면 성능이 저하되고 대화 앞부분 토큰이 삭제된다.

따라서 처리 가능한 토큰량을 늘리는 건 경쟁에서 유리한 고지를 점하고 모델을 개선하기 위한 주요 과제 중 하나다. 구글 연구진이 개발한 인피니-어텐션 기술은 메모리와 계산 용량이 제한된 상황에서도 사용할 수 있는 방법을 제안한다.

실험 결과 인피니-어텐션을 사용한 모델은 기준 모델을 능가하며 메모리 크기 기준으로 114배 높은 이해도를 달성했다. 최대 5,000 시퀀스 길이 패스파인더(Pathfinder) 인스턴스에 미세 조정된 10억 개 모델은 100만 개 문제를 해결할 수 있었으며 이론적으로는 품질을 유지하면서 더 많은 토큰을 처리할 수 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.