테크레시피

마이크로소프트 빙, LLM+SLM 조합으로 바꾼다

마이크로소프트는 검색 엔진 빙(Bing)에서 지금까지 구글이 개발한 기계 학습 모델인 트랜스포머(Transformer)를 채택해 왔다. 하지만 트랜스포머에 한계가 도래했다고 판단하고 대규모 언어 모델(LLM)과 소규모 언어 모델(SLM) 조합으로 이전한다고 발표했다. 더불어 워크플로에 엔비디아가 개발한 TensorRT-LLM을 통합해 검색을 최적화할 것이라고 발표했다.

문장에 포함된 단어와 같이 연속된 데이터 관계를 추적해 문맥 나아가 의미를 학습하는 신경망이 트랜스포머다. 트랜스포머는 마이크로소프트 빙에도 활용되어 왔지만 검색 쿼리 복잡성이 증가함에 따라 더 강력한 모델이 필요하게 됐다고 한다.

이에 따라 마이크로소프트는 트랜스포머에서 LLM과 SLM의 조합으로 이전하기로 발표했다. 마이크로소프트는 LLM은 제공 비용이 높고 속도도 느려지는 경향이 있기 때문에 효율성을 향상시키기 위해 검색 쿼리를 더 정확하게 처리하고 이해할 수 있는 SLM을 조합했다고 설명했다.

여기에 더해 LLM 주요 과제 중 하나인 지연과 비용 관리 문제에 대처하기 위해 엔비디아 TensorRT-LLM을 워크플로에 통합해 SLM 추론 성능을 최적화했다고 발표했다. TensorRT-LLM을 활용하고 있는 기능 중 하나가 빙 딥서치(Deep Search)다. 딥서치는 대규모 언어 모델 GPT-4를 사용해 사용자가 빙에 던진 검색 쿼리를 확장하고 질문과 관련된 몇 가지 답변을 제공할 수 있는 기능. 딥서치에서는 SLM을 활용해 빙 사용자에게 가능한 한 최적의 웹 검색 결과를 제공할 예정이다.

이 경험에는 사용자 쿼리 의도를 이해하고 웹 검색 결과 관련성과 품질을 보장하는 등 여러 단계가 포함된다. SLM은 여러 단계를 실행하는 데 시간이 걸리기 때문에 가능한 한 빨리 검색 결과를 표시하기 위한 고속화가 필요하다. 마이크로소프트에 따르면 TensorRT-LLM을 활용해 결과 품질을 희생하지 않고 모델 추론 시간을 단축하고 결과적으로 엔드투엔드 경험 지연을 단축할 수 있다고 한다.

TensorRT-LLM은 엔비디아 A100에서 LLM을 호스팅 및 실행하고 있다. TensorRT-LLM에 의한 최적화 이전 원래 트랜스포머 모델 95 백분위 레이턴시는 배치당 4.76초, 인스턴스당 처리량은 초당 4.2 쿼리였다. 참고로 각 배치는 20개 쿼리로 구성된다. 이에 반해 TensorRT-LLM을 통합한 결과 95 백분위 레이턴시가 배치당 3.03초로 단축됐고 인스턴스당 처리량은 초당 6.6 쿼리로 향상됐다. 이를 통해 검색 결과가 빨라지고 사용자 경험이 향상될 뿐 아니라 LLM을 실행하기 위한 운영 비용이 57% 감소됐다는 게 확인됐다.

TensorRT-LLM은 스무스콴트(SmoothQuant)라 불리는 방법을 채택해 네트워크 정확도를 유지하면서 활성화와 가중치 모두에 INT8을 사용해 추론을 실행할 예정이다.

TensorRT-LLM으로 이전해 얻을 수 있는 이점은 먼저 더 빠른 검색 결과. 최적화된 추론을 통해 사용자는 더 빠른 응답 시간을 누릴 수 있으며 검색 경험이 더 원활하고 효율적으로 변화한다. 다음으로 정확도 향상, SLM 기능이 강화됨에 따라 더 정확하고 문맥에 맞는 검색 결과를 제공할 수 있게 되어 사용자가 필요한 정보를 더 효과적으로 찾을 수 있게 됐다. 이어 비용 효율. LLM 호스팅 및 실행에 드는 비용을 줄여 지속적으로 더 많은 혁신과 개선에 투자할 수 있으며 빙이 검색 기술 최전선에 머물 수 있음을 보장한다.

참고로 마이크로소프트는 향후 전망으로 검색 기술 혁신과 개선을 계속하면서 사용자에게 가능한 한 최고의 경험을 제공하는 데 집중하고 있다며 LLM 및 SLM으로의 이전과 TensorRT LLM 통합은 시작에 불과하다며 앞으로 더 많은 진전을 공유할 수 있기를 기대하고 있다고 언급했다. 관련 내용은 이곳에서 확인할 수 있다.

한편 마이크로소프트 CEO가 윈도에서 구글이 자사보다 더 많은 이익을 내고 있다고 밝혀 눈길을 끈다. 지난 12월 13일, 1시간 이상 진행된 팟캐스트에 출연한 마이크로소프트 사티아 나데라 CEO는 구글은 윈도에서 마이크로소프트 이상으로 수익을 올리고 있다며 구글과 마이크로소프트 간 힘의 관계에 대해 이야기한 것.

마이크로소프트의 패인 중 하나는 검색에서의 우위성. 마이크로소프트는 검색 엔진 빙(Bing)을 개발해 엣지 브라우저에서의 사용을 권장하고 있지만 윈도라는 플랫폼은 사용자에게 브라우저를 자유롭게 사용해도 좋다는 태도를 보이는 개방적인 성격을 가지고 있기 때문에 사용자가 반드시 엣지나 빙을 사용하는 건 아니다. 그 결과 검색 시장을 지배하고 있는 구글에 시장 점유율을 빼앗기고 말았다.

원래 마이크로소프트는 1990년대 무렵부터 인터넷 익스플로러(Internet Explorer)로 브라우저 시장 점유율을 독점하며 넷스케이프(Netscape) 등 다른 브라우저를 배제한다는 이유로 미국 정부로부터 독점금지법 소송을 받기도 했다. 그런데 십수 년에 걸쳐 구글이 부상하면서 이제는 마이크로소프트가 시장의 구석으로 밀려나는 입장이 되어버렸다. 나데라 CEO는 희극이라고밖에 말할 수 없다며 자사는 넷스케이프에 승리했지만 구글에게 졌고 크롬이 지배적인 브라우저가 됐다며 마이크로소프트 주주에게는 최고의 뉴스 아니겠냐 자사가 경쟁에 크게 패배했기 때문에 다툼에 참여할 수 있기 때문이라고 아이러니하게 말했다.

그는 또 AI에 대해서도 비슷한 견해를 밝혔다. 마이크로소프트는 AI 에이전트 코파일럿(Copilot)을 개발해 윈도에 탑재하고 일부 노트북에는 코파일럿을 호출하기 위한 전용 키인 코파일럿 키를 설치해 사용자를 유도하고 있지만 개방적인 성격 때문에 제미나이나 챗GPT 등 다른 AI가 진입할 여지가 있다고 나데라 CEO는 말하고 있다.

한편 애플은 EU의 시정 권고를 받을 때까지 기본 브라우저 선택지를 마련하지 않았거나 구글은 애플에게 거액을 지불하고 사파리 기본 검색 엔진이 되는 계약을 맺는 등 개방적이라고 보기 어려운 전략을 계속 취해왔다. 그럼에도 불구하고 마이크로소프트도 사파리 기본 검색 엔진에 빙을 채택하도록 하는 계약을 확보하려 했다고 보도됐기 때문에 마이크로소프트의 개방성이 얼마나 정당한지에 대해서는 의문이 제기된다.

또 마이크로소프트와 파트너십을 맺고 있는 오픈AI가 애플과도 계약을 맺었다는 점에 대해 나데라 CEO는 10년 동안 애플 검색 계약을 획득하려고 노력해 왔기 때문에 애플이 오픈AI와 마침내 계약을 맺었을 때 매우 흥분했다고 말했다. 나데라 CEO는 AI 경쟁에 대해 여전히 현실적인 견해를 보이며 AI는 매우 경쟁적이지만 승자독식 시나리오는 아니라며 마이크로소프트가 그 지위를 다른 기업에 양보하지 않을 것임을 시사했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독