비즈니스에서 클라우드 컴퓨팅 서비스 중요성은 점점 커지고 있지만 이에 따라 비용 상승과 가용성 문제, 서비스 선택 번거로움 등이 급증하고 있다. 캘리포니아대학 버클리 연구팀이 가장 비용 효율적인 클라우드를 자동 선택할 수 있는 오픈소스 프레임워크인 스카이파일럿(SkyPilot)을 개발했다.
클라우드 컴퓨팅 서비스에는 AWS와 마이크로소프트 애저, 구글 클라우드 플랫폼 GCP 등 다양한 종류가 있으며 어떤 클라우드 컴퓨팅을 사용해야 하는지 고민한 경험이 있을 것이다. 연구팀은 클라우드 컴퓨팅 서비스를 이용하는 조직이 여러 클라우드를 사용하는 멀티클라우드 또는 다중 리전을 전환할 수 있는 멀티리전을 구현하는 게 바람직하다고 주장한다. 멀티 클라우드와 멀티 리전을 사용하는 이점은 이렇다.
먼저 비용을 절감할 수 있다는 것. 2022년 11월 기준으로 보면 엔비디아 A100 GPU에선 애저가 최저이며 AWS가 20%, GCP가 8% 더 비싸다. 같은 하드웨어에서도 서비스 제공업체에 따라 가격이 다른 것. 자신의 용도에 맞는 클라우드 컴퓨팅 서비스를 선택할 수 있다면 상당한 비용 절감으로 이어질 수 있다.
마찬가지로 동일한 클라우드 컴퓨팅 서비스에서도 지역이나 구역에 따라 가격 차이가 있는 만큼 지역과 구역을 적절하게 전환하는 게 중요하다.
다음으로 최고의 하드웨어를 활용할 수 있다는 것. 하드웨어는 성능이나 효율성이 다르기 때문에 서비스 제공자가 경쟁사와의 차별화를 도모하기 위해 커스텀 하드웨어를 제공하는 케이스가 늘고 있다.
예를 들면 고성능 기계학습용 머신인 GCP의 TPU. 비용 효율적인 기계학습 추론을 실행하는 AWS의 인터렌티아(Inferentia). 하드웨어 차이는 클라우드 뿐 아니라 리전 간에도 존재한다. 작업에 가장 적합한 하드웨어를 선택하면 비용 절감과 성능 향상을 기대할 수 있다.
다음은 소중한 리소스 가용성을 높이는 것이다. 클라우드 컴퓨팅 서비스 수요가 높아지면서 하이엔드 GPU를 이용하는 클라우드 인스턴스 취득은 곤란해지고 있으며 그렇지 않은 서비스에서도 용량 부족에 직면하는 일이 있다. 소중한 클라우드 컴퓨팅 리소스 가용성을 높이려면 멀티 클라우드, 멀티 리전을 사용하는 게 가장 좋다.
하지만 캘리포니아대학 버클리 역시 복수 클라우드와 리전 운용에서 있어서의 복잡성은 오랜 과제였다고 한다. 연구팀은 실험실에서 머신러닝과 데이터사이언스, 시스템, 데이터베이스 보안 등 프로젝트를 수행하기 위한 퍼블릭 클라우드에 크게 의존하고 있다며 여러 클라우드를 사용하면 최종 사용자 부담을 악화시킬 수 있다는 게 밝혀졌다고 말한다.
따라서 연구팀은 멀티 클라우드, 멀티 리전 사용을 간소화하고 비용을 절감하기 위해 오픈소스 프레임워크인 스카이파일럿을 개발했다. 스카이파일럿은 작업과 리소스 요구 사항을 지정하면 작업을 실행하기 위한 컴퓨팅 리소스가 있는 클라우드 서비스, 리전, 존을 자동 식별하고 가장 저렴한 걸 선택해 실행하면 된다.
더구나 스카이파일럿은 용량 부족이나 에러가 발생하면 자동으로 페일오버를 실행할 수 있으며 사용자 코드나 파일을 클러스터에 동기화해 작업 큐잉과 실행을 관리하는 것도 가능하다. 연구팀은 스카이파일럿을 이용해 작업을 실행하는 가장 저렴한 클라우드 컴퓨팅 서비스를 선택하고 유휴 클러스터를 자동 절리해 비용을 3분의 1 이하로 줄일 수 있다고 주장하고 있다.
스카이파일럿은 몇 개월간 10개 이상 조직에 소속된 연구자 수십 명에게 제공되어 다양하게 사용되어 왔다. 한 생물학 연구소는 스카이파일럿을 이용해 매주 정기적인 패치 작업을 수행해 온디맨드로 인스턴스를 실행하는 경우보다 비용이 6분의 1로 줄었고 작업 완료 시간도 크게 단축됐다고 한다.
연구팀은 앞으로 몇 개월 안에 스카이파일럿 시스템이나 자세한 사용예, 도입 방법에 대한 더 자세한 정보를 제공하고 기능 개선도 계획하고 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.