테크레시피

HDD 장애 발생 가능성, 기계학습으로 예측한다?

하드디스크 드라이브, HDD는 저렴하게 대용량 스토리지를 제공해 장기 보존에 적합하다는 장점이 있지만 충격이나 열에 약하다는 단점이 있고 정밀 부품도 많이 사용하기 때문에 물리적 장애도 충분히 일어날 수 있다. 온라인 스토리지 서비스 제공 기업인 백블레이즈(Backblaze)가 하드디스크 상태에서 기계학습으로 미래에 장애가 일어날 가능성을 예측하는 기술 연구 논문을 설명해 눈길을 끈다.

백블레이즈는 매일 전 세계 데이터센터에서 HDD 모델 번호와 일련번호, SMART 등 데이터를 수집하고 있으며 2013년 4월까지 누적 2억 6,600만 건 이상 기록을 갖고 있다. 2021년 9월 30일 시점 HDD 19만 1,000대에서 데이터를 백블레이즈에 보내졌다고 한다.

HDD 자가 진단 기능인 SMART는 데이터 전송 속도와 통전 시간, 온도, 탐색 오류 빈도, 디스크 회전 모터 시동과 정지 횟수 등을 기록하고 있다. 이런 SMART 데이터에서 HDD 오류를 예측하는 시도는 1990년대부터 이뤄지고 있다. 예를 들어 백브레이즈가 2014년과 2016년 발표한 연구 그리고 구글이 2007년 발표한 연구에선 SMART 정보 가운데 05:대체 처리된 섹터, BB:수정할 수 없는 오류수, BC:명령시간, C5:대체 처리 보류 중인 섹터, C6:회복 불가능한 섹터는 HDD 장애 상관관계로 각각 분석을 실시하고 있다.

이번에 백블레이즈가 주목한 논문은 AI 기업(Interpretable AI) 연구팀이 발표한 것. 연구팀은 씨게이트가 만든 헬륨충전형 HDD인 ST12000NM0007 3만 5,000대 이상에서 2017년 1분기에서 2020년 1분기까지 매일 수집한 SMART 정보를 분석했다. 그리고 HDD별 남은 수명을 계산하고 해당 데이터를 SMART와 남은 수명이 SMART 속성에서 어떻게 영향을 받는지 보여주는 서바이벌 트리를 AI로 구축해 재해 예측을 실시했다.

연 단위 장기 예측을 위한 서바이벌 트리는 맨 위에 있는 노드1에서 05:대체 처리된 섹터를 확인한다. 그 결과가 1.5 미만이면 노드2로 이동해 03:스핀업 시간을 확인하고 1.5 이상이면 노드15로 이동해 C5:대체 처리 보류중인 섹터 검증으로 이동한다. 이런 검증과 결과에 따라 분기를 거듭 예측한다.

예를 들어 최하층에 있는 노드18은 지금까지 검증이 진행된 HDD는 적어도 절반은 2년 이내에 발생하지 않을 것으로 예측한다. 반대로 노드11로 검증된 HDD는 50일 이내에 실패할 것으로 예측한다.

90일 범위 단기 예측을 위한 서바이벌 트리의 경우 최하층 노드21과 노드24에서 분기한 HDD는 90일 이내에 거의 확실하게 문제가 예측된다. 한편 노드12와 15에 분기하는 HDD는 90일 이내에 실패할 가능서잉 거의 없다고 한다.

연구팀은 HDD 장기 예측을 실시하는 데 있어 2017년부터 2020년까지 3년간 데이터를 사용하고 2019년부터 2020년까지 1년치 데이터를 제한해 관측값을 55만 7,936건으로 줄였다. 첫 번째 데이터 세트에서 관측값을 무작위로 다시 샘플링해 AI 모델을 학습하고 나머지는 테스트에 사용했다고 한다.

백블레이즈는 드라이브 고장을 예측할 수 있지만 완벽하지 않은 건 분명하다며 그럼에도 중요한 건 백업 전략이라며 디지털 라이프를 HDD나 SSD 하나에 신뢰하고 맡길 경우 장애 예측을 잊어 오히려 장애가 발생하는 만큼 이를 가정해 데이터를 백업하라고 권하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사