테크레시피

구글·트위터 실시간 데이터로 코로나19 예측 알고리즘을…

전 세계적으로 맹위를 떨치는 코로나19는 현재 감염자 수가 1,150만 명, 사망자 수도 53만 명을 넘어선 상태다. 하버드대학과 노스이스턴대학 등 연구팀이 구글이나 트위터 실시간 데이터를 통해 코로나19 제2파를 예측하는 알고리즘을 개발했다고 한다.

코로나19 유행을 억제하려면 사회적 거리를 유지하는 정책이 유효하다고 한다. 하지만 지역 경제와 사회 운영 등을 고려하면 행정 어딘가 시점에선 규제를 푸는 판단을 내리지 않을 수 없다. 정책 결정권자는 새로운 증례 수와 사망자 수, 병상 상태 등 수치를 바탕으로 가능하면 코로나19 제2파가 오지 않게 신중하게 판단을 하고 있다.

하지만 코로나19로 인해 감염에서 발병까지 잠복기간과 발병 후 병원에 가서 검사를 받을 때까지 지연 등에 의해 발표된 감염자 수 등 정보는 2주 전에 행동 결과다. 다시 말해 증례 수와 사망자 수 같은 수치를 바탕으로 한 경보 시스템을 기반으로 대책을 시작해도 코로나19 유행을 막기에는 너무 늦을 수 있다.

이런 가운데 하버드대학과 노스이스턴대학 연구팀은 코로나19 유행이 발생한 건 2주 이상 전에 예측하는 알고리즘을 발표했다. 심사 전 논문을 투고하는 아카이브(arXiv)에 게시된 논문에 따르면 연구팀이 개발한 알고리즘은 구글 검색과 스마트폰 위치 정보, SNS 게시 등 여러 실시간 데이터를 분석하고 코로나19 유행을 예측하는 것이다. 2008년에는 구글 엔지니어가 피로감과 관절 통증, 타미플루 투약 등 단어별 검색 트렌드를 추적해 인플루엔자 유행을 예측하는 모델을 개발한 바 있다. 이 모델 자체는 그다지 정밀도가 높지 않았지만 많은 연구자가 실시간 데이터에 주목한 감염 유행 예측을 주시했다.

이번에 코로나19 유행 예측을 위해 개발한 새로운 알고리즘은 구글 검색 외에 위치 정보가 있는 코로나19 관련 트위터 게시물, 의사의 임상 진단 지원 도구, UpToDate 데이터, 스마트폰에서 수집한 익명 위치 정보 데이터, 스마트 체온계, 킨사 스마트 체온계(Kinsa Smart Thermometer)에서 업로드한 체온 데이터를 분석했다. 이들 데이터를 연구팀이 개발한 예측 모델과 결합, 코로나19 유행을 예측하는 구조다.

실제로 연구팀이 개발한 알고리즘을 이용해 2020년 3∼4월 미국 데이터를 분석하고 데이터 소스 가중치 등을 최적화한 결과 평균적으로 21일 전에 코로나19 유행 발생 수를 예측할 수 있었다고 한다.

하버드대학 연구팀은 대부분 감염 모델링에선 사전에 상정된 가정에 따라 다양한 시나리오를 예측하고 있지만 이 알고리즘은 가정을 세우지 않고 관찰하고 있다며 이 방법은 즉각적인 행동 변화에 반응하고 이를 예측에 통합할 수 있다고 밝히고 있다. 이번에 개발한 알고리즘은 기존 유행 감시 시스템 대체가 아니라 감시 시스템 결과에 대한 확신을 깊게 해줄 것이라는 지적이다. 정책 결정자는 알고리즘을 이용해 일주일 모습을 보는 게 아니라 지금 결단을 내리자는 판단을 할 수 있다는 것이다.

또 알고리즘은 조지 플로이드 사망과 관련해 미국 전역에서 발생한 시위처럼 앞으로 일어날 감염 확대로 이어질 이벤트에 대해선 예측할 수 없다. 또 소셜미디어와 검색엔진 단어에서 얻은 예측 정확도도 사람들이 질병에 익숙해질수록 감소할 가능성이 있다. 미 질병통제예방센터 CDC 등 보건기관도 소셜미디어 등 데이터를 참조하고 있지만 이런 데이터를 유행 예측 중심에 두지는 않는다. 한 전문가는 실시간 데이터를 이용한 새로운 코로나19 유행 예측 알고리즘이 중요하다는 사실을 인정하면서도 알고리즘이 잘못됐을 때 발생할 피해가 크다고 지적했다. 따라서 시간을 두고 알고리즘을 검증할 필요가 있다고 말한다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독