테크레시피

와이파이 이용한 물체 특정 연구에 오류 지적

최근에는 와이파이 전파를 이용해 벽 너머 사람 움직임을 모델링하거나 인물을 식별하는 기술 개발이 활발하게 이뤄지고 있다. 하지만 앨버타대학 연구자가 이런 연구에 대해 시계열 데이터를 취급하는 방법을 잘못하고 있다고 지적했다.

와이파이 채널 강도 지표 CSI를 이용해 인간 행동과 자세를 추정하는 연구는 최근 몇 년간 진행되고 있으며 일부 연구는 마치 카메라로 촬영한 영상을 보고 있는 것 같은 결과를 얻을 수 있다고 주장한다.

하지만 와이파이 CSI 관련 연구 논문 데이터를 조사한 연구팀은 시계열 데이터를 무작위로 학습 세트와 테스트 세트로 나누고 있는 게 확인됐다고 보고했다. 보통 기계학습에선 두 세트에서 데이터가 중복되어 모델 과다 학습이 발생해 지나치게 좋은 결과가 발생한다. 따라서 시계열 데이터 무작위 배분은 피해야 한다고 생각된다. 또 정사를 실시한 논문에선 시계열 데이터 배분에 관해선 논문 내 기재가 없었다고 한다.

더구나 이런 랜덤 배분을 했음에도 불구하고 이 방법이 기재되어 있지 않은 논문은 하나가 아니라고 지적한다. 이번 같은 방법 기재 누설이 의도적인 것인지 의문이 생긴다는 것이다.

논문 내 데이터 누설에 대해 슬프게도 학자 성공 척도는 저명한 저널에 게재된 논문량을 기반으로 한다며 수를 늘리기 위해 좋은 가감한 실험 방법이나 부정 행위, 방법 허위 표시를 조장할 가능성이 있다고 지적한다. 이번처럼 기계학습적으로 결함이 있는 접근을 채택한 논문 수가 최근 증가하기 때문에 단순한 연구 방법 기재 누설이 아니라 선행 연구 질을 웃도는 의도적인 전략일 가능성이 있다고 추측하고 있다.

또 이 방법을 취한 첫 논문으로 인해 나쁜 전례가 만들어져 버렸고 이후 결함이 있는 수많은 논문으로 이어졌다는 설명이다. 이런 논문을 검증하기 위해선 해당 연구에 사용된 코드를 조사해 랜덤 배분이 이뤄졌는지 확인해야 한다. 하지만 연구팀이 실험 소스 코드를 공개하는 건 드물며 검증하기가 어렵다.

더구나 특정 연구 분야에서 부정행위가 전파되고 있는 것에 대해 경종을 울리고 있다. 실제로 어떤 논문에서 사용된 코드를 입수해 검증을 실시한 결과 시계열 데이터가 랜덤으로 나뉜 걸 확인했다고 한다. 학술연구단체 IEEE에 반증을 제출하더라도 이 호소는 곧바로 철회됐다고 보고하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사