테크레시피

기계학습용 데이터세트 검색하려면…데이터세트 서치

기계학습 알고리즘을 구축하는데 중요한 건 데이터세트다. 알고리즘 정확도를 높이기 위해선 더 많은 데이터와 시간이 요구되지만 충분히 큰 데이터세트를 모으거나 찾는 건 기계학습을 실시하는 데 고생하는 것 중 하나다. 구글이 이런 데이터세트를 온라인으로 검색할 수 있는 데이터세트 서치(Dataset Search) 정식판을 구글이 공개했다.

데이터세트를 검색하려면 입력란에 검색하려는 데이터세트 키워드를 입력하면 된다. 검색어를 넣으면 왼쪽에는 검색 결과, 오른쪽에는 선택한 검색 결과에 대한 자세한 정보가 표시된다. 페이지 링크나 데이터세트 검토, 출처, 원본, 라이선스, 다운로드 형식과 데이터세트 기간과 대상 지역 등도 나온다. 페이지 링크를 클릭하면 데이터세트 배포 페이지로 이동한다.

또 데이터세트 서치는 검색 결과에 데이터세트가 아닌 단순한 데이터베이스와 포털 사이트가 표시될 수 있다. 구글은 지난 1년간 진행해온 베타테스트를 마치고 1월 23일(현지시간)부터 서비스를 시작했다. 베타테스트 피드백을 통해 데이터세트 서치 정식 버전에선 데이터세트 업데이트와 다운로드 형식, 라이선스 무료 사용 여부 등을 검색 결과에 필터링하는 기능을 추가했다. 또 데이터세트가 지리에 관한 것일 경우 구글맵과 연동해 지도가 표시된다. 관련 내용은 이곳에서 확인할 수 있다.