텍사스 오스틴대학 분자 생물 과학자인 이리야 핀켈스타인(Ilya Finkelstein) 교수 연구팀이 DNA 스토리지(DNA Storage) 저장 실험을 통해 에스페란토로 번역한 오즈의 마법사 전편을 어느 때보다 높은 정밀도로 보존하는데 성공했다.
DNA를 데이터 저장소로 하려는 시도는 이전부터 진행되어 왔으며 1988년 하버드 대학 실험이 이뤄지기도 했다. 이 실험에선 대장균 DNA 서열에 바이오아트로 알려진 조 데이비스 작품을 저장했다. 작품은 5×7매스 바둑판 모양으로 생명과 여성 중심의 지구에 대한 고대 룬 문장을 새긴 것이었다.
스토리지라면 하드디스크나 SSD, 플래시 메모리 등을 자주 이용한다. 하지만 하드디스크는 내부에 CD와 비슷하게 회전하는 디스크를 수납했고 표면에 데이터를 저장한다. DNA 스토리지는 나선형 모양을 형성하고 있다. 아데닌과 시토닌, 구아닌, 티민 4가지 뉴클레오티드 염기에 따라 특정 성질을 가진 합성 DNA를 화학적으로 만들 수 있다. 하드디스크는 바이너리 코드, 그러니까 데이터를 0과 1 이진수로 번역한 걸 이용하지만 DNA는 4가지 구성 요소가 있기 때문에 저장은 더 고밀도화된다.
지난 2013년 유럽생물정보학연구소는 마틴 루터킹의 유명한 연설문(I Have a Dream)과 셰익스피어 14행시 등 5개 파일을 DNA 가닥에 인코딩하는데 성공했다. 또 2016년 11월에는 MIT 스핀아웃 기업인 카탈로그가 로버트 프로스트의 시(The Road Not Taken)를 DNA 가닥에 영구 보존하는데 성공했다. 데이터량은 1KB였다. 같은해 마이크로소프트와 워싱턴대학 공동 연구팀에 의해 데이터화된 톨스토이의 전쟁과 평화 200MB가 DNA에 저장되기도 했다.
연구팀에 따르면 1티스푼 DNA에 의해 현재 기술로 데이터를 저장한다면 월마트 대형 매장 규모 데이터센터가 10개소 필요한 용량을 저장할 수 있다고 한다. DNA 스토리지의 장점은 공간 뿐 아니라 보존성에 있다. 1990년대 데이터 저장 주류로 이용한 CD-R은 보존성에 문제가 있다. 반면 DNA에 저장한 데이터는 수십만 년간 유지할 수 있다. 실제로 고고학에선 한때 무엇이었는지 이해하기 위해 DNA를 이용한다. 또 DNA를 읽고 쓰는 능력은 무용지물이 될 수 없다는 것도 장점이다.
물론 DNA 스토리지에도 단점이 있다. 가장 큰 문제는 비용. 2020년 현재 DNA 스토리지 기술은 하드디스크로 말하면 1980년대 애플이 선보인 하드디스크 20(Hard Disk 20) 같은 것이다. 하드디스크 20은 용량이 20MB, 가격은 1,495달러였다. 지금으로 따지면 350만원이 넘는다. 1바이트당 비용이 만만찮다.
2번째 단점은 오류가 발생하기 쉽다는 것이다. 평균적으로 DNA는 100에서 1,000까지 뉴클레오티드 염기에 의해 1개 돌연변이 그러니까 오류가 나온다. 다른 뉴클레오티드 염기를 대체 치환하는 돌연변이가 발생하면 DNA 사슬 길이는 동일하지만 염기 자체가 바뀌어 버린다. 또 여분 염기가 들어가거나 빠질 수도 있다. 이렇게 되면 DNA에 저장된 데이터 디코딩에 문제가 발생할 수 있다. 월드(World)라는 단어를 예로 들면 L이 빠지면 word가 되고 대신 S가 더해지면 Sword가 된다면 원래 단어를 아는 건 매우 어려워진다.
오류 발생에 대해 지금까지 DNA 스토리지는 코드를 10∼15회 반복해 극복해왔지만 이는 공간 낭비로 연구팀은 데이터를 격자 모양으로 구축하고 비트별로 다음 비트를 보강하는 형식을 취했다. 또 오류 극복 알고리즘을 개발하고 스토리지 효율성을 높였다고 한다. 다만 이번 실험 결과는 획기적이지만 상용화되려면 아직 10년 이상 걸릴 것으로 예측하고 있다. 관련 내용은 이곳에서 확인할 수 있다.