“유전체(게놈) 분석, 모바일 디바이스 센서에서 나오는 건강 데이터 등 이른바 바이오 마커(Bio Marker) 데이터를 기계학습(머신러닝)에 적용해 3중 음성 유방암 환자를 자동으로 식별하는 연구를 올해 시작했습니다. 이런 연구 성과가 쌓이면 언젠가는 지금까지 밝혀지지 않았던 암 유발 바이오 마커를 찾아낼 수도 있을 것입니다.”
지난 3일 서울 중구 소공동 웨스틴조선호텔에서 '지능정보기술이 열어가는 미래 헬스케어'라는 주제로 열린 '헬스케어 이노베이션 포럼 2016'에 기조 강연을 위해 참석한 데이비드 리(David Lee, 사진) 메디데이터 최고데이터책임자(CDO)는 강연 후 조선비즈와의 인터뷰에서 "스마트 워치나 각종 웨어러블 디바이스에 부착된 건강 관련 센서에서 나오는 데이터가 앞으로 정밀 의료(Precision Medicine)에서 매우 중요한 역할을 할 것"이라며 이같이 말했다.
리 CDO는 “아직 시기가 이르지만 모바일 디바이스에서 나오는 건강 관련 데이터가 축적되면 전체 인류를 위해 큰 효용이 있을 것”이라며 “특정 질병을 유발하는 유전체 바이오마커를 ‘자동으로’ 발견해주는(Automatic Process of Genomic Biomarker Discovery) 알고리즘이 만들어질 것”이라고 말했다. 다음은 일문일답.
― 최고데이터책임자(CDO)라는 직책 자체가 낯설다. CDO라는 직책을 두는 것은 세계적인 트렌드인가.
“정확하진 않지만 전세계에서 2014년 기준 CDO라는 직책을 가진 사람은 30여명 안쪽에 불과했다. 정보와 데이터가 비즈니스가 되는 세상에서 얼마 전까지만 해도 데이터를 총괄하는 직책이 많지 않았던 것이다. 하지만 현재는 수백 명에 달한다. 과거에는 정보를 생산하는 데 가치를 뒀지만 이제 이 정보에 비전을 담고 가치 있는 데이터를 추출하는 게 중요해졌기 때문이다.”
― 빅데이터를 임상 시험에 적용하는 데 있어서만큼은 독보적인 기업이 메디데이터라고 들었다. 구체적으로 빅데이터는 임상에서 어떤 과정을 거쳐 적용되나.
“우선 임상 시험을 하는 제약사는 다양한 데이터를 수집한다. 임상에 참여한 환자의 혈압이나 체중, 인구통계학적 요소인 나이, 성별, 인종 등이다. 종양의 경우에는 종양 크기가 시간에 따라 얼마나 줄어들었는지 등의 데이터도 있다. 제약사가 임상을 허가받기 위해 규제 기관에 제출하는 데이터를 메디데이터가 저장한다. 여기에는 의료진이 임상 환자의 데이터를 입력한 시기, 환자 모집 시기, 첫 환자 모집부터 마지막 환자 모집까지 걸리는 시간 등도 포함된다.
이렇게 모인 데이터는 크게 두 개의 과정을 거쳐 실제 임상에 적용된다. ‘데이터 오퍼레이션(Data Operation)’과 ‘데이터 사이언스(Data Science)’다. 데이터 오퍼레이션을 통해서는 수집된 원래 데이터를 가공하고 표준화 작업을 한다. 임상 시험 제약사(고객)가 원하는 정보를 쉽게 볼 수 있는 유저인터페이스(User Interface) 도구로 만든다. 데이터 사이언스 쪽에서는 이렇게 가공되고 표준화된 데이터를 분석할 수 있는 적절한 알고리즘을 만든다. 임상 과정에서 필요한 의사결정에 중요한 정보를 제공해 주는 역할이다.”
― 빅데이터를 바탕으로 기계학습(머신 러닝) 기술을 적용하는 것으로 알고 있다. 앞으로 어떤 일이 가능해지나.
"3중 음성 유방암은 3가지 호르몬 수용체가 발현되지 않는 공격적인 유방암으로 전체 유방암의 10~20%를 차지한다. 그러나 마땅한 치료제가 없는데다가 조기 발견이 어려워 치료가 까다로운 게 특징이다.
모바일 헬스 디바이스에서 나오는 데이터를 이용해 3중 음성 유방암 환자를 식별하는 임상을 현재 진행중이다. 기계학습(머신러닝)을 통해 자동으로 이런 환자들을 걸러주는 알고리즘을 생산하는 실험을 하고 있다. 이렇게 연구하다 보면 특정 질병을 유발하는 바이오마커 중 아직까지 밝혀지지 않은 바이오마커를 발견할 수도 있을 것으로 기대한다.”
― 임상에 참여하는 환자의 데이터나 모바일 디바이스를 통해 얻는 건강 관련 데이터는 모두 개인정보다. 한국의 경우 규제로 인해 건강 관련 개인정보를 활용하기 쉽지 않다.
“환자가 임상에서 제공하는 데이터의 경우 연구 목적으로 활용되는 데 대한 동의와 기증 여부에 서명한 데이터를 활용한다. 임상 참여 환자들이 개인 정보를 과학 연구를 위해 기부하는 방식이다. 자신의 개인정보가 질병 연구에 활용되는 데 동의하는 사람들이 많아지고 있다. 그것이 공익을 실현하는 사회 자산이 될 수 있다는 것을 알기 때문이다.”
― 빅데이터를 적용한 정밀의료를 구현하는 데 현재 가장 큰 걸림돌은 무엇인가.
“개인 맞춤형 약물과 치료법을 제공하는 정밀의료를 구현하는 것 자체가 가장 어려운 도전 과제다. 즉 과학과 연구가 가장 어렵다는 의미다. 알파고는 바둑판에서 둘 수 있는 착점이 제한적이지만 암이나 질병은 수백 개의 ‘타입(Type)’이 존재한다.
빅데이터를 활용한 정밀의료를 받아들이지 않는 보수적인 의료계의 분위기도 바뀌어야 한다. 의료계는 수십 년 동안 해왔던 방식이 통했기 때문에 잘 바뀌지 않는다. 그러나 질병 치료 성공률을 높이고 생명과학의 진전을 위해서는 변화해야 한다. 기술을 빠르게 채택하고 적용하는 게 관건이다.“
김민수 기자