-
[양재혁의 바이오Talk 헬스Talk] 미래지향적인 의료 빅데이터의 활용에 대한 제언ARTICLE 2025. 1. 2. 15:04
필자는 지난 12월 26일(목) 건강보험 빅데이터 활용교육을 받았다. 이 교육은 국민건강보험공단의 빅데이터를 이용하거나 이용을 희망하는 연구자, 기업인, 학생 등을 위해서 마련된 교육이다.
우리나라의 거의 모든 한국인(약 97%)은 국민건강보험에 가입되어 있으며, 대부분 적어도 1년에 한 번은 의료서비스를 제공받는다.. 건강보험심사평가원(HIRA)에서는 데이터를 수집하고, 검토결과는 국민건강보험공단(NHIS)으로 전송된다. 건강보험공단에서는 이 데이터를 비식별화하여 공개하고 있는 것이다.
교육과정을 살펴보면, 건강보험 빅데이터 소개, 데이터 테이블 세부 레이아웃 소개, 분석사례를 통한 실습의 과정으로 구성되어 있다.
이 교육은 2014년부터 2023년까지 2500명 이상의 외부 연구자 등을 대상으로 교육을 지원했으며, 자료 제공 심의 건수가 2014년 68건에서 2023년 1,562건으로 23배 증가했다고 한다. 국민건강보험 공단에서는 최근 데이터 3법의 개정으로 산업계의 민간투자 연구지원에 대한 법적인 근거가 마련됨에 따라, 다양한 분야의 데이터 수요자들을 위한 교육도 준비 중에 있다.
전 국민 건강보험을 보유하고 있는 우리나라의 건강보험 데이터는 존재의 이유로도 가치가 매우 높다고 할 수 있다. 국민건강보험공단은 보건의료분야 정책, 학술, 산업 데이터 생태계 활성화에 기여하고 정부의 디지털 경제 활성화 정책을 지원하고 있다.
국민건강보험공단은 국민건강보험법 등에 따라 업무를 관장하거나 위탁받은 업무를 수행하는 과정에서 수집하고 축적된 데이터를 비식별조치 후 제공하고 있다. 2014년 처음으로 정책 학술용 국민건강정보자료를 제공하였으며, 2016년에는 분석센터를 설치하였다.. 2017년에는 원격연구(표본) 분석시스템을 오픈하였으며, 2019년에는 클라우드 (맞춤형)분석시스템을 운영하기 시작했다.
제공하는 데이터 베이스는 크게 두 가지 데이터베이스로 구분이 된다.
표본연구 DB와 맞춤형 연구 DB가 제공되고 있다.
표본연구 DB는 전 국민 건강보험 빅데이터를 기반으로 수요도가 높은 데이터를 표본 추출하여 정보주체를 알아볼 수 없도록 비식별 조치한 후 주제별로 규격화한 국민건강정보자료를 말한다. 개인 PC로 원격접속을 통하여 지정된 가상화룸에 접속하여 연구 분석을 할 수 있는 방법이며 최대 6개월까지 이용이 가능하다. 자료이용은 심의위원회 승인 후 이루어진다.
현재 이용가능한 표본연구 DB는 3종으로서
▷표본 코호트 DB(ver2.2)는 전국민중 약 100만 명에 대한 자격 및 소득 등 사회경제변수와 건강검진 결과 및 병/의원, 장기요양내역 등을 포함하고 있다.
▷건강검진 코호트 DB(ver 1.0)은 만 40-79세의 건강검진 수검자 중 51만 5천 명에 대한 의료이용, 검진 결과 등을 분석 가능한 데이터이다.
▷노인 코호트 DB(ver 1.0)는 68-80세 건강보험가입자 중 51만 명에 대한 자격 및 소득 등 사회경제적 변수와 병의원 이용 내역, 검강검진결과, 노인장기요양 이용내역등을 확인할 수 있다.
맞춤형 연구 DB는 신청자의 연구 목적에 따라 추출, 요약, 가공하고 비식별화한 국민건강정보자료를 제공하는 것으로서 모든 연구에 대해서는 원주에 있는 본부를 필히 방문하여 연구자료를 확인하게 되며, 이후 공단지정 분석센터 (원주, 서울, 대전 등)에서 공단 PC로 지정된 가상화룸에 접속하여 연구 분석할 수 있다.
전문가의 의견 ¹ 에 따르면 우리나라 건강보험 빅테이터에도 몇 가지 한계 점이 있다.
¹) Understanding and Utilizing Claim Data from the Korean National Health Insurance Service (NHIS) and Health Insurance Review & Assessment (HIRA) Database for Research
첫째, 청구데이터로서의 한계점이 있다. 청구데이터로서 보험에 가입된 건강보험 항목데이터만 기록하고 있다. 청구서에는 치료에 대한 결과로써의 데이터이기 때문에 환자의 증상, 검사, 진단, 치료, 예후 등 의학적 관점에서의 분석이 어렵다는 점이다. 건강보험 이외의 내용을 확인할 수 없으며, 여러 치료병원을 다닌 경우에 환자에 대한 다양한 의료기관의 복합적인 분석이 어렵다.
두 번째, 치료 후의 예후에 대한 데이터가 누락되는 사례가 매우 많다. 반면 병원에서 기록 중인 전자의무기록(EMR)에는 치료의 결과를 잘 담고 있다.
또한 건강보험심사평가원(HIRA)과 국민건강보험공단(NHIS)은 각각 데이터를 공유하고 있으며, 약간의 차이가 있다.
필자는 1일짜리 교육이지만 빅데이터 교육을 듣고 느낀 점이 몇 가지 있다.
먼저 질병을 바라보는 관점에 있어서 예방분야에 대한 데이터가 없다는 점이다. 아픈 사람들이 치료를 받은 청구서 관점에서의 데이터로서 초고령사회, 대한민국에서 중요시되고 있는 예방의학에 대한 데이터가 부족하다는 점이다. 예방의학의 관점에서의 데이터 수집을 위해서는 먼저 건강한 사람을 대상으로 하는 건강검진과 건강검진을 받은 사람이 치료를 받게 되기까지의 시계열 분석을 할 수 있는 데이터 수집 계획이 있어야 할 것이다. 또한 다양한 건강검진 기관에서 받은 건강검진 결과를 한 사람의 결과로 취합해서 활용할 수 있도록 하는 것도 필요해 보인다.
두 번째로 데이터의 수집 및 활용이 연구 및 정책활용에 맞추어져 있다는 점이다. 데이터시대, 인공지능 시대로 가고 있는 대한민국의 시점에서 업계를 통한 사업화에 대한 관점 변화가 필요해 보인다. 데이터 3법을 통한 작은 변화들이 시작되고 있다. 이러한 데이터의 활용에 다양하고 창의적인 아이디어들을 가진 기업인이 효과적인 솔루션을 만들어 낼 수 있으며, 이는 한국이 헬스케어시장을 주도할 수 있도록 하는 매우 중요한 디딤돌이 될 것이다.
세 번째, 표본 DB와 맞춤형 DB 등 다양하게 데이터를 제공하고 있지만 결국 SAS 같은 통계프로그램이나 파이썬이나 R과 같이 컴퓨터 프로그래밍 지식이 없으면 데이터를 가지고 연구하는데 제한이 있는 게 사실이다. 이를 해소하기 위해 요즘 많이 도입하고 있는 sLLM을 기술을 통해 대화형으로 쉽게 데이터를 접근하고 연구할 수 있는 환경도입이 필요하다.
sLLM(smaller Large Language Model)은 기존의 대규모 언어 모델(LLM) 보다 상대적으로 작은 크기를 가진 언어 모델을 뜻한다. sLLM은 회사나 특정 도메인에 맞는 모델로서 각광을 받고 있다. 예를 들자면 NVIDIA는 바이오모모라는 통합시스템 툴을 통해서 알파폴드를 비롯한 다양한 인공지능툴을 활용할 수 있도록 지원하고 있다. 이처럼 신속한 데이터 시대의 컴퓨팅 환경에 대한 대응 및 지원이 필요해 보인다.
데이터시대, 인공지능시대에 대다수의 전 국민 건강보험 빅데이터를 가지고 있다는 것은 참 큰 자랑거리이며, 미래를 열어가는 자산이다. 하지만 이러한 자산을 효율적으로 활용하고 이를 통한 부가가치를 확보하는 것 역시 현재를 살아가는 우리의 몫이다.
다양한 데이터가 생성되고, 이러한 데이터를 통해서 바이오헬스케어 산업이 활성화될 수 있도록 데이터 공개에 대한 새롭고 다양한 시도를 통해서 한국의료와 바이오헬스케어 산업의 성과와 위상을 높이는 계기가 되기를 기대해 본다.
글. (재)베스티안재단 이노베이션센터 양재혁 실장
'ARTICLE' 카테고리의 다른 글
[BOOK 신간소개] 기후 상처 (0) 2025.01.03 국내 피부 미용 트렌드를 주도할 더힐피부과의원 (하) (0) 2025.01.03 국내 피부미용의 선두 주자 더힐피부과의원 (상) (0) 2025.01.03 [의사가 들려주는 병원경영 이야기] 진통제보다 동물 친구들 • 미국의 헴비 어린이병원 (0) 2025.01.02 [Special Column] 건축과 의학이 새롭게 공존하는 유토피아적인 병원 (0) 2024.12.27 [INVITATION] 루프(Loops): 병원에서의 매혹적인 명상 경험 (0) 2024.12.27 [편집장 FOCUS] 2025 주목해야할 트렌드 인사이트 (0) 2024.12.27 [EXHIBITION] 행복을 찍는 사진작가, 안나 앤 다니엘 (0) 2024.12.27