-
[양재혁의 바이오Talk 헬스Talk] 데이터시대와 인공지능volume.50 2024. 9. 2. 21:33
최근 필자는 모두의 연구소와 네이버커넥트재단이 주최하는 ‘데이터사이언스 2024’ 교육에 참가했다. 온라인으로 진행되는 교육이었는데 참가자가 1570명이나 되는 대형 교육프로그램이다.
이번 교육 과정은 박조은이라는 프로그래머 선생님의 온라인 교육과정을 기본으로 하고 있는데 이번 교육과정은 4주간에 걸친 프로그램으로서 1주차에서는 데이터 분석환경을 구성하는 과정을 배웠다.
본인이 가지고 있는 컴퓨터의 환경을 갖추게 되는 것인데, 사용자가 쉽게 파이썬 등 관련 프로그램을 쉽게 사용할 수 있도록 환경을 만들어주는 아나콘다에 대해서 알려준다. 그중에서도 사용하기 편한 주피터 노트북이라는 프로그램에 대해서 설명해준다. 또 하나는 어느 분야에나 있는 족보에 대해서 설명해주는데 파이썬에서 제일 중요한 프로그램 요소인 판다스라는 프로그램의 ‘치트시트’에 대해서 설명한다. 이 치트시트에는 판다스에서 기본이 되는 프로그램 활용법에 대해서 구체적으로 제시하고 있는 정보이다.
2주차에서는 서울의 종합병원 분포하기라는 과목으로 공공데이터 포털을 통해서 공공데이터를 다운받아서 데이터를 사용할 수 있도록 전처리라는 과정을 거치는 것부터 시작한다. 전처리를 마친 데이터에 대해서는 기술통계값을 보는 방법에 대해서 배우고 수집된 데이터를 정보제공자 입장에서 쉽게 파악할 수 있도록 하는 ‘데이터 시각화’라는 과정을 통해서 표현하는 내용을 배운다. 재미있는 것은 여기에 나오는 데이터의 위도와 경도를 통해서 지도에도 관련 내용을 표시할 수 있다.
3주차는 건강검진 데이터로 가설 검증하는 것을 직접 해보는 내용이다. 선정된 건강검진 데이터 셋을 파이선에 로드하고 데이터 분석에 대한 가설을 세우는 내용을 배운다. 그다음에는 데이터의 결측치(빠진 값)를 확인하고 요약하는 법과 집계하는 방법을 배운다. 이후에는 다양한 집계연산을 배운다. 엑셀에서 한 번쯤 사용해 본 피벗기능을 생각하면 된다. 그리고 히스토그램이라든가 막대그래프, 수치형 그래프, 상자형 그래프 등등 다양한 그래프를 통해서 정보를 효율적으로 제공하는 방법에 대해서 배웠다.
4주차에는 지금까지 배운 것을 기반으로 K-beauty 온라인 판매분석을 하는 전 과정을 실습하게 된다.
국가통계포털에서 다운로드하고, 전처리 과정을 통해서 데이터를 분석할 수 있는 과정을 거친다. 데이터중에 분석을 위해서 데이터를 분리하기도 하고 데이터의 타입을 바꾸기도 한다. 전체 상품별 연도별 추이를 그래프만으로도 분석할 수 있도록 시각화를 해본다. 다양한 그룹별 데이터를 분석하기 위한 히트맵이라는 그래프도 함께 그려 보았다.
이번 교육을 참가하면서 느낀 점은 두 가지다.
첫 번째로 공부하기에 환경이 너무 좋다는 점이 제일 먼저 드는 생각이었다. 뛰어난 선생님이 사전에 만들어 놓은 환경과 온라인에서 과업을 수행하는 과정을 모니터링할 수 있는 관리시스템 그리고 마지막으로 천명이 넘는 교육생 전체가 소통하고 과제를 제출하는 채널을 IT업계에서 많이 사용하는 슬랙(slack)을 활용했다.
그리고 교육 중에는 선생님이 직접 과제를 해결하기 위해서 챗-GPT나 바드 같은 생성형 언어모델 AI(이하 LLM)을 활용하는 방법까지 직접 시연해보고 알려준다. 스스로 배우려는 노력이 중요한 시대가 되었다.
두 번째는 이제 중요한 것은 각각 자기 분야의 데이터 구축이 아닌가 생각을 해본다. 이제 마음만 먹으면 분석하고 데이터의 활용할 수 있다. 자기만의 비즈니스 모델을 만들고 경쟁하기 위해서는 데이터를 구축해야 한다는 뜻이다.
이렇듯 데이터가 중요해지고 데이터의 수집 이후에는 인공지능을 활용하여 비즈니스 모델까지 만드는 단계로 다양해지고 있다.
필자는 코로나 기간 동안 한국방송통신대학교 통계데이터학과 3학년 편입으로 ‘통계데이터학과’를 다니게 되면서 데이터의 중요성에 대해서 깨닫게 되었고 인공지능시대를 살아가기 위한 방안에 대해서 고민하기 시작했다.
졸업 후에도 진행되는 “일요일은 AI”라는 스터디를 꾸준히 참가해서 최근 동향을 파악하고 있다.
어제의 스터디 발표 주제는 아마존에서 제공하는 LLM서비스와 클라우드 제품에 대한 소개가 있었다. 벌써 많은 기업들은 아마존이 제공하는 서비스와 클라우드상에서 제공하는 컴퓨터를 통해서 직접 서비스를 제작하고 고객들에게 서비스할 수 있는 상황까지 마주하게 되었다.
아마존은 Amaxon bedrock이라는 서비스를 제공하고 있는데 아마존에서 제공하는 LLM 8개를 포함해서 메타 등 다양한 서비스를 API를 통해서 사용자가 적합한 LLM을 사용할 수 있도록 하고 있다. Amazon SageMaker 서비스에서는 LLM모델을 포함한 러닝모델을 구축하고 훈련하고 배포할 수 있는 관리형 플랫폼도 제공하고 있다. 이를 통해서 LLM기반의 대화형 챗봇을 쉽게 구축할 수도 있다.
우리가 생각하는 것보다 매우 빠르게 인공지능 세상의 소용돌이에 빠져들어가는 형국이라고 말할 수 있는 상황이다. 이런 상황에서 LLM모델을 선두로 한 인공지능 기술들은 각 도메인(산업군)에 들어가기 시작하고 있다.
바이오분야의 대표적인 사례는 바로 Nvidia의 BioNemo다. 신약개발을 위한 생성형 AI 플랫폼으로 자체 데이터를 사용하여 모델 훈련을 단순화하고 신약개발 애플리케이션을 위한 모델 배포 확장을 할 수 있는 시스템을 갖춘 것이다.
엔비지다 바이오네모 LLM 서비스에는 생물학, 화학분야 전용 애플리케이션용 LLM모들을 사용하기 원하는 개발자를 위해서 사전 훈련된 언어모델 4종을 제공한다. 단백질 모델링 툴인 오픈폴드, 14억 개 분자로 훈련된 화학모델인 메가몰바트, 메타 AI연구소가 제공하는 단백질 LLM인 ESM-1, 엔비디아와 뮌헨공대의 로스트랩이 함께 만든 단백질+시퀀싱까지 확장한 프롯 T5등이 그것이다.
신약개발연구를 지원하기 위해서 엔비디아의 바이오네모를 도입하는 회사가 늘어나고 있으며, 대표적인 회사가 아스트라제네카다. 여기서 머무르지 않고 MIT와 하버드 브로드 연구는 엔비디아와 하메 차세대 DNA언어모델 개발도 진행 중이다.
이러한 글로벌 환경상황은 말 그대로 전쟁터이며, 다양한 생성형 AI모델들이 이합집산과 경쟁을 하고 있다.
이러한 환경에서 우리는 무엇을 해야 할까?
먼저, 데이터 전문가의 양성이 우선 되어야 하겠다. 바이오전공자를 대상으로 인공지능 교육, 데이터 사이언스 교육이 필요하다고 본다.
두 번째로 우리의 데이터를 구축이 필요하다. 데이터 구축이 용이한 환경과 데이터 통합을 통해서 유의미한 정보를 생산하는 것은 미래를 위한 투자라고 보아야 하겠다.
세 번째로는 거대한 생성형 AI모델과 협력할 수 있는 전략적인 유용성이 필요하다. 우리가 생성형 AI를 구축하기보다는 구축된 환경을 효율적으로 이용하는 전략을 써야 한다는 점이다.
네 번째로 각 분야별 협의체가 구성되어야 한다. 대표적으로 신약개발분야에서는 한국제약바이오협회가 AI신약융합연구원을 설립하고 관련 업계의 협의체를 실질적으로 지원하고 있다.
인공지능시대에 우리가 무엇을 할까에 대한 고민은 관련업계의 진행상황에 대한 관심이 시작이다.
글. (재)베스티안재단 양재혁 실장'volume.50' 카테고리의 다른 글
[ISSUE] <공간은 어떻게 삶을 치유하는가> 출판 기념회 (0) 2024.09.02 [의사가 들려주는 병원경영 이야기] 의료기관의 Medical marketing 전략과 이론에 대하여 (0) 2024.09.02 [Special Column] 안뜰을 중심으로 펼쳐진 고요한 공간적 쾌감 (0) 2024.09.02 [BOOK 신간 소개] 우리 집밥해 먹지 않을래요? : 나는 왜 집밥하는 의사가 됐는가 (0) 2024.09.02 [송창민 푸드애널리스트의 건강한 맛집] 반드시 필요한 휴식, 맛있고 편하게 쉬자! (0) 2024.09.02 [헬스케어 트렌드] 여의나루역에 러너들을 위한 특별한 공간, 러너스테이션 오픈! (0) 2024.08.31 [이수경 원장의 행복을 주는 건강 코칭] 선택 (0) 2024.08.31 [알림] 새 칼럼니스트를 찾습니다 (0) 2024.08.05