薛萬國:醫(yī)院大數(shù)據(jù)中心建設的技術路徑
隨著大數(shù)據(jù)在醫(yī)療行業(yè)臨床診療、醫(yī)院管理、健康管理等領域應用熱度增加,越來越多醫(yī)院設立了大數(shù)據(jù)中心或者在信息中心基礎上開展了大數(shù)據(jù)的建設。在4月20日舉辦的北京衛(wèi)生信息技術協(xié)會(PHITA)上,解放軍總醫(yī)院醫(yī)療大數(shù)據(jù)中心主任、CHIMA副主任委員薛萬國詳細剖析了醫(yī)院大數(shù)據(jù)中心的技術路徑。他指出,醫(yī)院在建大數(shù)據(jù)中心或平臺時,首先要做好定位。
大數(shù)據(jù)中心三個定位:管理、處理和分析
薛萬國認為,大數(shù)據(jù)中心有三種定位:
第一, 數(shù)據(jù)資源管理,即把大數(shù)據(jù)整合管理起來提供數(shù)據(jù)資源服務,科室需要的數(shù)據(jù)經(jīng)過審批和授權后,由大數(shù)據(jù)中心提供,這是基本職能;
第二個,數(shù)據(jù)的處理和加工服務,根據(jù)臨床問題研究需要對原始數(shù)據(jù)進行處理,從中抽取一些特征,然后提供給臨床。
第三個,數(shù)據(jù)的分析服務,即按照科室的需求做數(shù)據(jù)的分析,比如病例分布、基于數(shù)據(jù)建立模型進行疾病和不良事件預測等。
薛萬國指出,大數(shù)據(jù)中心的定位不同,其職責也不同。如果大數(shù)據(jù)中心定位
大數(shù)據(jù)管理職能,有三個職責:第一,整合各個業(yè)務系統(tǒng)數(shù)據(jù);第二,形成長期的管理機制,即對歷史的、現(xiàn)在的數(shù)據(jù)資源進行一體化的管理;第三,根據(jù)臨床訪問需求,進行訪問授權。這一定位的工作平臺為數(shù)據(jù)整合平臺(ETL)、數(shù)據(jù)檢索系統(tǒng)、數(shù)據(jù)瀏覽系統(tǒng)和數(shù)據(jù)在線使用(虛擬桌面),所需人才為IT工程師。
如果大數(shù)據(jù)中心定位為加工中心,其職責主要是根據(jù)用戶需求,從原始數(shù)據(jù)加工生成特征數(shù)據(jù)。這一定位的工作平臺包含以下幾方面:第一,增加自然
語言處理工具;第二,建立專病數(shù)據(jù)庫的平臺,幫助一線的醫(yī)護人員或科研人員整理數(shù)據(jù);第三,建立組學數(shù)據(jù)等專業(yè)化技術平臺支撐特定數(shù)據(jù)的處理。該定位所需人才還是IT工程師 。
如果大數(shù)據(jù)中心定位為分析服務中心,其職責是為用戶提供數(shù)據(jù)分析服務,所需平臺除了數(shù)據(jù)檢索、加工分析外,還包括以下幾個方面:第一,各種類型的建模工具;第二,可視化平臺,通過圖表把數(shù)據(jù)分析結果更直觀的展示出來;第三,需建立大數(shù)據(jù)深度學習平臺。這時所需人才除了傳統(tǒng)的IT工程師,還需要專門的數(shù)據(jù)分析工程師。
薛萬國總結道,“大數(shù)據(jù)中心”有不同的內(nèi)涵,不同的職能定位對應不同的技術平臺與人才團隊建設內(nèi)容。在提出建設大數(shù)據(jù)中心規(guī)劃時,首先要明確大數(shù)據(jù)中心的職能定位。
整體預處理帶來信息缺失,建議采用“數(shù)據(jù)湖”
數(shù)據(jù)是否要做整體預處理一直是業(yè)界探討的話題。對此,薛萬國并不建議開展整體預處理。他指出,大數(shù)據(jù)中心數(shù)據(jù)處理有兩種流程:整體預處理和應用時預處理。通常情況下,整體預處理會帶來信息的損失,比如:病歷文本結構化的結果不能完整表達原病歷文本的語義;標準化(歸一化)可能導致特定信息丟失。同時,數(shù)據(jù)整體進行預處理在技術上也存在較大困難,包括歷史數(shù)據(jù)不一致、整體結構化困難等。
因此,他建議采用應用時預處理的方式,即采用“數(shù)據(jù)湖”概念,保留數(shù)據(jù)的原始性,針對特定研究問題開展數(shù)據(jù)預處理是更好的選擇。
依托原始數(shù)據(jù)開展研究
薛萬國強調(diào),臨床數(shù)據(jù)研究有兩種路徑:專病數(shù)據(jù)庫路徑和按需從原始數(shù)據(jù)特征提取路徑。
針對建立科研病種數(shù)據(jù)庫是否是臨床數(shù)據(jù)研究的必然選擇這個話題,他指出,科研數(shù)據(jù)庫有其局限性,表現(xiàn)為:單一研究目的的科研病種數(shù)據(jù)庫是以特定問題為導向收集病種數(shù)據(jù);而泛研究目的的數(shù)據(jù)庫涉及數(shù)據(jù)項多,結構復雜,人工加工工作量巨大,持續(xù)難度大,針對問題分析時需要二次加工。“因此,在現(xiàn)實研究實踐中,特別是在回顧性研究中,更多地采用直接依托原始數(shù)據(jù)的方式。”他談到。
薛萬國在演講時提到,醫(yī)療大數(shù)據(jù)平臺既面向一線臨床研究人員的需求,也面向數(shù)據(jù)處理分析人員的需求,數(shù)據(jù)在數(shù)據(jù)檢索、數(shù)據(jù)處理、數(shù)據(jù)分析和專病系統(tǒng)中的適宜形態(tài)也各不相同。“它是一個多種技術形態(tài)并存、多樣化功能協(xié)作的異構系統(tǒng),因此數(shù)據(jù)管理技術選擇要考慮生態(tài),避免生搬硬套。”他總結道。