易應萍:源于醫療大數據的科研思路
當前,醫療大數據在臨床研究、人工智能、精細化管理等獲得了越來越廣泛的應用,為臨床決策和醫院管理提供了強有力的數據支撐。在CHIMA 2021大會上,江西省醫療大數據工程技術研究中心主任及南昌大學第二附屬醫院(以下簡稱“南昌大學二附院”)大數據中心常務副主任易應萍詳細闡述了醫療大數據在科研的應用。
江西省醫療大數據工程技術研究中心主任及南昌大學第二附屬醫院大數據中心常務副主任 易應萍
以下內容根據易應萍主任演講整理。
大數據是指所涉及的數據量規模大到超出傳統數據管理工具的處理能力,無法在合理時間內進行擷取、管理、分析的復雜、大規模數據集合,具有超量、種類繁多、高速、真實性、有價值等五V特征。醫療大數據,即臨床醫療中所產生的海量數據,主要來源于電子病歷、醫囑、檢查、檢驗等,符合大數據的五V特征。
醫療大數據和人工智能是密不可分的。人工智能醫療產業是人工智能技術應用的一個細分領域,其產業鏈包括網絡、算法、硬件鋪設和數據獲取的基礎層,模擬人工智能相關特征構建路徑的技術層,以及集成人工智能技術面向特定場景的應用層。
科研是一種思維方式及解決問題的能力。目前,南昌大學二附院醫療大數據研究方向主要包括隊列研究、人工智能、智慧管理。
1.隊列研究。一般是前瞻性和回顧性研究,是將某一特定人群按是否暴露于某可疑因素或暴露程度分為不同的亞組,追蹤觀察兩組或多組成員結局發生的情況,比較各組之間結局發生率的差異,從而判定這些因素與該結局之間有無因果關聯及關聯程度的一種觀察性研究方法,主要涉及臨床療效、疾病診斷、病因/風險因素研究、疾病預防等臨床問題。平臺上線2年來,南昌大學二附院科研工作者已在平臺上建立臨床隊列研究1086個,科研項目600余項。
2.人工智能。主要用于影像輔助診斷、疾病風險預測等。在臨床的應用分為應用研究和技術研究兩個方向。應用研究包括基于XGboost的首次腦梗后再入院預測模型研究、基于BPNN的腦卒中后肺部感染預測模型研究、基于大數據的臨床路徑挖掘模型和基于CYP2C19基因和尿11-dhTxB2檢測技術的精準用藥平臺。技術研究主要是基于江西醫療大數據平臺的腦卒中電子病歷自然語言抽取模型和實體庫建設、基于隨機森林的醫療缺失值填補研究。
3.智慧管理。主要是醫療質量、運營、績效、風險管理。包括基于醫療大數據挖掘的臨床路徑構建方法研究、基于大數據的醫療投訴風險分析及預測和醫院精益管理。
南昌大學二附院于2017年完成大數據平臺建設,平臺采用基于X86架構的分布式計算集群,具有286個CPU核心、2T內存、808T存儲的計算資源。基于該融合集群建立了臨床數據中心、影像數據中心、基因數據中心,并從臨床系統、醫療儀器實時接入、處理各類數據,為醫院科研、臨床、運營提供了強大的數據支撐。在數據治理方面,醫院進行了主索引合并、結構化、標準化和質量控制,目前的治理成果是完成了醫院78個業務系統,總計過往醫院15年15.3億條數據的治理,形成清洗后、結構化、標準化數據11.1億條。
研究團隊成員的專業涉及計算機學、臨床醫學、生物信息學、統計學、數學等學科,實現了合作交叉。醫院的大數據研究團隊是以研究項目為基礎建立的,比如《腦血管病抗血小板治療智能化決策體系建立》這一研究是國家重大慢性非傳染性疾病防控研究專項,為前瞻性、大樣本注冊研究和隨訪研究。大數據中心與神經內科合作,共同完成了該課題。
南昌大學二附院大數據研究主要采取的是統計學方法和機器學習方法。統計學方法主要包括Logistic回歸、Cox回歸和線性回歸三方面。機器學習方法主要有單一機器學習方法、深度機器學習方法和集成機器學習方法。
創新是科研的靈魂。創新思路主要體現為以下方面:大數據平臺的構架、數據匯聚方法、質量控制、算力的提高等方面;數據治理技術、方法,主要為標準、非結構化(自然語言)處理技術、數據缺失值的處理方法等;Lasso回歸、Ridge回歸、RFE等特征選擇;PCA、LDA等特征降維;邏輯回歸、決策樹、集成算法(RandomForest、Adboost、Xgboost、LightGBM等)、神經網絡(BP、CNN、RNN、LSTM)、遷移學習等算法應用;模型的臨床應用。
項目創新主要包括原始創新、集成創新、引進消化吸收再創新:原始創新是指“元創新”(meta-innovation),即是一種觀念上的根本性創新;集成創新是在算法模型構建時,在不同的階段采用不同的算法以解決不同的問題,如采用CNN與NLP技術對原始數據進行結構化處理,并采用LightGBM進行模型構建;引進消化吸收創新是指引進已經存在的知識對不同但是相關領域的問題的求解以及進一步修正的創新,遷移學習是一種將已經訓練好的算法模型遷移至擬解決的問題上加以學習和優化。
目前,醫療大數據及人工智能研究主要面臨以下挑戰:
1.數據質量不高。因為數據缺失情況導致數據完整性不夠高,數據質控流程不完善、影像報告判讀帶有主觀性等原因導致數據不夠準確。
2.數據開放共享程度低。由于醫療數據歸屬權不明晰,使用利益分配問題、使用過程中個人隱私保護、86%機構擔心數據流通過程中存在數據泄漏風險等問題,制約了醫院數據開放共享。醫院沒有動力開放電子病歷、影像庫及病理庫等相關醫療數據,一定程度上造成醫院內部數據以“信息孤島”的形式存在。數據的共享模式可分為合作共享、開放共享和交易共享:合作共享是以完成某項研究為目標實現數據共享;開放共享是將機構數據變成公共資源實現數據共享;交易共享是指數據脫敏后保證數據安全的基礎上可以交易。
3.數據使用的倫理性。主要體現為以下幾個方面:臨床診療過程中患者數據采集是否需要患者簽署數據采集知情同意書?研究型醫療機構通過哪種方式合法采集患者數據用于未來研究?臨床研究征得知情同意的例外主要有以下兩種情況:對于產品上市后研究,以驗證產品安全性和有效性為目的,在數據去標識化的前提下,相關申辦者不需要獲得受試者知情同意;申辦者出于公共利益開展統計或學術研究所必要且其對外提供學術研究或描述的結果時,對結果中所包含的個人信息進行去標識化處理的,不需要獲得受試者知情同意。
以下情況可以向倫理委員會申請知情同意豁免:受試者可能遭受的風險不超過最低限度;豁免征得受試者的知情同意并不會對受試者的權益產生負面影響;對于回顧性研究,已無法追溯到患者,或獲取受試者知情同意代價太高,在數據去標識化的前提下,可以申請知情同意豁免;對于回顧性研究,主體已簽署知情同意書,范圍包含現有范圍,在數據去標識化的前提下,可以申請知情同意豁免。
(本文由CHIMA秘書處楊永燕整理)
上一篇: 姚剛:武漢同濟醫院互聯網醫院的生態構建
下一篇: 王立軍:腫瘤專科單病種管理系統設計與建設