廣州醫科大學附屬第二醫院:構建大數據科研平臺實現“一站式”工作模式【CHIMA 2019案例分享】
案例提供:廣州醫科大學附屬第二醫院
案例概要
廣州醫科大學附屬第二醫院(簡稱廣醫二院),是一所集醫、教、研于一體的大型三甲綜合醫院,也是廣州市重要的醫療診治、醫學教育及醫學研究機構。尤其在科研方面,過去十年,在神經內科、心血管疾病、外科學、急診醫學都多個領域都取得了重大突破,建立了數個重點學科及重點實驗室,并獲得各級課題立項超600余項,為醫院的綜合實力提升做出了巨大貢獻。
但與此同時,傳統科研模式中存在的數據獲取難、統計分析難、論文總結難等弊端,也一直困擾著臨床醫生,成為阻礙科研工作進一步發展的最大壁壘。亟需找到一種方法,來緩解日益增長的科研需求與數據挖掘利用困難之間的矛盾,簡化科研流程、提高科研效率,加速成果轉化。
在此背景下,我院基于原有數據中心,建立了大數據科研分析平臺。該平臺是以智能醫學數據中臺為基礎,通過數據采集、治理,以及自然語言分詞、機器學習、知識圖譜等大數據處理和建模技術,整合并挖掘院內電子病歷、檢驗檢查、醫療影像、基因序列以及院外隨訪、課題數據庫等在內的海量醫療數據,構建以疾病為中心、具有完整時間序列的高質量專病數據庫;并利用機器學習算法及統計分析模型等,實現對數據的深度解析與可視化,形成覆蓋從科研構思到數據統計分析的全流程“一站式”工作模式。此外,還可以通過大數據分析提取出疾病重點特征,訓練智能預測引擎,實現對疾病危險因素的預測等,促使科研成果有效轉化臨床,提升醫療服務質量。
智能醫學數據中臺架構如下圖所示:
解決的主要問題
1.輔助科研構思
傳統模式下,科研人員在面對雜亂無章的海量數據時,往往很難在第一時間發現數據潛在的關聯關系,提出有效的科研假設;同時,也無法在實驗開始前驗證研究思路的可行性,存在后期因數據質量等問題導致實驗失敗的風險。基于此,大數據科研分析平臺通過文獻復習、數據回顧和可行性研究三種路徑,在實驗設計階段即幫助科研人員很好地解決了上述問題。
(1)文獻復習:通過平臺知識庫,可以讓醫生方便地查找相關文獻,了解研究現狀及最新發展;
(2)數據回顧:通過對全院或各科室門急診人次、住院人次、時間分布等情況的回顧統計,或對患者分布、疾病分布等進行多維特征分析,可以快速找出其中隱含的知識或規律,幫助創新科研思路;
(3)可行性研究:在統計學處理模塊,系統可對所選變量的數據完整度進行預覽,若數據缺失程度過高,則認為該統計結果不成立,需要重新調整或改變研究思路,提高實驗成功幾率。
2.輔助數據獲取
以往科研數據絕大部分都是基于CRF表格,通過臨床科室與信息科、檔案室、統計室等協調后傳遞給醫生,數據還有可能不合要求,費時費力且效果不佳。大數據科研分析平臺通過集成院內外全量疾病相關數據,可實現多種形式、不同維度的數據實時檢索,查詢結果秒級返回,召回率可達90%以上,大大提高了數據獲取的效率及準確性。
3.輔助數據處理
由于病歷中存在著大量自由文本數據,無法直接用于科研,依靠人工轉錄不僅耗時耗力且極容易出錯。利用大數據科研分析平臺的自然語言處理、數據歸一等技術,則可輕松實現對數據的后結構化處理,以及標準化、清洗、量化等,形成計算機可識別、可利用的有效信息。
4.輔助統計分析
統計分析是科研活動中的環節關鍵之一,也是制約科研產出的主要壁壘。以往醫生通常需要手工采集、導出數據,處理后再導入SPSS/SAS進行統計學分析,過程繁瑣且容易出現錯誤。大數據科研分析平臺通過集成R算法,可根據課題研究目的及分組情況自動選擇合適的統計模型,包括比較均值分析、非參檢驗、回歸分析、相關性分析等,有效提升了科研效率及質量。
5.輔助數據質控
臨床科研對數據質量有著極高的要求,但實際中的數據卻存在很多問題,如:數據表示不統一,數據不一致、不完整,錯誤數據等,嚴重影響著其在疾控、臨床、疾病預測等方面的適用性。大數據科研分析平臺可提供對科研全變量的實時數據質控,包括數據缺失、異常值等,為醫生選擇科研統計指標提供參照,避免到研究終末階段因數據質量不合格導致數據重復采集和研究周期拉長等問題。同時,還可將問題溯源至原始病歷,促進病歷書寫質量的改進,從而提升科研數據采集質量。
數據內容
我院利用大數據臨床科研平臺,將院內數據(醫院數據中心HDR)與課題數據庫集成后,經過整合、清洗、標記、解析、對齊等數據處理和自然語言分詞后,輸入到數據中臺,可方便醫生通過科研平臺直接進行研究人群的篩選、確定、關聯分析,以及對數據質量的核對、統計建模分析等。
截至目前,我院大數據科研平臺已累積經過規范化處理的住院患者232,813人次,門診患者9,253,814人次,覆蓋包括病歷文書、醫囑、檢驗檢查報告、課題隨訪數據等在內的37種文檔類型,總量達36,688,402份。平臺開放變量4000余維,其中經過自然語言處理之后的變量可占80%。
平臺目前已開通醫生使用賬號336個,輔助醫生搭建完成專病庫200多個,研究課題10余項,累計登錄次數達2500余次。與傳統人工操作相比,無論數據質量、科研效率及還是成果產出,均有明顯提升。
關鍵技術
1.多層次醫療術語抽取技術
基于對病歷數據的深入理解,設計了一種基于多層次醫療術語抽取技術的醫學自然語言處理方法,以實現對病歷自由文本的語義分詞。語義分詞與傳統標簽分詞的區別主要體現在病歷數據本身復雜的分級結構上,傳統標簽分詞是實體抽取,詞性標注,缺乏上下文語義性關聯,語義分詞則能達到串聯病歷復雜分級結構的效果。如:10年前,患者的癥狀是什么?癥狀的持續時間多長?恢復方式是什么?近期又是什么臨床表現?
2.數據歸一
“數據歸一”是保證數據檢索快速、精準的必不可少的核心工作,包含診斷、實驗室檢查、手術名稱、藥物名稱等專用名詞的歸一。由于病歷會持續產生新的非標準詞匯,需要一個增量模式去擴展詞庫。平臺以標準詞匯庫為中心,對病歷中出現的非標準醫療詞匯,通過機器學習技術和人工標注相結合,將意義相同的醫療詞匯進行歸一處理,持續擴大詞庫,滿足動態變化需求。
3.醫療知識圖譜構建與應用
醫療知識圖譜,是在醫療命名、實體及其屬性信息抽取的基礎上,構建出的不同命名實體之間的關聯模型。平臺針對醫療數據跨語種、專業性強、結構復雜等特點,利用馬爾可夫隨機場、貝葉斯網絡等概率圖模型方法,從大量結構化、非結構化的醫學數據中提取出實體、關系、屬性等知識圖譜的組成元素,以合理高效的方式存入知識庫;并對知識庫內容進行消歧和鏈接處理,大大增強了其內部邏輯性與表達能力。通過知識圖譜,可以完成知識推理,輔助疾病診斷、治療等。
4.統計分析R語言的無縫接入
R是一套完整的數據處理、計算和制圖的開源軟件系統,功能包括:數據存儲和處理;數組運算;完整連貫的統計分析工具;優秀的統計制圖功能;簡便強大的編程語言。鑒于其開源性和在統計分析方面的強大優勢,大數據科研分析平臺無縫接入R語言,實現多種醫學常用統計分析方法及決策樹和主成分分析等數據挖掘算法,保證科研過程流暢性的同時,也提高了研究過程數據階段分析的可行性,降低了臨床研究人員使用統計工具的門檻。
成果成效
1.“一站式”科研工作模式
(1)研究對象篩選:支持多種篩選模式靈活組合,可自助篩選研究對象,并根據入排條件動態更新研究對象數量;
(2)確定課題信息并建立研究分組:完成對象篩選后,需進一步確定研究基本信息,如目的、類型、起止時間等;之后根據課題需要,可靈活創建多個研究組別或亞組;
(3)統計分析及結果解讀:平臺通過嵌入R語言,實現了對數據的實時在線統計分析,目前已涵蓋包括獨立樣本T檢驗、卡方檢驗等在內的30余種常用統計算法;同時也支持對統計結果的解讀,使醫生能夠更好地選擇統計算法及統計結果。
2.數據導出服務
平臺可提供基于多維變量的數據導出,并可實現檢驗指標相對時間計算和導出值域自動量化等。
3.個案視圖
平臺通過整合患者在院期間的各類門急診、住院就診記錄,可通過時間軸進行統一展示,方便醫生全面了解患者情況。
4.專病庫建立
此外,平臺還支持對已有數據庫的導入,對其數據進行處理分析,從而輔助建立高質量專病庫。目前,我院已建成9個單病種專病庫,包括:腦梗塞、乳腺腫瘤、冠心病、過敏性鼻炎、膿毒癥、下肢深靜脈血栓、椎間盤突出、帶狀皰疹后神經痛、癲癇。
5.文獻檢索
平臺可提供對1400多萬種中外文獻的摘要檢索服務,方便醫生隨時查閱。
6.權限管理
平臺提供靈活的權限管理機制。可通過不同層級的權限設置,確保對患者數據應用安全的最大保障。
下一步計劃
1.構建智能預測引擎
智能預測引擎,是利用影響因素分析、主成分分析、決策樹等多種數據挖掘算法,從專病庫中提取出重點疾病特征,并通過相關真實病歷的機器學習和模型訓練,得出疾病精準預測規則,納入到知識庫中。這樣,在臨床遇到相似病例時,即可觸發該規則,實現對患者相關疾病危險因素的預測分析、疾病嚴重程度分級、治療效果評估等,從而提高和改善臨床診療質量。
目前,我院已積攢包含30余種疾病類型、12大分析主題的近百個模型知識庫,用來對疾病的再手術、再入院、并發癥以及生存期等進行預測分析,并可針對疾病不同干預方式進行療效評價。未來,將逐步探索將模型知識應用于實際臨床業務,用以進行疾病危險程度評估和手術預警等,使科研成果能夠更好地服務臨床,擴大臨床效益。
2.多中心協作網絡建設
此外,我院大數據科研分析平臺目前主要還是支持本院的單中心研究。未來,發展協作網絡、開展多中心研究將是優化臨床實踐和學科探索的必然趨勢。因此,將利用該平臺大力發展涉及大樣本、多中心的實驗,以智能化科研工作模式支持醫生搭建協同研究網絡,快速積累病例、縮短研究周期,開展大規模回顧性或前瞻性研究,以提高研究水平,獲取高質量研究成果。
【CHIMA 2019】關于召開“2019中國醫院協會信息網絡大會暨中外醫療信息網絡技術和產品展覽會”(CHIMA 2019)的通知
【CHIMA 2019】讀書、知識、創新——CHIMA 2019書展啟動