福建省立醫院:基于機器學習與深度學習的大數據治理平臺
CHIMA 2020醫院新興技術創新應用優秀案例征集自啟動以來,獲得了業內各方的積極響應。CHIMA將陸續刊登參評案例,展示醫療信息技術科技創新應用成果。目前,網絡推薦案例投票正在火熱進行中,為你心目中的最佳案例拉拉票吧!
為促進和規范全國醫院信息化建設,明確醫院信息化建設的基本內容和建設要求, 國家衛生健康委員會制定了《全國醫院信息化建設標準與規范(試行)》,其中大數據治理對三級甲等醫院提出明確要求:以統一的數據標準對多源異構數據進行歸一化處理。今年我院構建了全院統一大數據平臺,平臺匯聚了總量為3T多結構化數據,其中總文本記錄數共計700多萬份;已實現數據資產統一管理、術語字典標準化、電子病歷實現文本后結構化、數據質量監管常態化等數據治理工作。目前,我院利用數據治理之后的數據中心大數據資源,對醫療服務、科研管理、醫院治理等方面提供輔助決策和支撐應用。
本案例的核心是構建強大且快速算力的全院統一大數據平臺,支持全院各個學科并發而獨立的大數據在線應用服務,滿足醫院各方面大數據應用要求。服務對象包括:醫院管理人員、臨床醫生、護士、檢查及檢驗科室人員等。
整合福建省立醫院所有醫療數據資源、構建全院數據資產統一建設與管控平臺,保證各個醫學中心在統一醫院大數據平臺上的建設,促進醫學研究的轉化。當前醫院數據集總量為3T多結構化數據,其中總文本記錄數共計700多萬份。如何制定統一的數據標準,對多源異構數據進行歸一化處理;如何提取非結構化文本中的重要信息,通過結構化的形式供其他應用使用等問題凸顯,及時得以解決顯得尤為迫切。
(1)醫學標注
處理文本的 NLP 算法大部分為有監督的機器學習,因此,對于文本的標注工作的“質”和“量”決定了最終 NLP 算法的性能。由于每個人對文本的理解不同,文本標注工作中存在的最大問題是標注的不一致,有文獻顯示文本標注的一致性僅為75%左右,例如膽汁淤積既可能被標注為“疾?。耗懼俜e”,也可能被標注為“生理物質:膽汁”+“名詞性異常:淤積”(圖1),一致性上的差異會對模型的訓練造成很大影響。
圖1 標注不一致示例
為了盡量減少這種不一致性,我們設計了一套標準的分層標注流程來減少醫學標注的不一致性,如圖2所示。首先我們通過算法對文本進行自動分段,將長文本拆為一個個可獨立標注的段落,之后依據標準醫學術語對這些段落進行實體標注,然后再將實體之間的關聯語義關系標注出來,最后再由不同的醫學人員進行交叉審核和修改。
圖2 醫學標注流程
(2)醫學自然語言處理
基于醫院的海量病歷文書,結合醫學文本標注和醫學術語網絡,使用無監督學習、監督式學習、遷移學習等機器學習方法建立了一整套針對中文醫學文本的分層式自然語言處理技術,對醫學文本進行信息抽取、結構化轉換以及標準化處理,包括分詞、詞性標記、命名實體識別、句法分析、確信度分類、時序解析、關聯抽取、詞義解析、擴展消歧、變量匹配等環節。從工程實現上來看,它的基本流程如下所示:
圖3 醫學自然語言處理基本流程
1) 醫學分詞模塊
進行自然語言處理的第一步就是分詞,對于醫學自然語言處理來說,分詞的好壞直接關系到后續語義解析的準確性,為了將通用詞匯與醫學詞匯更為準確的區分出來,我們參考了ICD-10、ICD9-CM-3、LOINC、ATC等國際和國家標準醫學術語集的醫學術語,涉及范圍包括解剖結構、疾病、癥狀、檢驗、藥品、手術、化學成分等。
2)命名實體識別模塊
醫學命名實體識別是醫學自然語言處理的核心模塊,其目標是識別文本中出現的各類實體,包括疾病、治療、癥狀、身體部位等。我們的命名實體識別通過監督式的機器學習,使用深度神經網絡模型,其主體結構為ALBERT + BiLSTM +卷積神經網絡(CNN)+ CRF嵌合,使用Adaptive Loss聯合層參數共享的方式,基于各類臨床文書的標注語料進行遷移學習。
3)語法語義分析模塊
語法語義分析模塊的目的是構建語義網絡,我們的語義網絡由醫學概念實體(術語)、概念關聯和語義關聯3個部分構成,用以模擬人類(醫務人員)認知中對文本理解和知識體系運作的機制,句法分析是構建語義網絡的重要環節之一,用以尋找實體跟實體之間的相互關系,常見的關聯類型有:限定關系、修飾關系、從屬關系等。
圖4 語法語義分析結果
4)醫學標準術語實體鏈接模塊
我們在解析語法語義之外,需要對變量進行結構化提取,而這個環節就是醫學標準術語實體鏈接模塊來實現的。此模塊依據與我們對于結構化變量的定義,綜合監督式學習和特定規則進行計算,輸出語義網絡中的標準概念實體。監督式部分包括義元識別和基于圖嵌入的加權語義相似度計算,義元識別類似于命名實體識別模型,使用CRF和基于同義義元表的最長串匹配算法進行序列標注。結構化變量提取效果(如圖5)所示。
圖5 結構化變量提取示例
(3)醫學術語標準化治理模型
在充分參照國際和國家醫學術語標準體系的同時,我們利用算法建立了一套可以對不同醫學術語進行自動標準化的系統,實現對醫學術語的自動歸一化。該系統主要包括醫學表達知識庫、醫學術語召回層和醫學術語排序層,其中醫學表達知識庫中由于積累了大量的相似醫學表達,例如哮喘、喘息、哮喘性、喘息性等,我們在知識入庫的過程中加入了自動知識沖突檢測模型,針對相似內容醫學表達可能的沖突情況進行自動檢測,并自動選擇最佳的表達方式入庫。
圖6 醫學術語自動標準化治理模型
(4)數據質量核查
數據質量問題一直是大數據應用的老大難問題,沒有足夠好的數據質量,數據應用也無從談起。我們通過平臺化數據質量監控和規則庫的配合,讓大數據平臺的所有用戶能夠對自己提供的數據進行數據質量管理,在數據質量模塊上方便自如的配置需要的監控規則、查看結果并進行后續處理,系統會根據質量問題的分級,自動對數據質量問題進行不同級別的預警,以便進行不同級別的人工響應。
圖7 每日數據質量監控概覽
(1)實現數據資產統一管理
我們通過數據集成,實現對全院數據資產的統一管理和展示,在數據中心概覽上可以看到整個大數據平臺的數據資產全貌,包括數據量、數據分布、非結構化文本數據分類及數量、字典標準化處理量、結構化變量提取量等信息。(如圖8)
圖8 數據資產統一管理
(2)實現術語字典標準化
字典標準化經常會對數據應用造成巨大的困擾,尤其是醫學字典的標準化。像診斷、檢驗、藥品、手術這些字典,由于字典的數量巨大,且臨床表達多樣,在不同應用系統和場景中經常同樣一個概念會被表述為幾十個甚至上百種不同的表達,通過人工對照的方式難以實現和維系。對此,我們將上述醫學術語自動標準化治理模型封裝為醫學術語自動映射引擎,再通過人工審核和修正。
圖9 術語字典標準化
(3)電子病歷實現文本后結構化
通過自然語言技術對常用文本類型,如首次病程、日常病程、胸片、心電圖、入院記錄等,做后結構化處理,提取文本中的變量。像入院記錄-主訴,可以提取的變量樣例有咳嗽、發熱等,他們的值是布爾類型,代表著是否的意思。是否咳嗽,是否發熱等。有了這些變量,可以方便對文本數據進行檢索與利用。
圖10 電子病歷實現文本后結構化
(4)數據質量監管常態化
在數據治理后,要進行數據質控。我們建成了數據質量管理系統。按照不同的業務數據類型,制定不同的質控規則。從數據的完整性、有效性、一致性等多個維度對不同的字段設置校驗規則。規則設置完成之后,會自動實時運行。運行結束后,會自動生成一個完整的質量報告。這是每日執行的質控報告,點擊查看詳情,可以看到數據質控覆蓋范圍和質控執行的情況。
圖11 數據質量監管
依托福建省立醫院大數據實驗室為平臺,將結合臨床指南,對數據資源整合、數據利用、數據質量、數據權益和安全等方面的職責和管理體系進行規范研究,建立完善的理論體系和技術框架來指導、監督和評估醫療大數據治理工作,滿足醫療行業中臨床診療、機構運營、學科建設、衛生管理等高速發展的要求。
申報單位:
福建省立醫院
參選方向:
醫院數據治理建設
點擊此處即可進行投票