北京協和醫院:醫療大數據平臺研究及應用
2021年醫院新興技術創新應用典型案例征集活動共選出21篇典型案例,在CHIMA 2021大會上對獲選案例進行了頒獎。
2021年2月19日,國家最高領導人主持召開中央全面深化改革委員會第十八次會議并發表重要講話,通過了《關于推動公立醫院高質量發展的意見》,提出以改革創新為動力,推動公立醫院高質量發展。
據此,北京協和醫院將智慧科研的建設作為創新切入點,通過全系統數據整合,完善臨床信息系統標準化建設,不斷探索科研模式創新、構建智慧科研新生態,建設了多層次、多領域覆蓋的全院級綜合性醫療大數據平臺,以及以專科為核心的專病數據庫平臺等。
根據建設目標及要求,我院搭建了從數據到應用的多層架構體系,其中包括:標準體系、多模態數據體系、多模態數據融合與處理、科技創新應用等。
1.標準體系
通過構建科研標準體系,實現了數據存儲體系、數據治理體系、科研知識庫標準的建設,為建設全生命周期的臨床數據標準化應用體系、提高數據利用水平和信息系統智能化程度打下基礎。
2.多模態數據融合與處理
結合機器學習、NLP等大數據技術,整合院內外及公共衛生等多模態數據,實現了數據融合與處理、數據標化與治理、數據質量質控等一系列數據的深度治理,為科研數據的使用提供保障。
3.便捷數據查詢服務
構建數據服務開放平臺,實現數據資產查詢與統一調用,同時啟動數據授權與審批機制,保障數據調用的安全。
4.一站式統計分析服務
基于數據的使用分析,匹配相關應用場景,開展臨床研究、精準醫療等內容建設,推動科研應用。
5.研究成果轉化“基地”
基于科研創新項目,提煉研究成果轉化思路,實現數據集構建、研究模型的臨床落地應用,加速實現成果轉化。
1.標準體系建設
從臨床數據標準化和臨床系統數據處理的實際應用場景出發,提出以實時采集、標準化、可利用、可更新為主要原則的標準化體系建設,構建覆蓋醫療機構標準實施、應用、更新的臨床數據標準化應用體系。
2.多模態數據融合與治理
基于大數據及人工智能技術,對院內外數據進行抽取,形成科研數據中心,從數據庫層面打通各信息化應用之間的數據通道,同時對數據進行加工處理,形成可識別、可利用的數據信息,助力臨床研究發展。
(1)數據抽取
對病歷、檢驗、檢查、醫囑、護理等數據進行歷史數據抽取和增量抽取。抽取數據過程中,支持不同數據源、各種接口、抽取歷史數據和增量數據、字段映射、字段過濾、條件過濾、工作閑時抽取數據等。在確保不增加臨床業務系統日常工作系統負荷的情況下,以最短的時間抽取數據。
(2)數據融合與處理
1)EMPI患者主索引
平臺支持患者匹配功能,支持基于患者主索引的患者唯一性匹配功能(依賴于患者主索引系統)、就診信息整合功能,以及按照患者就診類型、時間展示就診時序的功能和按照就診時序進行患者數據歸集的功能。
2)多模態數據間關聯關系
通過數據間的關系按照門診、急診、住院等就診次數據融合,同時分析醫院就診電子化數據缺失和無法關聯情況,確定處理方案。可通過科室、日期選擇器,對當前患者的歷次就診信息(基本信息、醫囑、檢查報告、檢驗報告、病歷文書、手術記錄、護理信息等模塊)進行數據分類選擇、融合選擇,并進行后期的融合處理。
3)自然語言處理
通過自然語言分詞以及上下文語義識別,利用機器學習結合數據模型實現對自由文本病歷、檢查報告、護理記錄等全量數據的后結構化處理。從醫療文獻、醫學指南和醫院臨床病歷中發掘隱含的醫學知識,將自然語言文本數據轉化為臨床知識,便于原有業務系統的自然語言文本數據應用到新的臨床診療與研究。
4)OCR識別
系統將OCR識別后的非結構化病歷文本庫和病案首頁系統中的首頁數據進行采集,應用自然語言處理技術,構建初步結構化與標準化的通用項目數據庫;采用病歷對照人工與自動核查并行的方式,保證通用項目數據質量,為科研提供數據支撐。
(3)數據標化與治理
1)數據標準化處理
針對結構化數據,如首頁診斷、首頁手術、檢驗、醫囑、費用、入轉出記錄、人口學信息等數據,實現與標準化編碼的整合及映射,保證各專科底層數據標準統一,方便后期進行統計分析及科研利用。
針對非結構化數據,進行系統源頭改造、自然語言分詞、語義關聯等操作之后,形成后結構化數據,實現自然語言的計算機可識別、可計算、可分析。建立真實世界疾病領域模型,助力臨床研究。
2)數據一致性
對于不規范的數據,通過標準化數據預處理將其轉換為標準化數據存儲,基于大數據分析技術,對于數據出現錯誤的情況,根據既往病歷的數據基礎進行糾正。
3)數據殘缺治理
對識別出的缺失數據,根據語義和上下文的數據關聯進行智能填補完整。
4)可量化計算
主要分兩種形式:一是將分類型的數據自動量化,數據類型包括海量枚舉、少量枚舉和二值型,自動轉化成可用于統計分析的數值類型;二是根據提供的值域量化表,將變量量化成表中對應的值,完成量化。
(4)數據質量質控
1)數據完整性質控
按照質控變量分類,包括數據完整度百分比及空數據的百分比來依次展示所選變量數據完整程度,支撐科研數據應用。
2)數據規范性質控
包括展示研究樣本的規范數據、不規范數據和空數據的情況,以及異常數據涉及的患者列表和數據值域詳情,原始異常值等。
(5)數據脫敏與加密
根據HIPAA法案和實際業務需求,針對患者信息、醫護人員信息等敏感字段信息數據進行脫敏。包括:敏感數據自動檢測;對患者關鍵信息脫敏處理;通過特定加密不可逆算法對關鍵數據進行加密處理,使用時進行解密。
針對數據安全和平臺使用友好性,建設數據安全管理規范和相關咨詢、培訓服務。
1.數據安全管理規范
對于數據需求明確的研究,可通過醫療大數據平臺進行數據查詢,經醫院管理、信息等部門審批后授權使用。醫療大數據平臺內數據,對姓名、身份證號、地址等信息進行加密處理,如有特殊隨訪等需求,經審批后走解密流程。
2.用戶培訓
針對用戶數據查詢和統計分析,建立線上和線下培訓規范,線上通過培訓視頻和說明手冊進行指導,線下通過現場培訓和一對一指導進行。
3.科研大數據咨詢
由于大部分臨床醫務人員缺少醫療大數據相關專業知識,我院創新性的提出設置科研大數據門診咨詢服務,并于2020年11月15日開始運行,為臨床醫務人員提供數據庫設計、大數據技術、研究方案制定等內容咨詢,提高研究效率。
1.醫療大數據平臺
針對通用科研需求,我們通過醫療大數據平臺提供服務。利用人工智能技術,對數據進行自動化采集、關聯整合、標準化處理以及便捷化檢索分析,構建臨床大數據知識圖譜及推理引擎,刻畫臨床各項知識及其關系,深度挖掘疾病癥狀之間的潛在關聯,提高數據的利用率及科研效率,促進醫生科研成果發表,多角度滿足不同階段和場景下的研究需求。醫療大數據平臺現已服務臨床研究100余項,建立數據集1000余個,約90%的數據需求通過平臺完成,已支撐多篇文章投稿和研究方案制定,涉及科室包括:內分泌科、肝臟外科、婦產科、胸外科、全科醫學科(普通內科)、風濕免疫科等。
2.專病隊列研究
針對個性化強的專科需求,通過專病隊列提供服務。依托院級醫療大數據平臺,整合院內外數據,為科室提供了以疾病為中心的詳細臨床科研數據,通過全系統數據整合、加強歷史數據治理、完善臨床信息系統標準化建設,建設專科疾病診療標準,為各學科開展研究工作提供標準、優質的數據資源和高效的數據利用工具。現已搭建全國重大傳染性疾病危重型多中心臨床研究隊列數據庫,覆蓋二十余家成員單位,支撐500+數據維度的高維度分析。
科研是醫學科學發展的主要源動力。醫院要保持高速可持續發展,必須依靠科技進步和創新來提高醫院的綜合競爭力。科研平臺作為醫院科技攻關、人才培養、學術交流的重要基地,在提高醫學科技創新能力和水平方面發揮著十分重要的作用。我院科研平臺的建設以及專科數據庫平臺的建立,面向科研人員,提供全院數據快速檢索、數據集創建及25種統計分析方法,實現基于大數據技術的一站式智能分析功能,輔助臨床研究的開展。數據安全是醫學研究的重要基礎。我院除通過堡壘機等技術手段提升數據安全級別,同時,建設數字閱覽室,在獨立、安全的網絡環境下進行研究探索。未來,還將在此基礎上,進一步探討如何最大化發揮科研平臺的支撐作用,結合我院特點和優勢,以重點專科領域為引領,建設多級科研平臺體系,提升區域科研發展水平。
1.多模態數據集成
大數據智能分析平臺的數據來源于業務系統多模態數據集成,包括結構化數據如檢驗數據,文本數據如病歷、檢查報告數據等。通過自然語言處理技術對文本數據進行分詞結構化。
2.一站式統計分析
用戶可在平臺進行數據檢索、處理、分析等一站式研究,方便快捷。
(1)研究對象篩選
支持多種篩選模式靈活組合,可自助篩選研究對象,并根據入排條件動態更新研究對象數量;
(2)研究分組建立
完成對象篩選后,根據課題需要,可靈活創建多個研究組別或亞組;
(3)統計分析及結果解讀
平臺通過嵌入R語言,可實現對數據的實時在線統計分析,目前已涵蓋25種常用統計算法。同時,系統支持對統計結果自動解讀,方便醫生一站式完成全部科研流程。
3.多維度安全監管
系統和數據安全主要通過以下手段來保障:
患者隱私數據脫敏入庫,加密存儲,禁止明文;
系統登錄帳號LDAP域驗證,加強帳號監管;
系統登錄瀏覽全頁面增加水印;
系統后臺嚴格監控登錄等操作日志;
建立閱覽室使用場景,配置訪問白名單,限制特定地址訪問。
4. 科研大數據門診服務
通過提供數據和大數據技術咨詢服務,為臨床醫務人員解決科研大數據技術難題困擾,提高科研效率。