久久97久久-久久97人人-久久97人人超人人超碰超国产-久久99-久久999国产免费-久久999精品

郭有:臨床數據挖掘的基本流程

發布時間:2023-01-12
瀏覽次數:

  臨床數據挖掘過程包括定義臨床問題并確定變量數據集、從業務信息系統中提取數據、根據數據特征與分析目的對數據做預處理,特征變量選擇或特征提取、構建模型與評價,最后是結論報告與模型應用。

  在數據挖掘過程中,特別需要強調三點:

  第一,為降低生物噪聲、數據噪聲、數據缺失等不可控因素對于數據挖掘的影響,數據挖掘的每項具體過程或細節都需要反復探索;

  第二,數據挖掘不能簡單依賴一種統計方法,應該考慮多種技術方法,并對不同方法進行比對與適當改進,以使數據挖掘方法適用于研究對象及變量數據分布特征;

  第三,在特征提取時,為有效地降維降噪,數據分析模型中需要引入部分參數,參數選擇設置的正確與否直接影響降維降噪效果,因此需要反復探索。

  一 定義臨床問題

  提出臨床問題是臨床數據挖掘研究的核心過程,一個有價值的、有數據支持的臨床問題是數據挖掘研究的前提,有助于制定變量數據收集策略,提高解決臨床問題的針對性。找準臨床問題不僅要具備對患者的責任心、豐富的臨床診療知識、扎實的臨床實踐,而且要有一定的醫患心理行為學知識與綜合分析判斷能力。

  定義臨床問題是確定變量數據集的前提,也是數據挖掘中的最主要的任務, 推薦采用PIOC法則(Participants,Interventions,Outcomes,Comparisons)來定義臨床問題。例如,臨床問題是“肝癌患者術后早期是否復發”,PIOC分別為以下四方面:

  Participants指明確臨床診斷的肝癌患者,需明確診斷手段和診斷標準;

  Interventions指手術切除,需要進一步明確切除范圍、具體術式如腹腔鏡下肝切除術;

  Outcomes指早期復發或進一步明確為術后特定時間段內的原位或遠端復發。此外,還有次要結局、競爭性結局、自報告等;

  Comparisons是指肝癌術后早期有復發和無復發患者形成的兩個可比組,即復發組VS無復發組。

  若臨床問題屬于診斷范疇,可省去Interventions。例如,臨床問題是“局部進展期直腸癌患者是否有淋巴結轉移”,則PIOC分別為:

  Participants是明確臨床診斷的局部進展期直腸癌;

  Outcomes是特定部位淋巴結是否出現腫瘤轉移;

  Comparisons為有無淋巴結轉移的局部進展期直腸癌患者形成的可比較組,即淋巴結轉移組VS淋巴結非轉移組。

  在臨床研究方案中,將臨床結局Outcomes定義為“死亡”,往往不符合臨床實踐認識,且一家醫院無法滿足臨床研究對陽性病例的樣本量需求。這主要是因為醫療技術先進,多數危重疾病已經慢病化。而且瀕死患者會自行轉院,或出于傳統習俗出院返家。因此,Outcomes采用“臨床不良事件發生”則更適合臨床現實場景,可以將醫囑中“術前抗生素使用”“電除顫”“心外按壓或鹽酸腎上腺素注射液3次”等急危病情救治措施作為臨床不良結局。

  二 數據準備與數據提取

  根據PIOC法則確定的臨床問題和臨床特征變量定義,從醫療信息系統如HIS、LIS中提取數據、建立臨床數據挖掘的變量數據集。

  提取臨床特征變量數據,由數據工程師利用結構化查詢語言(Structured Query Language,SQL)代碼批量處理。非結構化和半結構數據,需要利用自然語言處理技術配合人工標注,提取具體臨床特征變量。在實際工作中,因研究方案經常更迭,臨床數據提取會被多次修正。

  慢性疾病研究涉及患者數量多、治療周期長,一家醫院患者的臨床數據完整程度不高,許多重要指標需隨訪跟蹤,完成難度相對較大。在“直腸癌化療后心血管疾病發生風險研究”中,研究結果的影響因素就比較多。臨床科研工作者很難掌握直腸癌患者院外醫囑執行情況,化療周期長和患者流動性也使得疾病進展中獲取特征變量數據難度較大,難以準確判斷心血管疾病患病時點。這些因素都增加了化療與心血管疾病的因果關系分析難度。

  急危重癥患者的治療周期比較短,治療見效快,臨床特征變量數據的完整度也比較高,數據提取工作相對容易。在“急性胰腺炎患者是否耐受院內腸營養研究”中,患者規模相對較小、治療周期短、臨床特征變量數據的完整度高,治療后“是否耐受腸營養”在病程記錄中有完整記錄。

  此外,在提取特征變量數據過程中,需注意在所選時間段內業務信息系統是否發生變更、特征變量編碼法則是否發生改變,是否會對分析結果產生影響。提取所需數據時,要提取設定時間段內相應特征變量的質控數據,方便后續數據清洗,并將數據以常見格式儲存。

  三 數據預處理

  從業務信息系統提取到的原始數據,需要進一步加工以適于后續分析。數據預處理包括數據清洗、標準、清理和變換等。其中,數據清洗是數據預處理最為關鍵的一步。醫院業務信息系統中存在著大量臟數據(Dirty Read)。在保證與原始數據一致性與可追溯性的基礎上,臨床科研工作者需要對空缺數據、重復數據、異常數據進行反復確定、降低誤差,最終形成便于挖掘分析的數據。

  在處理缺失數據時,需要考慮缺失比例、缺失是否隨機,因為特征變量的字段編碼或名稱改變也會導致數據提取失效。在數據去重時,需要依據主索引對于特征變量數據進行比對去重,門診數據要保留末次就診記錄值。在識別和剔除異常值時,可以執行三倍標準差原則。由于各項臨床特征變量指標取值范圍不同,故其特征變量維度(單位)也不同。要將各個特征變量縮放到相同量級,就需要對索引特征變量數據進行歸一標準化處理。

  四 特征提取

  特征提取,又稱為自變量篩選,是數據挖掘最為關鍵的一個分析環節。由于臨床特征變量的數目較多,其中一些特征變量在預測臨床結局時,實際臨床意義不大或缺乏臨床應用場景。因此,需要對特征變量進行選擇,即特征提取。其目的是探索特征變量對于預測結局的影響大小及重要性,進而綜合權衡選擇對結局影響更加顯著的或有巨大臨床應用價值的特征變量進入預測模型,以提高預測模型的穩定性、準確性、實用性。

  特征提取方法有相關分析、邏輯回歸模型(Logistic regression)、平均準確度減少(Mean accuracy reduction)法、遞歸特征消除(Recursive feature elimination)、互信息與最大信息法則(Mutual information and maximum information),相關分析最為常用,具體分析方法可依據特征變量的數據分布類型進行確定。

  五 建立預測建模與模型評估

  提取特征后,使用邏輯回歸模型、決策樹、隨機森林、隨機支持向量機、神經網絡等機器學習算法,建立全局最優(Global optimal)或局部最優(Local optimal)的預測模型。

  評估預測模型,就是利用內部數據或公共數據庫中的同質研究對象數據集,對預測模型的準確性與臨床意義進行評估驗證。使用內部數據進行評估屬于交叉驗證,使用外部數據進行評估則屬于獨立性驗證,后者驗證力度更強,也更受歡迎,但難度相對要大。

  評估預測模型的臨床意義,就是從臨床使用預測模型后的收益角度進行評估,其重要性并不亞于準確性評估。區分準確性評估和臨床意義評估非常重要,如建立分子診斷模型或者影像診斷模型,用于判斷直腸癌患者是否存在淋巴結轉移即屬于準確性問題。而使用上述診斷模型指導患者接受治療后的效果是否更好,即屬于診斷模型的臨床意義問題。

  模型評估是建模過程中最為關鍵的一步,這就要求研究者十分熟悉數據挖掘方法與臨床特征變量的各自特點,才能科學評估并建立準確且有臨床價值的預測模型。

  六 分析報告與結果發表

  基于上述五個分析過程,總結報告需要詳細描述研究設計、特征變量數據集的建立和預處理、數據質控、檢測分析平臺、統計分析流程和原理,并在結果報告中恰當使用圖表和圖形等可視化方式,呈現特征變量數據的基本特征及模型擬合優度。

  臨床科研數據挖掘研究融合了多學科知識,需要多學科人員協同合作,在臨床數據處理過程中需要不斷修正研究方案,重新調整數據提取和分析策略。但是,分析方案的更迭,向多方參與協作這一方式提出了挑戰。臨床科研工作者負責臨床背景與意義和數據內容需求,包括特征變量的重要性、名稱、來源、取值范圍、臨床意義和提取標準,數據工程師負責數據提取代碼、數據分析過程和結果輸出等分析執行與報告撰寫。建立合理的數據質控點,可以使臨床數據挖掘有據可依,既方便追溯,又有助于多方協同合作,及時發現漏洞,完善研究方案,提高工作效率。

  本文選自作者主編出版的《大數據時代下的臨床科研數據挖掘》(江西科學技術出版社)第一章第四節

微信圖片_20230112101920.jpg

  作者簡介

微信圖片_20230112101923.jpg

  郭有,男、醫學博士,雙聘碩導(贛南醫學院公共衛生、江西理工大學計算機科學與技術)、副教授,贛南醫學院第一附屬醫院醫藥大數據中心副主任(負責人)、贛南醫學院創新團隊負責人、贛州市醫藥大數據重點實驗室主任。

主站蜘蛛池模板: 一区二区三区好的精华液杨超越 | āV第三区亚洲狠狠婷婷综合久久 | 午夜男女爽 | 东京热一区二区三区无码视频 | 99久久66久久精品国产片 | 91精品国产现在观看 | 97人妻无码一区二区精品免费 | 国产AV无码专区亚洲A | 91精品啪国产在线观看 | 91精品国产综合久久久久久va | 国产91久久九九免费精品无码 | 91精品国产麻豆国产在线 | 国产70老熟女重口小伙子 | 91精品国产免费青青碰在线观 | 91污在线观看一区二区三区电影千金奴隶黄色鉴黄 | 91精品网站天堂系列在线播放 | 丰满大码的熟女在 | 91在线无码精品视频 | 97国产自在线 | av国产熟女丰满熟女 | 午夜视频免费 | www视频被xxx色偷偷亚洲第一成人综合网址 | 东京一区二区三区高清视频 | 91麻豆精品国产电影 | 国产91热爆ts人妖在线 | 成人深夜视频 | 午夜福利国产一区二区三区 | av三级先锋在线播放 | 91色在线观看 | 99精品一区二区三区视频 | av无码精品1区2区3区 | 丰满白嫩尤物一区二区 | 午夜小视频试看五分钟 | 午夜精品一 | 国产1区2区| av免费午夜福利不卡片在线观看 | 97亚洲熟妇自偷自拍另类图片欧美欧美一区免费视频高清天 | 福利片导航 | 高清毛片免费看 | www.蜜臀 | 91大神在线精品网址 |