醫療大模型從小事做起(五):知識庫
當前,如何把DS用好成為一個關注點,結合近期使用DS經驗,個人認為,基于AI檢索的知識庫是一個不錯的嘗試。
首先簡單定義一下知識庫:知識庫通常指的是經過組織、系統化存儲的知識集合,能夠被方便地檢索、查詢和更新。它不僅僅是數據的簡單堆積,而是有結構、有分類,可能還包含元數據、索引等,方便用戶高效獲取信息。
前不久,我與醫院科室進行了“AI檢索+知識庫”的內部分享。在分享時,我并沒有使用上面這個略顯生澀的概念去解釋知識庫,而是用一個相對輕松的問題,幫助大家厘清知識庫的概念:書架上的一堆書,算不算知識庫?或者電腦里的一個文件夾,存著跟你業務相關的教材、文檔、論文,算不算知識庫?
大家可以思考一下,以下是我給出的答案。
基于AI檢索的知識庫在醫院的落地和應用,是一個不錯的嘗試。理由是,知識庫在醫院的應用自帶兩個優勢:一是廣泛的用戶基礎,二是良好的內部環境。
廣泛的用戶基礎:信息科工程師和醫生兩個主力群體,出于對其職業特性、工作場景和專業需求的要求,對筆記類軟件使用需求高,意愿強;盡管筆記類軟件并非專業知識庫,但其通過結構化存儲、智能檢索、協同能力等設計,已經具備了輕量級知識庫的特性。在使用筆記本類軟件的過程中,通過功能設計和交互引導,用戶也可以逐漸領會知識庫的核心要義,認同知識庫的理念,培養初步的使用習慣。
良好的內部環境:這個“內”,指的是醫院的辦公環境大多基于封閉的內網,良好的環境是指,無論醫院大小和級別,都會將文獻數據庫作為知識基礎設施去建設實施。正是基于這樣的前提,確保了醫生在工作時段,被“困”于內網時,有一個相對專業、穩定的文獻檢索工具,一個用來對沖碎片化時間的專業學習平臺。
盡管有上述兩個優勢,但筆記類軟件和內網文獻庫并沒有發揮其完全能力,至少與用戶的期盼值有所差距。簡單說就是,存進去容易,查找和整理麻煩,所以知識庫的價值沒有得到充分發揮,事倍功半。
以我為例,出于內容創作和學術科研需求,用了很多年筆記類軟件,不僅開了會員,還搭配了微信轉存,網頁剪藏,甚至手表端的語音隨記等功能,各種手段都上了,有空時自己還會整理和標注筆記,不可謂不用心;但盡管如此,我也只是勉強完成了“信息聚合”的上半場工作,從“信息聚合”向“知識賦能”的下半場工作,一直做得不好。
文獻檢索也是如此,看單篇文獻容易,但是很多場景要求用戶快速切入某一新領域,這時就需要從一堆文獻、教材、指南中尋找看似孤立的線索,把它們拼接起來;類似于刑偵劇中,辦案人員往往需要從案件卷宗、監控錄像、物證檔案以及證人證詞中,抽絲剝繭地梳理出完整的證據鏈。這其中難度有多大,大家都知道。因此,知識庫的“吃灰”現象,不能說是用戶懶或者不用心,真的是挖掘知識價值這件事,太花時間和心思,超出了個體用戶能力范圍。
轉機來源于DS出現后,在使用Cherry studio(一款開源的跨平臺大模型桌面客戶端)過程中,我驚喜的發現它自帶知識庫功能。當時,我正在了解某個新的學術研究方向,我一下想到了之前下載的一堆文獻和教材,剛好拿來一試,可惜經過測試,當時Cherry studio 內置的 OCR 引擎對復雜布局的PDF支持不太好,但我相信這種AI搜索+知識庫的理念是正確的,足以解決我之前在使用筆記類軟件時,投入一腔熱血去收集了一堆資料,結果價值產出只有零星半點的尷尬局面。
最終,在試用了多款不同類型的知識庫,我梳理了一個合格的“AI搜索+知識庫”該有的樣子:
第一步是找得到:即知識庫的創建。首先通過恰當的提示詞,從公開網絡中提問檢索,找到用戶感興趣的文獻,以及相應的文獻來源,并且支持一鍵添加到相應的知識庫。
第二步是喂資料:即知識庫的更新。可以通過多種方式,將用戶專屬的知識添加到知識庫,包括網頁、公眾號文章、教材、論文、任務書、截圖等等)
第三步是刨根問底:即圍繞知識庫進行提問。圍繞用戶預先構建的知識庫展開提問、追問和內容解釋,不僅可以提升答案的專業性和準確度,還能有效避免大模型因為公開網絡數據訓練引起的幻覺問題。更重要的是,一個合格的“AI檢索+知識庫”,要能做到將解釋的結果,以及提問、追問和回答的對話記錄,也加入知識庫,正所謂:真理越辯越明,知識庫越問越清楚。
第四步是分享和協作。這項功能做好以后,知識庫就可以從個人層面拓展到團隊和科室層面,對于一個科室的業務能力傳承和積累有很大幫助。有了知識庫的幫助,以后科室和團隊來了新人,就不用指定專人去以老帶新,而是直接用知識庫輔助新人快速了解該科室/團隊的業務范疇、政策依據、研究內容等內容。
醫院良好的信息化基礎結合醫療行業知識密集型的特點,讓知識庫的本地化部署,不僅限于文獻檢索,可做的事還有很多:比如專科用藥指南結合醫院自研標準操作流程(SOP),搭配知識庫,可以形成專屬知識體系;再比如:內網文獻庫可作為臨床決策支持系統的數據源,通過自然語言處理實現“癥狀-文獻-診斷”智能推薦,這些都是不錯的想法。
關于知識庫本地部署的技術分享,可以參考《解放軍總醫院DeepSeek部署實踐經驗分享》這篇文章,另外,目前公網上有幾家做得不錯的“AI檢索+知識庫”,建議大家可以先體驗一下:例如截圖中用到的秘塔AI搜索以及騰訊的IMA知識庫等等。體驗的目的是為了盡可能把好用的“AI檢索+知識庫”理念從外網帶到內網,增強內網用戶體驗,讓內網的AI應用更好地落地生根。
相關鏈接:
知識庫 https://docs.cherry-ai.com/knowledge-base/knowledge-base
作者簡介
李楠,CHIMA委員,醫院信息化工作者,醫學統計學博士在讀。作者觀點僅代表個人,純屬技術交流,與供職單位無關。