醫院信息化集成建設,如何從頻繁“修平臺”邁向真正“用平臺”?
“醫院系統為什么又出問題了?”
“為什么平臺用起來這么卡?”
......
越來越多醫院建設了集成平臺后,會出現以上的抱怨和困惑。有的醫院發現,平臺搭建完成后時常出現問題,三日一小補,五日一大修,運維人員的主要工作變成了“修平臺”而非“用平臺”。如果把醫院平臺比成一輛車,那么數據就是車上貨物,道路就是承載平臺運行的軟硬件環境和網絡。道路維護和車修“人員”就像運維人員,他們不僅要保持“道路”(軟硬件環境、網絡情況)通暢和“車輛”(平臺運行)完好,還要在出現問題時,能夠迅速采取措施,進行調度和修復,以確保“運輸”(集成業務)通暢平穩。
這里重點提到的三個要素:軟硬件和網絡環境、平臺運維和集成平臺自身能力,是醫院從頻繁“修平臺”邁向真正“用平臺”的關鍵因素。
環境為基——“小問題”也會引起“大情況”
“......醫院里不曉得哪個災舅子昨天下午把網線拔了,然后插回去又沒插好,導致網絡一卡一卡的,今天好多系統都出問題了......”這是發生在一家醫院中,運維人員花了數天確定集成平臺異常的原因后,在群里發的一句話。盡管只是調侃,但背后的原因值得思考。
良好的軟硬件配套以及穩定高效的網絡環境是集成業務構建的“基石”。如果說集成平臺能穩定運行,有一半的功勞歸功于平臺自身,另一半則取決于軟硬件環境的可靠性。在醫院的集成過程中,頻繁出現的通常是一些“小問題”,但這些“小問題”可能會引發“大情況”,以下列舉了幾個例子供參考:
由于虛擬機設置不當,出現內存資源競爭問題,導致平臺異常;
因為使用的快照軟件導致每天高峰期出現業務異常;
安裝的殺毒軟件沒有進行優化和設置影響平臺進程,導致CPU占用率極高,引起平臺運行卡頓;
硬件存儲IO問題使虛擬機出現卡頓,進而導致集成平臺無法使用,并且多個系統出現不定時卡頓故障;
......
隨著平臺在醫院信息化中的核心地位不斷上升,它對環境的敏感度也顯著增強。因此,醫院必須努力提供更高質量、更干凈、更可靠的軟硬件設施和網絡環境,以確保平臺在復雜的醫療信息化場景中能夠穩定運行,并保障醫院的正常運營。為實現這一目標,平臺的運維團隊必須規范流程,提高運維能力,建立有效的風險預警機制。
運維為本:“制度”、“人員”兩手抓
百度百科中對運維的釋義如下:“運維,本質上是對網絡、服務器、服務的生命周期各個階段的運營與維護,在成本、穩定性、效率上達成一致可接受的狀態”。在醫院信息化集成中,集成平臺的運維是確保平臺能持續穩定運行,實現集成業務的順暢平穩作業的“根本”保障。在這一過程中,建立合理的管理機制和適當的人員配套至關重要。
1.管理機制:主要是對運維工作的組織和規劃,重點是定期觀察業務高峰期的運行狀態、軟硬件配套和網絡的情況、平臺上集成業務的異常和未解決狀態等,并檢查是否做好故障預警等措施,包括:
● 巡檢監控:運維人員需要定期進行系統巡檢,檢查硬件設備的狀態、網絡連接是否正常以及軟件是否運行順暢。同時,建立有效的監控系統,能夠實時監測平臺的各項指標,以便及時發現潛在問題。Odin的一體化界面能夠實現對平臺所有下屬服務器的核心數據進行監控和查詢,包括CPU使用率、內存利用率以及事件異常等信息,并將這些數據按照事件類型(一般、警告、錯誤)進行匯總,便于后續的處理分析。
● 預警機制:運維團隊需要建立有效的預警機制,以便在問題發生之前就能夠提前預警。這包括設置閾值,當系統指標達到或超過這些閾值時,自動觸發警報,使運維人員能夠及時采取措施。Odin具備態勢感知功能,結合自動預警機制,能及時發現并監測平臺潛在問題。此外,Odin還為常見問題提供了包括熔斷、降級、限流等在內的多種解決措施,從技術上為醫療機構的預警機制提供支持。
● 故障處理:當平臺出現異常或故障時,運維人員的首要任務是快速恢復日常生產,最小化平臺停機時間,再進行故障處理。Odin獨特的統一界面管理能力讓運維人員能通過統一的界面對于工作實例運行狀態以及其中各業務情況進行瀏覽查看,避免了對服務器一一排查或頻繁切換服務器管理界面的繁瑣操作,大幅降低異常發生時集成平臺容災恢復的時間和工作量,這是多臺服務器二次開發后搭建的 “集群”難以具備的能力。
● 性能優化:運維團隊還需要不斷優化系統性能,以應對日益復雜的應用場景和高并發的業務需求。這可能包括資源分配的調整、軟件升級和配置的優化等工作。根據Intel官網發布的《ODIN 引擎全場景一體化集群版基于第三代英特爾? 至強? HCI 平臺優化方案白皮書》,Intel和Odin進行了深入的聯合測試和調優,Odin集群版的平均每秒事務處理量(TPS)可達30000以上,相當于每分鐘處理180萬次事務,充分滿足醫療集團、醫聯體/醫共體以及區域醫療等大規模醫療衛生機構的平臺需求。
2.人員配套:建議有專人負責平臺運維,同時運維人員需具備一定的集成技術知識,可以對生產環境中出現的問題給到及時的應對方案,并能落實好相應的運維機制。如果平臺自身能力比較強、功能比較全面和易用,那么運維人員1到2人即可,反之可能會需要更多的人員以及對人員能力要有更高要求。
Odin針對醫院的本土化需求進行大量開發,增加國內常用而國際著名品牌不具備的易用性功能,例如內置API網關、鑒權管理、各種標準化定義、數據處理轉換工具、PDF導出等各類組件,并兼容國產服務器和操作系統,實現開箱即用。同時Odin全程中文支持,純Web操作界面和可視化工具等,使操作運維更簡單,一目了然,降低學習使用門檻,快速上手操作。
平臺為用:從“補丁式”、“碎片化”開發邁向“一體化”、“全局化”建設
有的醫院通過努力打造堅實的硬性和軟性基礎,解決了頻繁“修平臺”的問題。然而,在醫療機構中,尤其是大型三級醫院,信息化建設已步入復雜的“深水區”。醫院不僅需要確保平臺的穩定高可用,還需要將平臺真正用起來,滿足“深度”業務需求,如閉環管理、跨院區的實時交互、互聯網醫院的業務協同、T+0的數據主題庫建設和業務中臺建設等高級別測評要求和著眼全局的建設規劃。
如果集成平臺日常運維仍處于“補丁式”開發和“碎片化”應用的階段,缺乏一體化、全局化的建設流程來實現相應需求,將難以滿足這些復雜多樣的集成需求,或者實際使用過程非常繁瑣復雜,導致醫院難以充分發揮平臺的潛力,那么平臺本身的價值將受到限制,距離真正“用平臺”仍有一定距離。
Odin突破了傳統堆砌功能“授人以魚”的方式,而是通過“授人以漁”形成了一套DevOps規范化管理的方法論,并為該管理流程搭建了扎實的環境基礎,例如生產/開發雙環境隔離、開發/測試/審核/管理人員不同權限的分離,通過熟練運用上述環境進行開發,自然而然能引導醫院形成一套規范化、全局化的開發、運維、管理流程,助力醫院應對“碎片化”集成需求,實現對集成平臺的“深層次”運用。
結語
環境為基、運維為本、平臺為用,通過將這三者有機結合,實現更穩定、更可靠、更高效的信息化集成,走出頻繁“修平臺”的困境,助力醫院邁上真正“用平臺”的新臺階。
(本文由ODIN公司供稿)