人工智能給信息科工程師發展的啟發
前言:關于進化
去年的CHIMA大會上,王才有主任有句話讓人印象深刻:現在進入了一個沒有教科書的時代,自我進化是唯一的選擇。
職場路上,每個人都想持續進化,提升自我,但是沒有教科書,就得有個參照物,最好能看得懂它背后的邏輯,才能學習借鑒。
從去年年底至今,以ChatGPT為代表的AIGC(AI Generated Content,人工智能生成內容)技術,一直是IT圈最大的熱點,也展現了AI可怕的進化能力。
AI在進化過程中,一直將人作為重要參考對象和標的,比如模仿人腦的神經網絡去思考,人腦的神經網絡也是人工神經網絡(ANN)的技術原型。
盡管人腦與電腦之間并沒有簡單的對應關系,但是可以借鑒一些AI領域的思想和經驗。比如,廣為人知的AI三要素(算力、算法、數據),同樣適用于人:算力是人思考的速度,算法是人思考的角度,數據是一個人過往所有經歷的精華集錦。
在這樣的前置條件下,產生一個有趣的問題:可否像訓練AI一樣去訓練自己,保持進化,持續進步。
以下談談我自己的理解,不到之處,請批評指正。
1算力:七分天注定,三分靠“苦練”
來自媒體的數據顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計算一千萬億次,需要計算3640天),需要7~8個投資規模30億、算力500P的數據中心才能支撐運行。為此,微軟的Azure云服務為ChatGPT構建了超過1萬枚英偉達A100 GPU芯片的AI計算集群。
這樣的算力規模讓人咂舌,人不可能像電腦一樣通過頻繁地升級硬件來提升自身的通用算力,況且,人的通用算力,先天身體素質占了很大因素。但是,具體領域的算力,還是可以通過一定的方法得到提升。
(1)熟能生巧,勤能補拙。
通過高質量的訓練,提高單位時間內的運算能力,持續釋放算力潛力。小時候練書法,臨摹字帖是必由之路。先練筆畫,再練常用字,達到一定熟練程度之后,面對從未見過的字,也能把它寫得很好。后來學英語、下圍棋也是如此,反復背誦經典句型、基本定式等,熟練掌握后,遇到具體場景,很快地迎刃而解。從這個角度看,個人的算力,更像是一種由已知推導未知的推演能力,高質量的訓練,會讓這種能力得到有效提升。
(2)保持專注,合理分配。
通過合理分配,盡可能把算力集中在更有價值的任務上。同時,摒棄無意義的思考,清空腦中的雜念,減少對算力的無端消耗,通過培養良好的生活和運動習慣,讓自己的算力盡快恢復,盡可能長時間地處于最優算力區間。
2算法:觸類旁通,持續調優
計算機和人工智能賦予了“算法”特定含義,但從廣義上講,“算法”無處不在。面對問題時,“按部就班”是一種算法,“未雨綢繆”也是一種算法;待人接物中,“心直口快”是一種算法,“深思熟慮”也是一種算法。
算法中蘊藏的很多智慧和經驗是相通的,作為IT行業工程師,對此應該有更敏銳的認識。
比如,決策樹算法是機器學習算法中的經典算法之一,主要起到分類器的作用,可以讓很多復雜問題簡單化。在平時工作中,面對一個復雜問題或大項任務,有些人第一反應是畏難情緒和無從下手的困惑感,而有些人則會刪繁就簡,很快抓住問題的要害,在腦海中迅速形成決策樹,更有厲害的人,還會借鑒決策樹算法中的剪枝操作,對腦海中初次形成的決策樹進行優化修正。
算法的優劣直接導致了人工智能的水平高低,放在人身上同樣適用。
再比如,神經網絡訓練結果不佳時,一個常見策略是回頭調參,反復嘗試。很多深度學習算法工程師經常被戲稱為調參工程師,就是因為深度學習大部分時間都在調整參數,反復地trial-and-error,沒有捷徑可走。當然,調參也是個技術活,盲目調參可能會適得其反。
從個人角度看,調參即復盤檢討:當你覺得一件事沒有達到預期時,趁著余溫未涼,記憶尚存,趕緊回頭復盤,圍繞關鍵環節、關鍵人進行反思調整,找出可能的原因,形成新的策略,應用于下一次實踐,長此以往,才能逐漸接近自己理想的結果。工作中養成常復盤檢討、勤更新策略的習慣,在應對不斷變化的外部環境時,方能顯得更為從容。《論語·學而》中提到的“吾日三省吾身”,也體現了古人對于調參的領悟。
3數據:食材很重要,既要吃飽還要吃好
眾所周知,數據是AI算法的“飼料”。上文在討論算力時,提到了經典教材、臨摹字帖等教具,站在AI的角度,這些教具都是經過歷代專業用戶標注的優質數據。這些優質數據,讓初學者一上來就站在了前人的肩膀上,起步即加速。相反,一套質量堪憂的數據,喂得越多,對用戶誤導越大,起步就掉坑。俗話說,跟臭棋簍子下棋,越下越臭,說的就是這個道理。
當下最不缺的就是數據,獲取數據的門檻在不斷降低。作為一個IT工作者,大家手里可能都有一個甚至幾個網盤,里面塞滿了各種教程、指南。越是這樣,對于訓練數據的選擇,可能要更加慎重,盡可能找一本經典教材或是別人標注過的優質數據,深學細悟,避免在低質量的數據里浪費時間和算力。
高質量的訓練數據,除了他山之石,也可以從自身提煉。開篇說過,數據是一個人過往所有經歷的精華集錦。為什么要特意加上“精華集錦”呢?因為一個人過往的所有經歷是流水賬,流水賬這種原始數據,是不能拿來訓練的。必須要經過清理、結構化和標注等預處理,才能作為訓練數據。
再比如,在深度學習中,為了解決數據單一問題,通常會采用數據增廣方法,讓數據極盡可能的多樣化,使得訓練的模型具有更強的泛化能力。例如在傳統圖像算法中,常用縮放、平移、旋轉、仿射等幾何變換來進行數據增廣。
數據增廣,就是多角度認識事物,避免思考問題角度單一化。我剛到基層醫院信息科工作時,更多地是從事數據庫運維工作,用得最多的教材便是“軍衛一號數據結構手冊”。基層人少事多,慢慢地,人不夠用的時候,我也被機關拉去參加行政查房、院周會等醫療管理活動。同樣的醫療概念,站在之前的IT視角,它就是軍衛手冊上的表和字段。現在,站在醫療視角,溫故知新,之前抽象的、純IT的內容,便與醫療業務中具體的工作流程、規章制度產生了映射關系,也讓我對醫療的認識更加全面具體。
4總結
俗話說,內行看門道。作為IT圈的一份子,醫信從業者對人工智能應該有更深刻的認識,更敏銳的思考:不僅局限于關注面上的熱點,更應從自己的專業視角出發,去探究AI發展背后的邏輯和規律,為我所用。
文章有點長,其中有很多跨行業的思考和認識,認識不一定到位,道理也不一定對,感謝讀者的時間,不足之處還請批評指正。
作者簡介
李楠,CHIMA青年委員。現從事醫院管理和信息化工作。作者觀點僅代表個人,純屬技術交流,與供職單位無關。