在全球,有關數據隱私及安全的保護運動已經沸沸揚揚地開展了一段時間。早在2018年,號稱“史上最嚴”及“三十年來數據安全最大變動”的歐盟GDPR(《通用數據保護條例》)已經引發了全球廣泛關注,并推動了各國和地區對數據隱私及安全的重視。 2021年6月10日,
在全球,有關數據隱私及安全的保護運動已經沸沸揚揚地開展了一段時間。早在2018年,號稱“史上最嚴”及“三十年來數據安全最大變動”的歐盟GDPR(《通用數據保護條例》)已經引發了全球廣泛關注,并推動了各國和地區對數據隱私及安全的重視。
2021年6月10日,中華人民共和國第十三屆全國人民代表大會常務委員會第二十九次會議正式通過并公布《數據安全法》,并將于2021年9月1日施行。它將與已經頒布的《網絡安全法》及正在審議中的《個人信息保護法》一起代表我國對數據隱私及安全的重視,共同構建起我國數字時代有關信息的法律體系。
在這種背景下,數據隱私和安全得到空前重視,且在未來將毫無疑問地趨于嚴格。醫療AI模型開發迭代必須的醫療數據獲取變得愈發困難。以聯邦學習為代表的隱私計算為這一問題提供了全新的解題思路,并在最近兩年獲得了廣泛關注。兩年過去了,以聯邦學習為代表的隱私計算如今有什么進展呢?動脈網(微信號:Vcbeat)對此進行了梳理。
簡要回顧一下聯邦學習是什么?
簡單來說,聯邦學習是一種加密的分布式機器學習框架,目標是在保證數據隱私安全及合法合規的基礎上對AI模型進行訓練的手段。這一技術最早由谷歌提出,并在Google I/O 2019大會上首次展示了實際落地的應用場景。
谷歌當時展示的G-Board輸入法使用了這種新的模型訓練方式,將整個模型學習過程分發到用戶手機,在本地完成分配的模型訓練任務,隨后將訓練完成的數據上傳匯總幫助模型訓練。因為訓練過程在本地完成,且上傳數據只涉及模型訓練所需的必要數據,從而防止了數據泄露。
醫療AI模型的完善同樣需要大量數據的訓練。放射科醫生通常需要工作15年時間,平均每年經手至少15000個病例才算小有所成。這意味著人工智能需要對同等規模病例(22.5萬)的學習才能達到放射科專家水平。遺憾的是,目前最大的開放數據庫僅有10萬病例的規模,離滿足人工智能訓練的要求尚有一定距離。
事實上,各個醫療機構可能擁有包含數十萬條記錄和圖像的檔案,但因為隱私和法規的原因,這些數據完全是彼此孤立無法使用的。無論是人工智能企業,或是正在使用人工智能的醫療機構都只能依賴手頭僅有的數據來源。高質量訓練數據的嚴重匱乏,嚴重阻礙了醫療AI的更進一步。
此外,完全依賴開放數據庫訓練的模型,很有可能缺乏真正的臨床價值。2021年,劍橋大學對公開發布的有關醫療AI的2212篇論文進行篩選,從中選出62篇可以達到研究人員設定的較高的入選標準的論文。然而,研究人員最終發現所有62篇實際上都沒有潛在的臨床應用價值。
數據集質量和規模嚴重不足是導致這一問題的重要原因;此外,僅僅采用來源于開放數據庫的公共數據集也是原因之一。隨著時間的推移,公共數據集不斷發展并融合新的數據,很可能導致最初的結果無法復現。
劍橋大學的研究人員提出了三個觀點:第一,公共數據集可能導致嚴重的偏差風險,謹慎使用。第二,為了使模型適用于不同的群體和獨立的外部數據集,訓練數據應該保持多樣性和適當的規模。第三,除了更高質量的數據集外,還需要可復現和外部驗證的證明,這樣才能增加模型被推進并整合到未來臨床試驗中的可能性。
然而,醫療數據包含了大量患者隱私。醫療機構或者患者絕對不會因為模型訓練愿意承擔隱私泄露的風險。聯邦學習則可以讓多個機構利用自己的數據進行多次迭代訓練模型,隨后將訓練完成的模型上傳共享。這個過程并不會涉及到敏感的臨床數據或病人隱私,從而解決了大眾的擔憂。
假設三家醫院決定聯合起來建立一個中心深度神經網絡用于幫助自動分析腦腫瘤圖像,并選擇使用客戶機-服務器的聯邦學習。在整個架構中,中心服務器將維護全局深度神經網絡。每個參與的醫院將獲得一個這個神經網絡模型的副本,以便使用自己的數據進行訓練。
一旦在本地對模型進行了幾次迭代訓練,參與者就會將模型的更新版本發送回中心服務器。這個過程只發送訓練完成的模型及其參數,而不會像以往的方式發送病例數據。同時,傳輸數據經過特殊加密,具有很好的保護效果。
在收到各地上傳的更新模型后,服務器將匯總各地上傳的、更新后的局部模型,并對全局模型進行更新。隨后,服務器會與參與機構共享更新后的模型,以便它們能夠繼續進行本地訓練。
不難看出,在整個過程中,共享模型接觸到的數據范圍比任何單個組織內部擁有的數據范圍都要大得多,訓練也更為有效。與此同時,因為只需要傳輸模型數據,其對網絡傳輸帶寬的要求也降低了很多。
此外,全局模型的訓練并不依賴于特定的數據。因此,如果其中一家醫院離開模型訓練團隊也不會停止模型的訓練。同樣,一家新醫院可以隨時選擇加入該計劃以加速模型訓練。
聯邦學習使幾個組織能夠在模型開發上進行協作,但不需要彼此共享敏感的臨床數據及病人隱私。業界希望這種新的方式能夠解決目前AI遇到的數據困境。相比傳統的模式,聯邦學習還可以鼓勵不同的機構合作創建一個可以使所有人受益的模型。
兩年來,聯邦學習在醫療上做了哪些探索?
自推出以來,業界就高度重視聯邦學習,并發布了數個開源框架。這些開源框架分別由谷歌(Tensorflow Federated)、OpenMined(Pysyft)、百度(PaddleFL)和微眾銀行(Fate)等牽頭。與此同時,英偉達Clara和微眾銀行也推出了聯邦學習的商業化產品。目前,聯邦學習已經在各行各業開花結果,醫療應用也是其中之一。
>>>>醫療影像上的應用
2019年10月,英偉達(NVIDIA)將聯邦學習技術引入了旗下專門針對醫療影像領域的Clara平臺,并與英國倫敦國王學院合作發布了用于醫學影像分析且具有隱私保護能力的聯邦學習系統。
通過支持聯邦學習的Clara平臺,研究人員可以極大地簡化這一系統的部署難度,并能安全方便地對聯邦學習中心服務器和協作客戶端進行配置,提供啟動聯邦學習項目所需的一切,包括應用程序容器和初始AI模型。
參與這一項目的醫院使用與醫院影像設備協作的Clara AI輔助注釋工具來標記自家患者的影像數據。使用預先訓練的模型和遷移學習技術,Clara能夠幫助放射科醫生進行標記,將復雜的3D研究時間從幾小時減少到幾分鐘。
各家醫院將利用這些數據,在本地EGX服務器上訓練模型。本地訓練結果通過安全鏈接共享回聯邦學習中心服務器,并由中心服務器對全局模型進行更新。隨后,更新后的模型會與各醫院服務器同步,以便各醫院對新模型進行進一步訓練。
全球領先的醫療健康機構——包括美國放射學院(簡稱ACR ,American College of Radiology)、麻省總醫院(Massachusetts General Hospital)和加州大學洛杉磯分校醫療中心(UCLA Medical Center)——都在搶先采用該技術,致力于為自己的醫生、患者和醫療設施開發個性化的AI應用,他們的醫療數據、應用程序和設備都在增加,同時患者隱私必須得到保護。
ACR在其國家醫療成像平臺AI-LAB中引入了NVIDIA Clara聯邦學習,從而幫助ACR的38000名醫療成像會員安全地構建、共享、調整并驗證AI模型。
2020年9月,由英偉達、ACR、巴西DASA(拉丁美洲最大的第三方醫學實驗室)、美國麻省總醫院、妙佑醫療集團、斯坦福大學、麻省理工學院上線了合作項目,通過聯邦學習在真實世界協作環境中訓練醫療影像AI模型,用于乳腺BI-RADS分類輔助診斷。
放射科醫生在分析乳房X光結果時,會一邊嘗試尋找腫瘤一邊評估乳房組織密度。所謂乳房組織密度是指女性乳房X光檢查中出現的纖維和乳腺組織量度。根據影像特征,被分為四大類型:脂肪類、散在纖維腺體類、不均勻致密類和極度致密類。
醫生進行乳房組織密度分類的原因很簡單——乳房密度高的女性患乳腺癌的風險要高4-5倍。根據統計,這類人群在美國40-74歲女性中占大約一半。因此,為醫生提供高質量的乳房密度分類輔助分類工具可以更好地評估患者的癌癥風險。
盡管所有參與項目機構共享的數據集(乳腺學系統、類分布和數據集大?。┐嬖诰薮蟛町悾獳I模型訓練依然獲得成功,并展示了較好的效果。比較而言,使用聯邦學習訓練的模型比只接受各機構本地數據培訓的模型平均性能好6.3%,模型的可概括性相對提高了 45.8%。
>>>>新冠肺炎患者氧氣用量預測
聯邦學習在新冠病毒肆虐全球之際也做出了自己的貢獻——英偉達和美國聯盟醫療體系(麻省總醫院和布列根和婦女醫院共建)的研究人員開發了一個AI模型。該模型可以通過胸部X光片、患者生命體征和化驗結果,來預測急診室內的新冠肺炎患者是否需要在初步檢查后的幾小時或幾天中吸氧,進而預測急救室需要的氧氣量,及判斷患者是否需要轉入ICU。
為了開發一種可靠的AI模型,并將其推廣到盡可能多的醫院,英偉達和美國聯盟醫療體系啟動了名為EXAM(EMR CXR AI Model)的計劃。這項計劃與來自全球的20家醫院合作,是目前規模最大、最多樣化的聯邦學習計劃之一。
這些醫院分布在北美洲、南美洲、亞洲和歐洲,數據涵蓋了不同人種患者的數據集。每家醫院都使用NVIDIA Clara來訓練其本地模型并參與EXAM。在整個過程中,各家機構無需將患者的胸部X光片和其他保密信息統一匯總,而是使用安全的內部服務器來存儲其數據。
全局深度神經網絡模型則托管在亞馬遜AWS獨立服務器上,每家參與合作的醫院都可獲得一份副本用于在自有數據集上進行訓練。
基于模型對各種分布式數據進行訓練,最終項目開發完成AUC值為0.94(目標為1.0)的模型僅僅耗時兩周,其預測住院病人所需氧氣量的能力非常出色。由于吸氧對于新冠肺炎患者來說至關重要,這一技術平臺已被集成至Clara NGC之中,將挽救不少生命。
>>>>可穿戴醫療健康設備
在醫療健康領域有著重要用途的可穿戴設備也在引入聯邦學習??纱┐髟O備可以準確記錄用戶的日?;顒蛹绑w征信息,對于部分疾病的預防和早篩極有價值。同時,可穿戴設備在心理健康領域、用于患者或老人的跌倒檢測以及健身鍛煉監控上也有應用價值。全球可穿戴醫療健康設備在近年得到了突破,出貨量屢創新高,積累了海量的數據。

傳統的方法對于可穿戴設備來說是個巨大的難點(圖片來自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)
然而,如何應用這些數據有兩大難點。首先,這些數據各自為政。假設用戶使用了兩款來自不同品牌的可穿戴設備,這些數據即使上傳至云端也是彼此隔離無法分享的。更進一步來說,隨著各國或地區加強數據安全立法,對數據存儲的地理位置也提出要求。同一品牌設備商要想獲取存儲在世界各地的數據也非常困難。這將導致訓練模型所用的數據無論在質量還是數量上都很難達到標準。
其次,傳統的模型訓練方法是通用的,缺乏個性化和針對性。然而,不同的用戶其實有著不同的體征特點,基于通用模型的可穿戴設備并不能最好地匹配他們的需求。
2020年,中科院泛在計算系統研究中心、中國科學院大學、深圳鵬城實驗室和微軟亞洲研究院聯合提出了FedHealth架構,也是首個針對可穿戴醫療健康設備的聯邦遷移學習框架。

聯邦學習可以有效地將分散的可穿戴設備數據予以利用(圖片來自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)
通過聯邦學習和同態加密,FedHealth得以在保證用戶數據隱私和安全的前提下為訓練強勁模型提供源源不斷的數據。在全局模型完成訓練后,它又可以通過引入遷移學習來實現個性化需求。此外,這一可以增量升級的框架還可以進一步擴展并部署到多種醫療健康應用上以進一步在真實世界中增強學習能力。
通過對30位實驗參與者采集的總計10299組數據進行的實驗,FedHealth對于可穿戴設備行為識別的準確率有一定提升。相比未采用聯邦學習方式的深度學習,FedHealth訓練模型的準確率提升了5.3%。
>>>>腦卒中預測
作為公認最早研究“聯邦學習”的國際人工智能專家之一,微眾銀行首席人工智能官楊強教授推動了微眾銀行AI團隊成為國內聯邦學習技術的引領者,并將其應用于實際業務。目前,微眾銀行已經在金融、醫療等行業領域落地應用聯邦學習。
2018年12月,微眾銀行更是發起了關于《聯邦學習架構和應用規范》的標準立項,并獲得了IEEE標準委員會的立項批準。來自國內外的多位知名學者和技術專家紛紛加入標準工作組,參與到聯邦學習IEEE標準的建設中。
2019年,騰訊天衍實驗室和微眾銀行在醫療大數據、醫學影像輔助診斷等領域展開合作,并聯合開發了基于醫療聯邦學習框架的“腦卒中發病風險預測模型”。模型利用NLP技術對電子病歷進行處理,通過分析識別與腦卒中高度關聯的癥狀來預測病人腦卒中發病風險。
我國中部某市五家醫院(其中三家為該市頭部三甲醫院)參與了研究,并利用各自的電子病歷數據對模型進行了訓練。結果顯示,利用聯邦學習訓練的模型預測準確率高達80%。同時,大型三甲醫院數據資源可幫助醫療服務匱乏病例少小型醫院在模型預測指標上提升10-20%。
2020年8月,騰訊醫療健康與微眾銀行成立聯合實驗室,結合騰訊天衍實驗室在醫療影像、醫療機器學習與自然語言處理的技術積累,以及微眾銀行AI團隊在聯邦學習上的領先技術,聯合實驗室將進一步攻堅聯邦學習在醫療領域的應用。
>>>>藥物發現
基于AI在藥物發現上的巨大潛力,聯邦學習也已經在這一場景有所進展。2020年12月,同濟大學生物信息系與微眾銀行合作,通過聯邦學習模擬多個制藥機構之間的藥物協同開發,助力制藥機構在保障自身藥物數據隱私安全的前提下進行協同藥物發現。
AI藥物發現面臨的最大痛點在于該領域復雜的知識產權和相關的經濟利益使得制藥機構之間進行數據直接共享和合作幾乎不可能。通過在藥物小分子領域引入聯邦學習進行藥物協同開發,可以在保護藥物小分子結構隱私的前提條件下,獲得與直接整合多機構小分子數據進行QSAR建模相同或者類似的模型預測效果。這或許能夠幫助實現合作“破冰”。
研究首次嘗試在藥物小分子領域探索使用聯邦學習范式進行藥物協同開發的可行性,結合微眾銀行的聯邦學習開源平臺FATE,開發了基于聯邦學習的協作藥物發現平臺FL-QSAR。
研究團隊通過對于包含了15個藥靶的QSAR 基準數據來構建深度學習模型,進行QSAR建模以及多制藥機構環境下的協同藥物開發模擬。研究結果顯示了將聯邦學習用于藥物發現具有兩方面的優勢。
首先,多個制藥機構通過FL-QSAR進行協同QSAR建模,效果顯著優于單機構僅使用其私有數據本地QSAR建模。其次,通過特定的模型優化,FL-QSAR可以在保護藥物小分子結構隱私的前提條件下,獲得與直接整合多機構小分子數據進行QSAR建模相同或者類似的模型預測效果。
這是一種有效的藥物協同發現的解決方案,打破了傳統QSAR建模時不同制藥機構之間的數據無法直接共享的壁壘,有助于在隱私保護的前提條件下進行協同藥物發現,并得到了國家專項項目基金資助。
隱私計算的未來——更優的聯邦學習及去中心化的蜂群計算
盡管問世時間不長,但聯邦學習架構本身也一直在得到改進。比如,2020年,商湯科技就攜手美國羅格斯大學計算機系計算生物醫學成像和建模研究中心,發表了一項新的研究成果——利用基于分布式生成對抗網絡(GAN)的結構來實現聯邦學習。
該研究通過將位于多個彼此分離機構的分布式異步鑒別器和一個中心生成器組成對抗網絡,讓中心生成器在不接觸原始隱私數據的情況下,也能進行合成訓練,從而能夠生成與各機構原始數據相近似的合成數據樣本,供下游任務使用。
在此基礎上,這一方案還采用了2種損失函數,使得中心生成器具備一定的終身學習能力,可以在動態變化(比如學習過程中有新的機構加入或某些原有機構退出的情況)的環境中持續訓練模型。
經試驗模擬,這套學習方法能夠從不同的機構中漸進地學習到同類數據甚至不同類數據的近似分布,并在醫學圖像分割任務中,取得了理想效果。
與傳統的聯邦學習相比,商湯科技的方案可以有效減少中心與各機構之間的通信數據量,僅需傳輸合成圖像數據和反饋誤差,而非整個模型的所有參數數據,而且各機構之間無需交換任何數據或參數,可顯著降低醫療機構部署聯邦學習的成本,加快研究效率和AI模型的生產速度。
除了對聯邦學習進行改進,業界也在開發新的解決方案。不久前的2021年5月,德國研究人員在Nature上發布了論文,提出了一種去中心化的機器學習方法Swarm Learning(蜂群學習),將邊緣計算和基于區塊鏈的對等網絡結合,用于不同醫療機構之間醫療數據的整合。
聯邦學習雖然解決了數據隱私,但是全局模型及參數調節仍然由特定機構的中心服務器處理,必然造成了權力集中。此外,這種星形結構容錯性較低。相比之下,蜂群學習不再需要中心服務器交換數據或全局建模,允許參數合并,從而實現所有成員權利平等,并通過去中心化很好地保護機器學習模型免受攻擊。

在本地學習(a)中,數據和計算是分別在不同的機構且彼此隔離的情況下實現。在中心學習(b)中,來自不同機構的數據和參數被集中到云上實現模型訓練。在聯邦學習(c)中,數據和訓練仍然位于本地,但全局模型的參數設置和模型共享在中心實現。在蜂群學習(d)中,數據和參數去中心化,且彼此互聯,不需要中心。(圖片來自Nature:Swarm Learning for decentralized and confidential clinical machine learning)
這個蜂群學習的研究選擇了結核病、新冠肺炎、白血病和肺部病變這四種異質性疾病來說明使用蜂群學習基于分布式數據開發疾病分類系統的可行性。
研究嘗試了利用蜂群學習從外周血單核細胞數據中預測白血病,從血液轉錄組數據中識別結核病患者或肺部病變患者,以及識別和檢測新冠肺炎患者。訓練所需的數據集包括來自127項臨床研究中的16400多個血液轉錄組,以及95000多張胸部X光圖像。這些數據集的病例和對照分布并不均勻,存在大量偏差。
結果表明經過蜂群學習訓練的分類模型性能優于基于本地數據訓練的分類模型。此外,蜂群學習還引入了區塊鏈技術,結合了去中心化的硬件基礎設施,防止數據被篡改;同時,成員自主權大幅提升,可以安全加入、動態選舉領導者乃至合并模型參數。
總的來說,研究認為蜂群學習有可能比聯邦學習更能改變當前的格局,去中心化的數據模型有可能成為處理、存儲、管理和分析任何種類的大型醫療數據集的首選。
寫在最后
全球對數據隱私及安全的重視程度日益增加,在醫療領域更是如此。聯邦學習及蜂群學習所代表的隱私計算因其可保證數據隱私且具有更好的性能等特性,將在未來決定醫療AI是否能夠進一步向前發展。不少研究團隊都在從事相應的探索,并將其應用到具體的醫療應用場景中。
盡管如此,目前真正將聯邦學習實施落地的具體醫療場景仍然屈指可數。這一先進架構仍然面臨一些具體的問題,包括醫療機構數據質量普遍較差、模型訓練缺乏醫生參與使其難以說服醫生使用、缺乏足夠激勵措施吸引數據方參與、具有個性化的模型訓練難度較大以及應對復雜場景的模型精度不足等。
好消息是,在標準建設上聯邦學習已經取得了進展——2021年3月,IEEE正式完成了標準制定工作,形成了正式標準文件IEEE P3652.1。與此同時,備受關注的《個人信息保護法》草案也在今年提請全國人大常委會二次審議,即將正式實施。這就為之后各細分領域的進展提供了依據。要不了多久,我們就將看到隱私計算在實際應用場景中大顯身手。
參考資料
MICCAI Workshop on Domain Adaptation and Representation Transfer & MICCAI Workshop on Distributed and Collaborative Learning:Federated Learning for Breast Density Classification: A Real-World Implementation
Medical Image Analysis, Volume 70, May 2021, 101992:Federated semi-supervised learning for COVID region segmentation in chest CT using multi-national data from China, Italy, Japan
IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare
Nature: Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans
arXiv.org:Privacy-Preserving Technology to Help Millions of People: Federated Prediction Model for Stroke Prevention
Nature:Swarm Learning for decentralized and confidential clinical machine learning
arXiv.org:Learn distributed GAN with Temporary Discriminators
Bioinformatics doi: 10.1093/bioinformatics/btaa1006:FL-QSAR: a federated learning based QSAR prototype for collaborative drug discovery
雷鋒網:《聯邦學習首個國際標準正式發布!》
第一財經:《銀行扎堆聯邦學習,大規模落地還有多遠?》
本文來源:動脈網 作者:小編 免責聲明:該文章版權歸原作者所有,僅代表作者觀點,轉載目的在于傳遞更多信息,并不代表“醫藥行”認同其觀點和對其真實性負責。如涉及作品內容、版權和其他問題,請在30日內與我們聯系