醫療大數據 共享和安全的邊界在哪里
作者:陳政 張志文 龍笑 來源:健康報 次
近年來,《民法典》《網絡安全法》《數據安全法》《個人信息保護法》等法律陸續出臺,從不同視角對一般數據、個人信息、敏感信息、隱私權等不同分類數據的處理和安全保護進行了規定,明確了大數據智能化建設和應用的根本遵循、基本原則和管理要求,也為大數據智能化實踐提供了基本遵循和法律保障。
醫療衛生機構在醫療診斷、衛生防疫、健康管理等實踐中,依法采集了大量必要的數據,其中包括相當一部分的個人信息。當今,數字化技術的發展能在多大程度上保障醫療數據在傳輸、應用中的安全?如何解決智能醫學發展過程中出現的數據確權、隱私保護、抵御攻擊等一系列問題?前不久,在《協和醫學雜志》舉辦的線上講座中,專家們就這一話題展開了深入探討。同時,我們也約請了北京協和醫院的相關學者就醫療衛生機構如何保障數據安全分享了心得體會。
保障數據安全,醫療衛生機構從何做起
□ 北京協和醫院 陳政 張志文 龍笑 吳友武
法律關注的數據收集、存儲、使用、加工、傳輸、提供、公開等全生命周期的關鍵節點,正是醫療健康數字化戰略規劃和大數據智能化建設應用的主要任務和重點適法環節。隨著數字技術的發展和賦能,醫療衛生機構亟須在實踐中構建數據安全,提升個人信息、敏感信息、隱私信息精準識別、動態標注、精細管理、合理授權、有效鑒權的適法能力,確保好用夠用、依法合規。
醫療衛生機構必須加強制度設計,提升技術水平,確保在涉及個人信息的全生命周期管理中,落實法律規定的數據安全和個人信息保護要求,實現全流程可知、可管、可控、可查。
健全相關制度
數據采集感知工作規范和分工機制 按照法定職責任務,形成中央地方、行業社會、網上網下、境內境外依法合規、分工協作的大數據采集感知工作規范,落實數據采集責任,嚴格執行法律政策規定,利用公開、管理、服務、技術等多種手段,依法獲取數據資源。
數據分類分級的制度 嚴格執行相關法律對數據性質的規定及數據處理的要求,建立醫療健康大數據分類分級制度和重要數據資源目錄,對個人信息、敏感信息、隱私信息以及一般數據進行科學、全面、動態的界定,明確數據分級分類的標準規范和管理要求。
與職責任務及使用場景適配的數據使用規則 按照職責分工和任務性質,并統籌不同場景下環境、設備、網絡等多種因素,科學授予對應數據資源的使用權限,并實現動態控制,確保好用夠用、依法合規。
數據安全的全流程管理制度 制定并執行醫療健康數據收集、使用、存儲、加工、傳輸、提供、公開等全生命周期、全流程的數據安全管理制度,明確各處理環節的數據安全責任和管理要求,對關系國家生物基因安全和重大公共衛生利益等國家核心數據,實行更加嚴格的管理。建立數據安全應急處置制度,提高數據安全事件感知和控制能力。
數據安全官制度 醫療、衛生機構是重要的數據處理者,應當明確數據安全負責人和管理機構,制訂數據安全保護的戰略、規劃、方案和機構,落實數據安全保護責任,促進醫療大數據更加有序地服務人民健康事業。
建設技術能力體系
建設個人信息、敏感信息、隱私信息識別和標注的能力體系,向收集、存儲、使用、加工、公開等關鍵數據處理環節以及為監測評估、監督檢查工作等提供資源化、服務化的識別技術能力,讓個人信息識別、標注的能力便捷獲得、便利使用。
建設數據分級分類能力體系,積累數據分級分類的知識、條目和算法模型,動態、全面地對數據進行分級分類,既能根據數據項、數據集、數據來源等要素敏感性對數據進行精細化分類,又可根據觸及的??仡惷舾袠俗R、敏感樣本、敏感內容的類型,對數據記錄精細化分級。
建設脫敏技術能力體系,對個人信息、敏感信息、隱私信息,進行不同強度的脫敏處理。
建設加解密技術能力體系,對高敏感度的敏感信息、隱私信息等,進行不同強度的加密、解密處理。
建設精細化授權和精準鑒權技術體系,依照法律、行政法規和國家標準的強制性要求,按照職能責任,對使用者按照角色、任務、場景的要求,精細授予對應的級別、類別的數據使用權限。
建設以密碼學、聯邦學習、可信計算環境等技術為基礎的隱私計算技術體系,滿足不同強度隱私場景下多種加密計算、分布式計算、安全可信計算等隱私技術動態組合的需求,輸出復合的隱私計算技術能力。
在賦能與安全中找到平衡
強化使用者的多維身份認證和持續信任評估,確保主體可信。
強化數據賦能關鍵節點處理邏輯的閉環控制,確保行為合規。強化存儲、傳輸、使用關鍵環節數據安全保護,確保實體安全。強化大數據動態審計、安全分析和預警研判,確保風險可知。強化個人信息保護和數據安全紅線責任,確保全局可控。強化數據處理全流程重點行為日志記錄和保護,確保操作可查。
構筑三道防線
數據采集單位第一道處理 由數據采集單位,通過數據分類分級和過濾技術措施,將特定目標的高敏感且不可復用的數據進行濾除,對隱私度、敏感度高但需要用于醫療或公共衛生管理的數據,直接去標識化處理后,向大數據平臺提供,同時提供全局性唯一記錄ID,便于嚴格事由審批后,由指定部門回溯標識信息并落地調查。
大數據平臺第二道處理 由大數據平臺,通過數據分級分類和脫敏技術措施,對敏感度高且不可復用的數據進行濾除或者高強度加密處理;對隱私度、敏感度高但需要用于醫療或公共衛生管理的數據,直接去標識化處理,并為后續經審批后回溯提供條件;對一般敏感度的個人數據,在分級分類后,對數據進行變換、斷開標識并標識記錄關系等脫敏處理,但具備查詢、比對、分析統計等計算條件。
平臺數據服務第三道處理 由大數據平臺服務技術,基于訪問主體的職責分工和任務事由的審批情況,以及主體所在的網絡、設備、APP、物理環境等實際因素,動態適配和反饋不同強度的脫敏數據或原始數據。
用好區塊鏈,實現醫療大數據可溯源
□ 彭紹亮
醫療大數據主要分為兩大類:電子病歷和醫學影像,當然還包括一些其他病理的數據。而智能醫療,就是希望能夠對這些數據進行二次挖掘,在診斷和治療上進行輔助。
廣義的電子病歷概念很廣,包括患者的基本信息、賬單數據、藥物史、臨床診斷歷史、生化檢測、用藥、理化甚至是醫療保險的數據。在這些基礎上,結合人工智能,我們可以進行臨床的預測、精準醫學、藥物設計等,在很大程度上幫助醫生和患者共同制定臨床診療路徑,分析、提高診斷的精準度和效率。
但是早些年,我們的研究只能基于單中心的醫療大數據,沒有解決數據孤島的問題。而近些年,隨著區塊鏈技術的發展和應用,我們已經能越來越好地對數據的可信度和分享進行保障。
簡單說來,區塊鏈就是一個去中心化的、分布式的賬本數據庫,具有隱私保護、不可篡改的特性。它由一個塊身和塊頭組成,和最早的比特幣很相似,分為數據層、網絡層、共識層、激勵層、應用層。區塊鏈解決了從信息互聯互通到價值傳遞,從信息互聯網到價值互聯網的問題。
在以往,互聯網只能傳遞信息,而現在通過區塊鏈,我們能夠傳遞價值,就像比特幣一樣,在信息的基礎上,還能把賦予在它身上的金融屬性發揮出來,也叫作資產的數字化。我們國家是最早推出數字貨幣的國家,原因就是看中了區塊鏈的去中心化、匿名性、便捷性、不可篡改性和可編程性。
而我們正在做的,就是讓區塊鏈在醫療健康等多個領域進行多元化的滲透,形成一個可信的醫療大數據平臺。
在這個平臺上,相關的用戶及機構可以進行資質的認證和注冊,將原本分屬不同中心的數據灌入,打造成一個可信的數據池,除了醫療本身的信息,還包含了企業項目、區域建設、地理信息、人文社會以及一些政府開放的數據。在此基礎上,由政府部門、醫療機構等對數據池的有效性、分界性進行監督和審定,而后,平臺上的用戶即可根據不同的訪問權限,在平臺保障數據安全的前提下,對數據進行授權、分享、查詢等。
我們曾研發過一個藥品和疫苗溯源的區塊鏈,以防止假疫苗和假藥事件的發生。在藥品生產過程中,我們就開始對其進行監管。通過手機端,我們設計了一個很簡單的應用,讓用戶得以將在售藥品、在庫藥品、已發藥品進行全流程的記錄。這樣,一株藥就是一個區塊鏈,手機一掃,就可以看到這株藥的來源。
當然,這個鏈條也在不斷增長,我們也可以隨著它的變化,看到這株藥物或疫苗的生產、出庫、入庫、打包的時間,保證它的生產及流通安全。尤其是在藥品或疫苗生產前期的細胞培養階段,我們也會進行持續錄入,直到后面的滅活、純化、制備等步驟,保證數據的可信、可用。在使用過程中,出現任何問題,都可以做到全流程可溯源。
與此同時,我們也要認識到,解決數字孤島問題,進行更深入的智能學習,數據的移動勢必會產生安全隱患。比如被篡改,或是造成隱私泄露等。所以,我們希望,能把智能學習的模型進行壓縮,使它在不同的數據之間移動,讓數據“可用不可見”。這樣,對于醫療機構來說,醫療數據便無須進行脫敏處理,不用離開醫院,便可以套在人工智能的模型上,簡單應用,發揮價值。
(作者系湖南大學國家超級計算長沙中心副主任,博士生導師,教育部2020“長江學者獎勵計劃”特聘教授)
保障AI模型安全,“防”要走在“攻”前面
□ 周少華
醫學影像是構成醫療大數據的重要部分。我先簡單介紹一下醫學影像的一些特點。
影像:多模高精 醫學影像包括了CT、超聲、核磁等等多種模態。隨著技術的進步,很多醫學影像已越來越接近真實圖像,具備高精度的特點。
數據:非標孤立 影像數據的采集在不同中心沒有統一的標準,同樣的胸片,在不同醫院拍可能都不一樣。而在這些數據之間,也存在彼此孤立的狀態,不同的醫院,甚至同一家醫院內部不同科室之間也沒有形成互聯。
疾?。洪L尾突發 很多影像數據屬于典型的長尾分布,大量的數據分屬于有限幾個類別的常見??;罕見病品類眾多,但每一類卻只有極少量的數據。此外,像新冠肺炎這樣的突發疾病,早期的數據量也是非常稀少的。在這種情況下,數據的采集,以及在此數據基礎上構建AI系統是很有難度的。
標注:稀疏有噪 醫學影像形成數據集之后,就要依據需要進行高質量的標注,比如,某一個器官的邊緣在哪里。但是,我們目前擁有的標注量很少,而且不同的醫生對同一個影像有時會產生不同的解讀,造成標注的噪聲。
樣本:各異不均 比如肺結節,正樣本和負樣本之間差異很小,且正負樣本之間的數量非常不均衡,通常負樣本的數據量大得多。
任務:復雜多樣 智能醫學為我們提出的工作任務是多樣化的,而面臨的數據集又是極為差異化的。
安全:脆弱不穩 假設我們現在針對某一類影像構建了一個AI模型,要根據影像檢測相關疾病的特征點。而一旦對這個模型進行攻擊,比如,加一點點“噪聲”,且這個“噪聲”又是肉眼看不見的,那么這個AI模型的輸出就會完全發生改變。
業界有個實驗,輸入熊貓的圖片,用AI系統進行識別,它以約60%的自信度認為這是熊貓。然后,再在圖上加上很小的“噪聲”,這時候AI系統就輸出了另外一個結果:猴子,并以接近100%的自信度否認了這是一只熊貓。
我們需要注意的是,攻擊本身的形式是非常多樣的,而且對人類肉眼來說,它能做到完全不被察覺。同時,我們最近做的實驗表明,醫學影像AI模型從安全性角度來說比自然圖像更加脆弱,更容易受到攻擊。
為了抵御攻擊,我們必須構建防守的模型,從而成功識別某個圖像是攻擊圖像還是原始圖像。而一旦一個更有力的攻擊又加入進來時,我們就必須再去找到這個新的變化,一步一步建立起整個防守系統。這也是我們目前正在積極推進的工作。
技術是在不斷進步的,對于醫工人員來說,“防”的工作要走在“攻”的前面,有了防守系統之后,就能主動去尋找攻擊,更好地保障數據安全。
(作者系中國科學技術大學講席教授兼生物醫學工程學院執行院長,博士生導師,中科院計算所客座研究員,香港中文大學(深圳)客座教授)
對話——
問:作為臨床醫生,大家都知道高質量的臨床研究一定需要基于多中心的持續對照研究。但在這個過程中,患者隱私會否泄露、數據傳輸能否安全,目前相關技術的發展水平能否消除這些隱患?
答:數據集的應用和安全性應該找到一個平衡點。
一方面,數據保護太嚴,會嚴重影響AI模型的學習效率,也會影響準確性,導致因噎廢食,這與我們利用智能醫學進行賦能的初衷是相違背的。醫學太復雜了,只有多中心的數據,才能提供多角度的信息,從而產生新的火花。
目前,我們的技術已經基本能保證在數據不出醫院的前提下,讓大家一起使用數據,共同訓練模型。同時,為了滿足需求,也解決大家的顧慮,很多團隊也在研究如何使相關的硬件加速,或者不用同態加密技術也可以保護隱私的算法。
從根本上說,開放是第一步,這是一個認知問題。只有實現了數據共享,才能在這個基礎上找到共同點、訓練模型,推進智能醫學的發展。
但另一方面,我們還必須警惕兩條紅線:絕對不要把數據流到境外去,絕對不要進行數據交易。對此,業界也一直在呼吁政府部門和相關機構出臺數據共享的標準和方式,我們也在編寫一些共識,探討可行性,希望加強對相關人員的約束,確保數據安全。(本段文字摘自線上講座問答環節)
醫療衛生機構在醫療診斷、衛生防疫、健康管理等實踐中,依法采集了大量必要的數據,其中包括相當一部分的個人信息。當今,數字化技術的發展能在多大程度上保障醫療數據在傳輸、應用中的安全?如何解決智能醫學發展過程中出現的數據確權、隱私保護、抵御攻擊等一系列問題?前不久,在《協和醫學雜志》舉辦的線上講座中,專家們就這一話題展開了深入探討。同時,我們也約請了北京協和醫院的相關學者就醫療衛生機構如何保障數據安全分享了心得體會。
保障數據安全,醫療衛生機構從何做起
□ 北京協和醫院 陳政 張志文 龍笑 吳友武
法律關注的數據收集、存儲、使用、加工、傳輸、提供、公開等全生命周期的關鍵節點,正是醫療健康數字化戰略規劃和大數據智能化建設應用的主要任務和重點適法環節。隨著數字技術的發展和賦能,醫療衛生機構亟須在實踐中構建數據安全,提升個人信息、敏感信息、隱私信息精準識別、動態標注、精細管理、合理授權、有效鑒權的適法能力,確保好用夠用、依法合規。
醫療衛生機構必須加強制度設計,提升技術水平,確保在涉及個人信息的全生命周期管理中,落實法律規定的數據安全和個人信息保護要求,實現全流程可知、可管、可控、可查。
健全相關制度
數據采集感知工作規范和分工機制 按照法定職責任務,形成中央地方、行業社會、網上網下、境內境外依法合規、分工協作的大數據采集感知工作規范,落實數據采集責任,嚴格執行法律政策規定,利用公開、管理、服務、技術等多種手段,依法獲取數據資源。
數據分類分級的制度 嚴格執行相關法律對數據性質的規定及數據處理的要求,建立醫療健康大數據分類分級制度和重要數據資源目錄,對個人信息、敏感信息、隱私信息以及一般數據進行科學、全面、動態的界定,明確數據分級分類的標準規范和管理要求。
與職責任務及使用場景適配的數據使用規則 按照職責分工和任務性質,并統籌不同場景下環境、設備、網絡等多種因素,科學授予對應數據資源的使用權限,并實現動態控制,確保好用夠用、依法合規。
數據安全的全流程管理制度 制定并執行醫療健康數據收集、使用、存儲、加工、傳輸、提供、公開等全生命周期、全流程的數據安全管理制度,明確各處理環節的數據安全責任和管理要求,對關系國家生物基因安全和重大公共衛生利益等國家核心數據,實行更加嚴格的管理。建立數據安全應急處置制度,提高數據安全事件感知和控制能力。
數據安全官制度 醫療、衛生機構是重要的數據處理者,應當明確數據安全負責人和管理機構,制訂數據安全保護的戰略、規劃、方案和機構,落實數據安全保護責任,促進醫療大數據更加有序地服務人民健康事業。
建設技術能力體系
建設個人信息、敏感信息、隱私信息識別和標注的能力體系,向收集、存儲、使用、加工、公開等關鍵數據處理環節以及為監測評估、監督檢查工作等提供資源化、服務化的識別技術能力,讓個人信息識別、標注的能力便捷獲得、便利使用。
建設數據分級分類能力體系,積累數據分級分類的知識、條目和算法模型,動態、全面地對數據進行分級分類,既能根據數據項、數據集、數據來源等要素敏感性對數據進行精細化分類,又可根據觸及的??仡惷舾袠俗R、敏感樣本、敏感內容的類型,對數據記錄精細化分級。
建設脫敏技術能力體系,對個人信息、敏感信息、隱私信息,進行不同強度的脫敏處理。
建設加解密技術能力體系,對高敏感度的敏感信息、隱私信息等,進行不同強度的加密、解密處理。
建設精細化授權和精準鑒權技術體系,依照法律、行政法規和國家標準的強制性要求,按照職能責任,對使用者按照角色、任務、場景的要求,精細授予對應的級別、類別的數據使用權限。
建設以密碼學、聯邦學習、可信計算環境等技術為基礎的隱私計算技術體系,滿足不同強度隱私場景下多種加密計算、分布式計算、安全可信計算等隱私技術動態組合的需求,輸出復合的隱私計算技術能力。
在賦能與安全中找到平衡
強化使用者的多維身份認證和持續信任評估,確保主體可信。
強化數據賦能關鍵節點處理邏輯的閉環控制,確保行為合規。強化存儲、傳輸、使用關鍵環節數據安全保護,確保實體安全。強化大數據動態審計、安全分析和預警研判,確保風險可知。強化個人信息保護和數據安全紅線責任,確保全局可控。強化數據處理全流程重點行為日志記錄和保護,確保操作可查。
構筑三道防線
數據采集單位第一道處理 由數據采集單位,通過數據分類分級和過濾技術措施,將特定目標的高敏感且不可復用的數據進行濾除,對隱私度、敏感度高但需要用于醫療或公共衛生管理的數據,直接去標識化處理后,向大數據平臺提供,同時提供全局性唯一記錄ID,便于嚴格事由審批后,由指定部門回溯標識信息并落地調查。
大數據平臺第二道處理 由大數據平臺,通過數據分級分類和脫敏技術措施,對敏感度高且不可復用的數據進行濾除或者高強度加密處理;對隱私度、敏感度高但需要用于醫療或公共衛生管理的數據,直接去標識化處理,并為后續經審批后回溯提供條件;對一般敏感度的個人數據,在分級分類后,對數據進行變換、斷開標識并標識記錄關系等脫敏處理,但具備查詢、比對、分析統計等計算條件。
平臺數據服務第三道處理 由大數據平臺服務技術,基于訪問主體的職責分工和任務事由的審批情況,以及主體所在的網絡、設備、APP、物理環境等實際因素,動態適配和反饋不同強度的脫敏數據或原始數據。
用好區塊鏈,實現醫療大數據可溯源
□ 彭紹亮
醫療大數據主要分為兩大類:電子病歷和醫學影像,當然還包括一些其他病理的數據。而智能醫療,就是希望能夠對這些數據進行二次挖掘,在診斷和治療上進行輔助。
廣義的電子病歷概念很廣,包括患者的基本信息、賬單數據、藥物史、臨床診斷歷史、生化檢測、用藥、理化甚至是醫療保險的數據。在這些基礎上,結合人工智能,我們可以進行臨床的預測、精準醫學、藥物設計等,在很大程度上幫助醫生和患者共同制定臨床診療路徑,分析、提高診斷的精準度和效率。
但是早些年,我們的研究只能基于單中心的醫療大數據,沒有解決數據孤島的問題。而近些年,隨著區塊鏈技術的發展和應用,我們已經能越來越好地對數據的可信度和分享進行保障。
簡單說來,區塊鏈就是一個去中心化的、分布式的賬本數據庫,具有隱私保護、不可篡改的特性。它由一個塊身和塊頭組成,和最早的比特幣很相似,分為數據層、網絡層、共識層、激勵層、應用層。區塊鏈解決了從信息互聯互通到價值傳遞,從信息互聯網到價值互聯網的問題。
在以往,互聯網只能傳遞信息,而現在通過區塊鏈,我們能夠傳遞價值,就像比特幣一樣,在信息的基礎上,還能把賦予在它身上的金融屬性發揮出來,也叫作資產的數字化。我們國家是最早推出數字貨幣的國家,原因就是看中了區塊鏈的去中心化、匿名性、便捷性、不可篡改性和可編程性。
而我們正在做的,就是讓區塊鏈在醫療健康等多個領域進行多元化的滲透,形成一個可信的醫療大數據平臺。
在這個平臺上,相關的用戶及機構可以進行資質的認證和注冊,將原本分屬不同中心的數據灌入,打造成一個可信的數據池,除了醫療本身的信息,還包含了企業項目、區域建設、地理信息、人文社會以及一些政府開放的數據。在此基礎上,由政府部門、醫療機構等對數據池的有效性、分界性進行監督和審定,而后,平臺上的用戶即可根據不同的訪問權限,在平臺保障數據安全的前提下,對數據進行授權、分享、查詢等。
我們曾研發過一個藥品和疫苗溯源的區塊鏈,以防止假疫苗和假藥事件的發生。在藥品生產過程中,我們就開始對其進行監管。通過手機端,我們設計了一個很簡單的應用,讓用戶得以將在售藥品、在庫藥品、已發藥品進行全流程的記錄。這樣,一株藥就是一個區塊鏈,手機一掃,就可以看到這株藥的來源。
當然,這個鏈條也在不斷增長,我們也可以隨著它的變化,看到這株藥物或疫苗的生產、出庫、入庫、打包的時間,保證它的生產及流通安全。尤其是在藥品或疫苗生產前期的細胞培養階段,我們也會進行持續錄入,直到后面的滅活、純化、制備等步驟,保證數據的可信、可用。在使用過程中,出現任何問題,都可以做到全流程可溯源。
與此同時,我們也要認識到,解決數字孤島問題,進行更深入的智能學習,數據的移動勢必會產生安全隱患。比如被篡改,或是造成隱私泄露等。所以,我們希望,能把智能學習的模型進行壓縮,使它在不同的數據之間移動,讓數據“可用不可見”。這樣,對于醫療機構來說,醫療數據便無須進行脫敏處理,不用離開醫院,便可以套在人工智能的模型上,簡單應用,發揮價值。
(作者系湖南大學國家超級計算長沙中心副主任,博士生導師,教育部2020“長江學者獎勵計劃”特聘教授)
保障AI模型安全,“防”要走在“攻”前面
□ 周少華
醫學影像是構成醫療大數據的重要部分。我先簡單介紹一下醫學影像的一些特點。
影像:多模高精 醫學影像包括了CT、超聲、核磁等等多種模態。隨著技術的進步,很多醫學影像已越來越接近真實圖像,具備高精度的特點。
數據:非標孤立 影像數據的采集在不同中心沒有統一的標準,同樣的胸片,在不同醫院拍可能都不一樣。而在這些數據之間,也存在彼此孤立的狀態,不同的醫院,甚至同一家醫院內部不同科室之間也沒有形成互聯。
疾?。洪L尾突發 很多影像數據屬于典型的長尾分布,大量的數據分屬于有限幾個類別的常見??;罕見病品類眾多,但每一類卻只有極少量的數據。此外,像新冠肺炎這樣的突發疾病,早期的數據量也是非常稀少的。在這種情況下,數據的采集,以及在此數據基礎上構建AI系統是很有難度的。
標注:稀疏有噪 醫學影像形成數據集之后,就要依據需要進行高質量的標注,比如,某一個器官的邊緣在哪里。但是,我們目前擁有的標注量很少,而且不同的醫生對同一個影像有時會產生不同的解讀,造成標注的噪聲。
樣本:各異不均 比如肺結節,正樣本和負樣本之間差異很小,且正負樣本之間的數量非常不均衡,通常負樣本的數據量大得多。
任務:復雜多樣 智能醫學為我們提出的工作任務是多樣化的,而面臨的數據集又是極為差異化的。
安全:脆弱不穩 假設我們現在針對某一類影像構建了一個AI模型,要根據影像檢測相關疾病的特征點。而一旦對這個模型進行攻擊,比如,加一點點“噪聲”,且這個“噪聲”又是肉眼看不見的,那么這個AI模型的輸出就會完全發生改變。
業界有個實驗,輸入熊貓的圖片,用AI系統進行識別,它以約60%的自信度認為這是熊貓。然后,再在圖上加上很小的“噪聲”,這時候AI系統就輸出了另外一個結果:猴子,并以接近100%的自信度否認了這是一只熊貓。
我們需要注意的是,攻擊本身的形式是非常多樣的,而且對人類肉眼來說,它能做到完全不被察覺。同時,我們最近做的實驗表明,醫學影像AI模型從安全性角度來說比自然圖像更加脆弱,更容易受到攻擊。
為了抵御攻擊,我們必須構建防守的模型,從而成功識別某個圖像是攻擊圖像還是原始圖像。而一旦一個更有力的攻擊又加入進來時,我們就必須再去找到這個新的變化,一步一步建立起整個防守系統。這也是我們目前正在積極推進的工作。
技術是在不斷進步的,對于醫工人員來說,“防”的工作要走在“攻”的前面,有了防守系統之后,就能主動去尋找攻擊,更好地保障數據安全。
(作者系中國科學技術大學講席教授兼生物醫學工程學院執行院長,博士生導師,中科院計算所客座研究員,香港中文大學(深圳)客座教授)
對話——
問:作為臨床醫生,大家都知道高質量的臨床研究一定需要基于多中心的持續對照研究。但在這個過程中,患者隱私會否泄露、數據傳輸能否安全,目前相關技術的發展水平能否消除這些隱患?
答:數據集的應用和安全性應該找到一個平衡點。
一方面,數據保護太嚴,會嚴重影響AI模型的學習效率,也會影響準確性,導致因噎廢食,這與我們利用智能醫學進行賦能的初衷是相違背的。醫學太復雜了,只有多中心的數據,才能提供多角度的信息,從而產生新的火花。
目前,我們的技術已經基本能保證在數據不出醫院的前提下,讓大家一起使用數據,共同訓練模型。同時,為了滿足需求,也解決大家的顧慮,很多團隊也在研究如何使相關的硬件加速,或者不用同態加密技術也可以保護隱私的算法。
從根本上說,開放是第一步,這是一個認知問題。只有實現了數據共享,才能在這個基礎上找到共同點、訓練模型,推進智能醫學的發展。
但另一方面,我們還必須警惕兩條紅線:絕對不要把數據流到境外去,絕對不要進行數據交易。對此,業界也一直在呼吁政府部門和相關機構出臺數據共享的標準和方式,我們也在編寫一些共識,探討可行性,希望加強對相關人員的約束,確保數據安全。(本段文字摘自線上講座問答環節)
上一篇:醫療機構投訴接待處理要“十應當”
下一篇:氣候變化對健康威脅不斷增加