浙江大學求是講席教授任奎:隱私計算的前沿進展

作者 | 維克多
編輯 | 青暮
2021年12月17日,浙江大學求是講席教授、ACM Fellow、IEEE Fellow、浙江大學網路空間安全學院院長、電腦科學與技術學院副院長任奎在CNCC 2021 “迎接數字化轉型的安全挑戰”論壇中做了《隱私計算:向實用化邁進》的報告。
在報告中,任奎圍繞資料脫敏、差分隱私、安全多方計算三個方向,討論了隱私計算的前沿進展,提出不同技術可以在資料全生命週期的不同階段發揮作用。
以下是演講全文,AI科技評論做了不改變原意的刪改和整理:
今天分享浙江大學網路安全學院在隱私計算方面的思考和研究,題目是《隱私計算:向實用化邁進》。
目前,隨著大資料時代的到來,隱私資料洩露問題日益突出,例如國內網際網路大企業由於嚴重違法違規收集使用個人資訊被勒令下架整改,國外的擁有億級使用者的網際網路大企業的個人隱私資料被洩露。因此,無論在哪個國家、科技公司還是傳統行業,都在面臨資料和隱私洩露問題。
在這種背景下,世界上各個國家對監管與合規的要求都變得越來越嚴格。從中國角度,2012年第十一屆全國人民代表大會常務委員會就通過了《關於加強網路資訊保護的決定》;2016年透過《中華人民共和國網路安全法》,這部代表性的法律也體現了中國對資料安全隱私的重視;尤其近兩年,國家部門也從各個角度頒佈相關法律,形成了比較完善的法律體系。例如《資料安全法》《個人隱私保護法》等等,其具體抓手也越來越明確。
從世界範圍內來看,歐盟在《通用資料保護條例》(GDPR)落地之後,開了很多大額罰單,這既體現了日益嚴重的資料隱私洩露問題,也體現了越來越嚴格的監管合規要求,同時也給研究領域和產業領域帶來了很多機會。
Gartner 在2021年對資料隱私保護戰略做了預測:到2023年底,全球75%的人口的個人資料將受到現代隱私法規的保護;到2023年底之前,全球超過80%的公司將面臨至少一項以隱私為重點的資料保護法規;到2024年,全球隱私驅動的資料保護和合規技術支出將突破150億美元。因此,挑戰和機遇並存,困難與希望並存。
日益嚴格的法律法規,也提醒我們回顧一下廣義上隱私計算的涵蓋範圍與發展。廣義上的隱私計算指 “兩個或者多個參與方在不洩露各自資料的前提下,透過協作對資料進行聯合計算處理。”
其實,這裡隱含“安全性”和“高效性”兩個關鍵詞。從1982年安全多方計算、1983年可信計算、1985年零知識證明、2006年差分隱私到2016年聯邦學習,相關技術在不斷髮展,都在圍繞安全與效率而做努力。

隱私計算滲透影響到資料全生命週期的各個階段。圍繞資料收集、處理、儲存、共享、傳輸、銷燬的六個過程,有各種隱私計算的相關技術可以嵌入。下面主要討論

安全多方計算、差分隱私、資料脫敏

三個方面。


1
安全多方計算前沿進展
安全多方計算是密碼學研究的一個重要分支,通俗定義是:為解決一組互不信任的參與方之間在保護隱私資訊以及沒有可信第三方的前提下協同計算問題而提出的密碼協議與理論框架。
狹義的安全多方計算主要包括以下兩種實現方式:
1. 針對布林電路以姚氏混淆電路方式實現的兩方協議;
2. 針對布林電路或者代數電路以秘密分享方式實現的兩方或者多方協議。
在廣義上,全同態加密、可信硬體以及聯邦學習都可以看做安全多方計算的技術框架。
在應用程度上,安全多方計算可以分為通用安全多方計算,可以支援大多數計算任務,實現常用基本計算運算元協議,例如加、乘、比較、矩陣運算,將具體計算任務分解到基本運算元;專用安全多方計算,以“高效實現專用實用計算任務”為目標,可以針對專用計算任務和應用場景定製多方安全計算協議,常見的專用協議包括隱私保護求交集、隱匿查詢、零知識證明、聯合建模等等。
目前,業界針對安全多方計算開發出了各種產品,但如何進行比較?我認為可以透過安全假設、效能以及安全保障三個維度進行評測。例如在安全假設中,採用的是同步、非同步、半同步中的哪種網路假設?敵手模型採用的是半誠實、惡意還是隱匿作惡?
而在安全保障中,應該考慮隱私性、正確性、公開可驗證性、健壯性以及公平性等六個角度。此外,在“前提”和“保障”之間,技術產品實現的效能如何?例如參與方資料是否平衡、參與節點算力是否對稱等等。
國家也開始積極的探索,例如信通院提出《隱私計算多方安全計算產品效能要求和測試方法》,透過基礎運算、聯合統計、盈利查詢、安全求交等等維度考慮產品效能。
目前在學術界,安全多方計算也在穩步發展。在基於混淆電路的安全多方計算前沿協議層面,如上圖所示,針對參與方數量、門限、敵手模型以及入侵假設,都研究了對應的“方法”。
基於秘密分享的安全多方計算前沿協議層面,已經有大量的開源安全多方計算框架,如CrypTFlow、 PySyft、 Rosetta等支援機器學習的框架;MP-SPDZ、 SCALE- MAMBA等通用框架。前者對效能要求更高,後者認為安全是“第一要務”。
零知識證明領域前沿協議層面的進展如上圖所示,在加速、計算量、證明大小等方面各有千秋。
隱匿查詢前沿協議層面,目前最好的技術屬於微軟和谷歌。它們完成百萬級的查詢,大概只需要2秒~4秒。在安全求交前沿協議層面,考慮150Mbps頻寬的情況下,也能達到10秒~30秒的百萬級查詢。
聯合建模層面,Sp’17和PETS’20雖然在效能的表現不是最好,但是在安全層面卻是最嚴謹的,都能保證只洩露最終模型,不洩露中間結果。
目前,浙江大學也在安全多方計算領域開展了一些工作。例如研究統一MPC隱私性度量標準;研究統一安全假設的評分標準與各維度的權重;研究統一安全保障的評分標準與各維度的權重;研發安全多方計算靶場;完善安全多方計算效能測評標準與平臺等等。
2
差分隱私前沿進展
差分隱私和密碼學不太相關,是較新的概念。其思想和工作原理大致可以理解為:在資料中加入噪音,使得統計學相關的查詢既能得到有效的資料,又能保證安全。學術上的定義是:透過建模單個參與者對資料造成影響,實現對隱私保護(洩露)程度的量化。
目前,該方法可以分為兩種:全域性差分隱私,可信的資料管理者收集資料並在資料集的統計結果上新增擾動;本地差分隱私,使用者在本地對資料新增擾動後,傳送給非可信的資料管理者。
從計算角度看,差分隱私能在一定的程度上解決“密碼學手段開銷過大”的缺點。對比加密方法解決資料計算過程中的隱私洩露,而差分隱私方法解決計算結果的隱私洩露。目前,差分隱私的部署和使用大多為政府機構與網際網路巨頭。
例如,2016年蘋果在WWDC大會上宣佈使用基於CM- Sketch和阿達馬變換的本地化差分隱私技術來保護IOS、MAC使用者隱私。相比於布隆過濾器, Count- Min Sketch更適用於頻率統計任務;阿達馬變換也能有效降低通訊開銷。但有研究人員認為蘋果在實際應用中設定的隱私預算引數超出了可接受的範圍,隱私保護能力不夠強。
微軟也有相應的動作,並在2017年將差分隱私方案部署到了win 10系統中。此外微軟和哈佛大學合作推出了 OpenDP開源差分隱私平臺,希望降低中小開發者應用差分隱私的門檻。
阿里巴巴也在 Datatrust隱私增強計算平臺中部署落地差分隱私保護的聯邦學習決策樹訓練。
差分隱私之所以受到關注,主要是它有嚴謹的理論模型,提供了可驗證的量化隱私保護機制;提供了傳統密碼學無法提供的隱私保護手段,具有更輕量級的計算負載,提高了隱私保護效率。
但也存在理論和應用上的挑戰。例如在理論層面,資料可用性較差:差分隱私在查詢結果中加入隨機化,導致資料可用性下降;資料型別有限:缺乏針對複雜資料型別的有效差分隱私保護方法。
在應用層面,差分隱私不適用於單一樣本的確切資訊查詢;複雜應用場景下差分隱私得到的結果誤差較大;並且,目前還缺乏測試演算法(乃至自動測試演算法)是否符合差分隱私的方法。
如今,學術界針對差分隱私的機制最佳化有了一些進展。例如上圖所示的最優機制設計、機制後處理、最優機制搜尋等工作。
相應地,Shuffle機制、Subsample機制的提出增添了差分隱私放大機制的研究。

針對應用難題,學界也提出了差分隱私正確性測試方法,包括多輪取樣與機率論技巧相結合的方法、程式分析的方法等等。


3
資料脫敏前沿進展
資料脫敏( Data Masking)是根據制定的脫敏規則,針對敏感資訊進行資料變形或形成遮蔽,降低資料的敏感級別,擴大資料可共享和被使用的範圍,達到保護隱私資料安全的目的。
根據是否脫離生產環境,資料脫敏可以分為動態資料脫敏和靜態資料脫敏。前者對敏感資料的查詢和呼叫結果進行實時脫敏。在訪問敏感資料的同時實時進行脫敏處理,可以為不同角色、不同許可權、不同資料型別執行不同的脫敏方案,從而確保可用而安全。
後者(靜態資料脫敏)是指資料脫敏後分發至測試、開發、資料分析等場景。是資料的“搬移並模擬替換”。將資料脫敏處理後,下發給下游環節取用和讀寫。脫敏後資料與生產環境相隔離,滿足業務需求的同時保障生產資料庫的安全。
如上圖所示,資料脫敏有很多方式。例如資料一致性脫敏、遮蔽脫敏、保持資料格式脫敏、泛化脫敏、保持資料特徵脫敏等等。
作為資料安全防護工作的重要一環,資料脫敏技術和產品已作為常規手段,而敏感資訊依賴於實際業務場景和安全維度,識別和梳理具體業務場景的敏感欄位迫在眉睫。同時,目前市場上的資料脫敏供給商可分為資訊保安服務服務商、自研自用企業以及通用資料脫敏工具開發商三類。但在全球範圍內尚未形成脫敏的具體標準。
目前,浙江大學與阿里巴巴合作開發了DMS資料管理系統,包含了40萬個例項、400萬資料庫、10億張表,能夠實現根據敏感資料自動分級分類、異常訪問風險識別等等功能。
資料脫敏的應用非常廣泛,但也存在一些難點。例如如何確定資料脫敏的目標欄位?當前選擇脫敏資料目標欄位主要依賴於人工標記,在準確性、安全性和高效性上仍有較大缺陷 。
如何保證資料脫敏過程的安全性? 當前主流演算法的脫敏過程仍不完善,有洩露和被取擊的風險。
如何評判資料脫敏結果的脫敏程度?目前市場上有許多種類的脫敏工具和演算法技術,但是沒有一種統一的標準來量化和衡量脫敏結果的好壞。
總結一下,資料市場依託隱私計算打破資料孤島非常重要。從資料脫敏、資料溯源到資料融合,再到資料確權、資料定價,隱私計算已經發展出了非常有潛力的技術,它在未來資料要素化資產市場配置過程中也會起到底座作用。
綜上所述,隨著資料安全監管與合規要求的日益嚴格,隱私計算技術所面臨的機遇與挑戰、困難與希望並存,是未來迎接數字化轉型的重要安全問題之一。

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將“AI科技評論”設為星標賬號,以及常點文末右下角的“在看”。

閱讀原文


相關文章