《騰訊隱私計算白皮書2021》重磅釋出|附下載

騰訊研究院與騰訊資料平臺部、騰訊安全、騰訊雲區塊鏈 、騰訊資料隱私保護部、騰訊安全平臺部、騰訊廣告聯合釋出《騰訊隱私計算白皮書2021》,旨在與業界共同探討、推動隱私計算技術產業的發展,尋求在數字治理中發展和安全的平衡點。

白皮書主要分為五個部分。第一部分闡述了隱私計算的發展背景、基本概念和主要作用。第二部分主要分析了隱私計算的技術體系,重點對聯邦學習、可信計算、安全多方計算以及區塊鏈和隱私計算融合發展進行了探討。第三部分主要描述了隱私計算當前應用的重點行業和場景。第四部分重點探討了在法律視角下隱私計算在資料安全合規方面的作用和痛點。第五部分重點從技術、應用、法律等視角對隱私計算的發展進行了展望。

隱私計算應運而生,成為資料協作
過程中保護多方資料權益的技術解
隱私計算(Privacy Computing)是一種由兩個或多個參與方聯合計算的技術和系統,參與方在不洩露各自資料的前提下透過協作對他們的資料進行聯合機器學習和聯合分析。隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的資料不出本地,在保護資料安全的同時實現多源資料跨域合作,可以破解資料保護與融合應用難題。常見的實現隱私計算的技術路徑包括聯邦學習、安全多方計算、可信計算等,此外區塊鏈也是隱私計算的重要補充。
對於個人消費者而言,隱私計算應用有助於保障個人資訊保安。個人消費者在享受數字經濟便利與發展紅利的同時,個人資訊也被採集和廣泛應用,同時也面臨著資訊洩露風險,而隱私計算在很多場景的應用,可以提升對個人資訊的保護水平,降低個人資訊在應用過程中洩露的風險。
對於企業和機構而言,隱私計算是資料協作過程中履行資料保護義務的關鍵路徑。一方面,在企業內藉助隱私計算,能夠切實保護企業在採集、儲存、分析等過程中的關鍵資訊、商業秘密等資料,既能保護企業自身的利益,還能踐行企業的資料保護責任。另一方面,隱私計算能夠促進企業的跨界資料合作,由於隱私計算能夠實現資料可用不可見,能夠幫助不同企業和機構與產業鏈上下游的主體進行聯合分析,打造資料融合應用,同時在資料協作的過程中履行資料安全和合規義務,實現生態系統內的資料融合,推動企業自身、產業層面的資料價值最大化。
對於政府而言,隱私計算是實現資料價值和社會福利最大化的重要支撐。一是藉助隱私計算能夠在政府資料開放過程中,在採集、儲存、協作等方面提升資料安全和隱私保護水平,在保障資料安全的同時增強全社會的資料協作,透過資料的應用最大化社會福利。二是藉助隱私計算推動資料要素賦能產業升級,例如北京國際大資料交易所上線北京資料交易系統,基於區塊鏈和隱私計算技術支援的全鏈條交易服務體系,將為市場參與者提供資料清洗、供需撮合、法律諮詢、價值評估等一系列專業化服務。

隱私計算三大技術流派交織演進,
和區塊鏈融合成為主流方向
聯邦學習在深度學習領域的探索成為未來焦點。聯邦學習在機器學習領域的應用已經比較成熟,如支援聯邦邏輯迴歸、聯邦XGBoost等模型,而在深度學習領域的應用還處於探索階段。一方面,聯邦學習需要支援更加多樣化的深度學習模型,如廣告領域常用的雙塔模型、點選率預估模型、自然語言處理模型等,尤其支援多方聯邦神經網路模型的訓練,並提供高效的、安全的、無損的聯邦模型訓練協議,從而實現基於深度學習的聯合建模。另一方面,聯邦學習需要支援海量資料的深度學習模型訓練,在計算機視覺、自然語言處理、廣告等領域需要透過海量資料來訓練深度學習模型,但受限於目前聯邦學習的技術缺陷,需要透過增加聯合計算的並行度,最佳化多方對接的介面等方式實現對海量資料處理的支援。
安全多方計算與其他隱私計算技術融合應用成為主流趨勢。由於安全多方計算需要消耗大量的計算和通訊資源,目前應用更加適用於小規模資料量,並且應用主要是聚焦相對簡單的統計、查詢等型別的計算,而基於安全多方計算的聯合建模框架只能支援相對簡單的機器學習模型,如邏輯迴歸模型等。其主流的應用主要以安全技術的形式融合在其他隱私計算解決方案中,例如與聯邦學習的結合,在樣本對齊階段透過隱私集合求交來實現參與方公共樣本ID的發現;在聯邦模型訓練階段,可以透過同態加密、秘密分享享等技術來實現對中間技術結果或轉化結果的保護。
圖1:可信計算應用例項圖
可信計算的易用性提升是產品化應用的重要方向。為了更好地將平臺功能應用於實際業務,易用性是建設可信計算基礎應用平臺所需兼顧的另一關鍵要素。基於原生SDK的開發存在學習門檻,很多實際業務應用依賴特定的庫檔案(如TensorFlow),此時基於SDK進行開發會非常繁瑣。在TEE研究領域,已經出現了諸如庫作業系統LibOS、程式自動分割等易用性適配方式。以SGX為例,LibOS實施方案中,比較典型的包括Graphene、SCONE、Occlum等。在使用相應LibOS的情況下,業務程式碼可以無需重構,直接透過LibOS在Enclave內部執行,這大大方便了業務應用的接入。
區塊鏈有望成為隱私計算產品中必不可少的選項,在保證資料可信的基礎上,實現資料安全、合規、合理的有效使用。一是區塊鏈可以保障隱私計算任務資料端到端的隱私性。二是區塊鏈可以保障隱私計算中資料全生命週期的安全性。三是區塊鏈可以保障隱私計算過程的可追溯性。
區塊鏈與隱私計算結合,使原始資料在無需歸集與共享的情況下,可實現多節點間的協同計算和資料隱私保護。同時,能夠解決大資料模式下存在的資料過度採集、 資料隱私保護,以及資料儲存單點洩露等問題。區塊鏈確保計算過程和資料可信,隱私計算實現資料可用而不可見,兩者相互結合,相輔相成,實現更廣泛的資料協同。

資料協作需求推動隱私計算應用
從金融、醫療等向其他行業延伸
隱私計算助力銀行聯合建模,提升反欺詐模型水平。例如某銀行應用騰訊隱私計算產品,融合多方的黑灰產行為等特徵,反欺詐模型的KS提升30%以上,每年阻止數億資金的風險貸款申請。
隱私計算有效助力醫學影像識別、疾病篩查、AI輔助診療、智慧問診諮詢等。例如多家醫療機構可以透過橫向聯邦學習聯合構建目標檢測模型,用於輔助透過醫療影象的疾病檢查(如肺部X光片檢查等)。基於橫向聯邦學習的解決方案在各醫療機構的資料不出域的前提下,利用多家醫療機構的資料聯合訓練一個目標檢測模型,使得有效訓練資料顯著增加,多方聯邦訓練的模型的效能比單個醫療機構訓練的模型的效能提升30%以上。
基於隱私計算助力政府資料開放,實現精準施策。例如在某地,透過騰訊安全提供的聯邦學習平臺,實現了政務、銀行、企業的三方的協作建模,在疫情期間對小微企業進行了精準畫像,模型的AUC提升了40%,實現了企業綜合評估、銀行授信和政府貼息全閉環,大大降低了資訊不對稱導致的成本,提升了資金流轉的效率,促進了產業政策精準落地。
聯邦學習助力廣告程式化交易聯合建模,提升廣告主投放效果和使用者體驗。透過廣告主和流量主的聯邦建模,融合雙方的資料優勢,在遊戲、金融、教育、電商行業的廣告應用案例中能夠取得顯著效果提升,如某電商ADX模式中,ROI能夠取得了10%以上的增長。

隱私計算助力資料安全合規的
價值凸顯,但仍存在較大提升空間
隱私計算有望成為資料協作過程中資料合規和隱私保護的技術工具。一是隱私計算在無需轉移資料物理儲存伺服器的情況下實現資料建模分析,從而減少資料協作過程中風險。二是隱私計算可從技術層面滿足資料最小化、完整性和機密性原則要求。三是隱私計算可證明、記載企業是否履行資料安全保障義務。
隱私計算的推廣應用仍存在合規痛點。一是採用隱私計算,仍需明確使用者授權同意機制。二是隱私計算應用過程中也需重視資料安全風險。三是隱私計算應用過程中個人資訊主體權利請求的實現仍需進一步探索。
圖2:隱私計算在金融反欺詐場景應用示例

技術演進、應用拓展和法律完善
將加速隱私計算商業化程序
隱私計算效率和效能提升是未來規模化推廣的重要前提。隱私計算雖然已經開始在不同行業初步應用,但是受限於計算複雜度、多方互動效率、模型效能等問題,大部分的應用場景均聚焦於少量資料的支援,對海量資料場景的支援能力還有待提升。但隨著當前大資料產業的迅速發展,支援更大規模的資料合作和聯合計算需求將越加迫切,透過最佳化演算法和協議設計、與雲平臺的融合應用、軟硬體協同設計等方式提升計算、互動效率將是當下和未來隱私計算髮展需要重要方向,效率、效能、成本等綜合能力將是各類主體在隱私計算產業競爭的重要抓手。
隱私計算將加速基於資料協作的業務模式創新。一方面隱私計算能夠規避資料協作過程中傳統資料收集、傳輸、交易等過程中帶來的安全風險,解決網路連線費用昂貴、傳輸速度緩慢、傳輸安全性低等問題,為業務的發展提供更多的自由空間。另一方面隱私計算透過安全機制和技術手段聯通多方資料來源,重新定義各資料協作方的合作方式,可以解決以往資料主體的協作困境,從而實現業務形態、應用場景、商業模式等方面的創新。
透過技術與制度配套推進的方式實現資料保護將是隱私計算髮展的有效路徑。隱私計算雖然從技術層面實現了隱私保護與資料協作之間的動態平衡,對橋接資料孤島、釋放資料價值具有不可替代的作用。但需要強調的是,技術固然是實現合規的關鍵手段,但是合理、科學的制度也是資料保護過程中必不可少的一環。對於隱私計算而言,在接受法律制度規制的同時,配合法律、政策、標準等相關制度共同實現資料保護將是其產品化和商業化的前提。

獲取完整報告?:
關注“騰訊研究院”公眾號,後臺回覆關鍵詞“隱私計算白皮書”,下載報告全文。
往期文章

閱讀原文


相關文章