曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI吃資料,越吃越便利。資料從哪來?很可能是從你的隱私裡來。
但科技公司隨意使用隱私資料的時代可能要終結了。
《個人資訊保護法》草擬部分中已經把個人公開的資料不得用於當初公開之初衷之外的目的使用。這意味著對資料產生的目的進行了界定。資料不能被隨意使用。

如果沒有隱私資料的“投餵”,科技公司的 AI演算法還能繼續走下去嗎?我們也會因此失去演算法帶來的便利嗎?
技術產生的問題,由技術解決。
此前,谷歌Chrome瀏覽器用“密碼檢查器”功能說明,即使不獲取隱私,演算法依舊能造福每個人。
當你在網站上輸入一段密碼後,Chrome可能會給你彈出如下提示:
你的密碼可能已在其他網站洩露。

有些使用者在很多網站上都用同一套密碼。這些網站裡如果有一個被駭客攻破,那麼其他網站賬戶也都岌岌可危。
而谷歌的密碼檢查器很好地避免了一個賬戶洩露而導致其他賬號連帶遭殃的問題。
因為谷歌擁有一個總量40億的密碼洩露庫,當個谷歌用你的密碼與這個資料庫比對後,便知道你的密碼是否洩露。
那麼谷歌會在比對過程中獲得你的密碼嗎?
要解答這個疑問,就要說到現在正得到廣泛應用的“隱私計算”技術。
因為“隱私計算”的存在,你的密碼在傳輸與比對過程中都經過了不可逆的加密,谷歌無從知曉你的資料,只能知道比對結果。
隱私計算是什麼?
雖然Chrome最近兩年才用上這項隱私保護功能,但實際上,隱私計算的相關技術已經發展了幾十年。
簡單來說,隱私計算就是透過技術實現資料隱私和安全保護下的資料共享。讓不同來源的資料安全共享,產生更大價值,具體包括瞭如基於晶片的可信計算環境(TEE)、基於密碼學的安全多方計算(MPC)、同態加密、源自人工智慧的聯邦學習等在內的各類技術的使用。
中國信通院去年12月釋出了一份《隱私保護計算技術行業研究報告》,隱私計算的價值主要在於:消除資料孤島,合規避險,彌合信任鴻溝。算是從應用角度上給隱私計算下了一個定義。
隱私計算四小龍
近年來隨著數字化推進和個人隱私資料保護需求的激增,加之AI技術飛速發展,隱私計算逐漸得到業內外人士的關注,網際網路大廠、傳統資訊化企業爭相開始佈局,也湧現了一批技術創業公司。
有四家公司被江湖冠以“隱私計算四小龍”的稱號:螞蟻金服、微眾銀行、華控清交、翼方健數。
螞蟻金服擁有隱私保護的TED ENGINE引擎,以差分隱私作為技術重點。微眾銀行由著名AI學者楊強領隊,開源了全球首個工業級聯邦學習技術框架。
相比背靠阿里騰訊的前兩家,後面兩家公司較為年輕與陌生。
華控清交由於是清華姚班校友創立,頭頂姚期智的光環,創立兩年來一直倍受關注。之前量子位已在《清華姚班的科研能力,能孵化出一家怎樣的公司?》一文中介紹過華控清交。
對於這個新興的行業,不少人對資料“可用不可見”仍抱有疑惑。

其實這隻回答了隱私計算的一個方面。
傳統依靠保密協議來阻止資料洩露的共享方法,包含了巨大的安全隱患。而使用脫敏的方式已被證實並非完全“安全”。
所以,隱私計算與其說是某一種技術,更不如說是針對客戶不同資料應用場景的解決方案。
因此,要讓隱私在各個環節都能安全,必須從資料使用過程的各個風險點全盤考慮。
“四小龍”裡的翼方健數從資料的使用過程中,描述瞭如何實現隱私計算技術:資料不出平臺,資料在平臺內授權使用,平臺只輸出資料的價值,達成資料安全、隱私保護和價值輸出的目標。

△圖片來自翼方健數官網
一家“0資料”的隱私計算公司
如何定義隱私計算,每個行業人士或許都有自己不同的看法。
但對使用者隱私和資料安全的認知,行業正在逐漸加強。
2017年釋出的《阿里雲安全白皮書》曾指出,資料安全和使用者隱私是其第一原則,並稱阿里雲有“極其嚴格的操作規範和審計制度”:未經使用者授權,任何人不得觸碰使用者資料;工程師所有的運維管理操作,都會被記錄並有審計;每次登入都需要透過雙因素驗證方可操作等。
“客戶資料安全和隱私保護是最重要的事情,也是我們最基礎的承諾,”阿里雲總裁胡曉明曾表示。
而翼方健數則進一步加強對使用者資料所有權的重視程度 :“0資料”是每一家隱私計算公司都應該堅持的。
前微軟研究院全球合夥人、資深技術專家張霖濤,於去年12月選擇加入翼方健數,成為這家公司的首席科學家。
張霖濤是普林斯頓大學計算機工程碩士、IEEE Fellow、ACM傑出科學家,在微軟研究院工作17年之久,有著豐富的雲端計算、分散式計算的研究經驗。
量子位與張霖濤進行了一次溝通。
關於加入翼方健數這一決定,張霖濤表示,自己關注隱私計算領域已經很久了,認可趨勢也認可這個團隊在做的事,透過技術讓資料有序流通,構建基於資料全新的商業協作網路,更認同將“0資料”作為堅持和底線。
所謂的“0資料”是指“0資料留存”,即資料在翼方健數構建的網路或者平臺上流動,翼方健數本身不持有任何他方資料。
毫無疑問,資料互聯互通產生的價值對未來科技世界是能產生顛覆效應的,隱私計算本身在解決各方對於資料安全和隱私保護的顧慮。
但如何消除對技術方的不信任,現階段用0資料的方式“獨白自證”或許是一個可行的方式。
隱私計算的普及遇到了什麼問題
可是為什麼目前隱私計算仍未實現遍地開花?
新技術的下沉落地,需要一個接受和完善的過程。
舉例來說,目前常見的隱私計算技術,如:可信計算環境,安全多方計算,聯邦學習等,客戶在使用這些技術時都會受制於技術的應用場景,並且需要做額外的準備工作。
這是客戶期待的隱私計算方案嗎?
隱私計算應該是一個集安全儲存和安全計算一體化的方案,來幫助客戶從資料準備、資料計算以及資料應用的完整解決方案,並在過程中保障資料隱私安全。

從資料的安全儲存來看,市面上的檔案系統可以解決“多源異構”資料的彙集和管理,但並不能完全應對隱私計算場景。安全儲存會使用加密演算法對資料進行加密,這會讓資料計算複雜化,計算效能會大大降低。而當面對城市級別大資料的計算,效能尤為重要。
資料應用也面臨問題,如何相容各應用所使用的不同的計算模式,滿足包括大資料、機器學習及高效能運算等不同計算應用的需求?
這又回到了開頭的疑難,如何形成完整的客戶滿意的隱私計算解決方案。
深耕隱私計算的科技公司透過建立平臺產品,並完善應用協作機制來滿足客戶的需求。
比如,華控清交推出了自主研發的資料安全融合平臺,翼方健數有XDP翼數坊隱私計算平臺。

我們看一下號稱“全球首款醫療資料隱私計算平臺”是怎麼做的?
首先,翼方健數放棄傳統的檔案管理系統,而改為自研系統,實現“為隱私計算而生的XFS檔案管理系統”。

從上圖中可以看出XFS檔案管理系統向下相容各種不同型別的檔案系統和資料傳輸協議,向上相容不同的大資料計算模式,幫助傳統大資料計算應用以零成本移植到平臺。
透過KMS(秘鑰管理系統),XFS實現了對檔案級別細粒度加密模式,分散式加密處理,實現單一檔案級的風險管控和安全保護。
XFS將安全儲存和安全計算有機結合,實現城市級資料處理能力。
翼方健數透過該技術也的確實現了區域和城市級的隱私計算場景。

經過隱私計算的資料,真的有用嗎?
行業上,螞蟻金服、微眾銀行、華控清交都不約而同在金融領域紮根,而翼方健數聚焦於醫療領域。
醫療行業一直被標榜為隱私計算領域的3大典型應用場景之一,但是縱觀行業內,涉及企業寥寥無幾。
原因在於相比AI充分滲透的金融行業,醫療行業的資料應用成熟度不高、資料極度敏感、因安全的顧慮產生資訊孤島多,但共享價值極高。
根據翼方健數的官網,確實看到了諸多醫療行業的具體應用。

關於這點,張霖濤向量子位解釋道,翼方健數在行業內實現端到端閉環,即從資料治理到透過資料形成AI模型,孕育出智慧應用。在行業裡跑通了隱私計算的閉環,也證實了資料經過隱私計算後的價值。
這樣的做法對技術團隊的專業領域提出了挑戰,但或許正是因為這個目標反而讓翼方健數建起了一定的行業壁壘。
邁入資料和演算法連線的普惠時代
隱私計算元年已過,會迎來爆發式成長嗎?
如何發揮資料價值,為不同行業、不同來源、不同型別的資料提供安全的交流中心和資產化機制/資料貨幣化機制,是隱私計算領域下一步的關鍵。
翼方健數提出要構建IoDC資料和計算網際網路。
網路確實是一個能夠囊括所有資源的方式,掌握資料的各個企業將資料安全地貢獻出來,而那些資料不成熟的小企業,透過隱私計算獲得普惠的資料價值。
聽上去不錯,那麼資料和計算互聯的價值,潛力到底有多大?
據第三方機構Statista資料統計,2020年,全球大資料資料量將達50.5ZB。
如果這50ZB是一個“可用不可見”的統一整體,其中所蘊含的能量,不可想象。
當然,打通資料絕非一項技術、一家企業就能完成。
如果說“AI四小龍”讓我們享受到了演算法的普惠,那麼“隱私計算四小龍”則將我們帶入AI落地的下一站:資料和演算法連線的普惠。
華控清交和翼方健數只是這個賽道中兩個新興企業的縮影。也許就像“AI四小龍”的概念逐漸淡化一樣,未來隨著隱私計算的賽道越來越寬,這個行業會更加百花齊放。
—完—
本文系網易新聞•網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。

量子位QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見~