01
數據隱私的發(fā)展現狀
隨著互聯(lián)網的高速發(fā)展,我們在享受豐富的互聯(lián)網產品和服務的同時,也在時時刻刻向提供商提供關于我們自己的全方位個人信息。廣義上來說,所有由我們本人發(fā)起的網絡使用行為,都可以看做是我們的個人信息。而我們在網上所體現出的所有個人信息,包括我們的瀏覽習慣、地理位置、設備IP、使用的瀏覽設備和瀏覽器的型號都在不斷被收集、存儲和處理。
數以億計的用戶撐起了全球互聯(lián)網科技企業(yè)超過9萬億美元的市值,而當互聯(lián)網發(fā)展愈發(fā)呈現寡頭化趨勢之后, 個人數據更趨于集中,一旦泄露造成的后果也越來越嚴重。
根據,中國互聯(lián)網協(xié)會在2016年發(fā)布的《中國網民權益保護調查報告》顯示,2016年國內有6.88億網民曾遭受過不同程度的個人信息泄露,造成的經濟損失估算達915億元。
數據隱私泄露事件層出不窮:
今年1月,掌握著印度10億公民的身份數據庫Aadhaar被曝遭網絡攻擊,該數據庫除了記錄人們的名字、電話號碼、郵箱地址等信息外,還涉及人的指紋、虹膜紀錄等極度敏感的信息。
今年3月,Facebook數據泄露丑聞爆發(fā),至少8700萬用戶的隱私數據遭泄露,Facebook股價在之后下跌超過20%。
今年6月,一位ID為「f666666」的用戶在暗網上開始兜售圓通10億條快遞數據,該用戶表示售賣的數據為2014年下旬的數據,數據信息包括寄(收)件人姓名,電話,地址等信息,10億條數據已經經過去重處理,數據重復率低于20%,并以1比特幣打包出售。
…...
所以,我們可以看到數據泄漏已經從姓名、家庭住址、電子郵箱、電話號碼,到個人身份證、護照號碼,甚至到個人生物識別信息如虹膜、基因信息。對于普通民眾來說,這些重要的身份信息一旦泄露我們就如同裸奔。
對于企業(yè)而言,一旦發(fā)生數據泄露的事件,造成的影響和損失也是巨大的。據IBM研究報告顯示,數據泄露事件的平均總成本為220萬美元(被盜數據在10000條以下)到690萬美元(被盜數據超過 50000條)。
對于那些登上新聞頭條的大規(guī)模數據泄露事件,IBM的調研結果表明,一次重大數據泄露事件(涉及100萬條記錄)的成本可能高達3949萬美元。這一數字會隨著遭泄露記錄數量的增加而增加,這在意料之中。例如,5000萬條記錄的泄露事件可能就會導致?lián)p失3.5億美元。
其實,在數據隱私泄露一浪高過一浪的今天,一直領跑標準制定的歐洲和美國早已發(fā)布了數據行業(yè)的新規(guī)定。
歐洲最先針對普通消費者的數據發(fā)動了保護。今年3月21日,歐盟委員會發(fā)布了兩項提案,提出針對數字化業(yè)務活動征收數字服務稅(DST)。歐盟認為,現有的稅法已經難以跟上企業(yè)數字化運營的步伐。DST提案基于總收入(營業(yè)額)繳稅,歐盟各成員國采用3%的統(tǒng)一稅率。這其中包括出售來源于用戶所提供信息、資料和數據的收入。
緊接著,今年5月25日,歐盟開始強制實施了被稱為史上最嚴苛數據隱私保護法的GDPR(General Data Protection Regulation,「通用數據保護條例」)。條例規(guī)定了企業(yè)在對歐盟公民進行數據收集、存儲、保護和使用時的新行為標準,也給予了用戶對自己數據更廣泛的處理權和決定權。普華永道指出:「這將影響在歐洲內外保存或使用歐洲公民個人數據的每個實體?!?/p>
現有法律更加偏向于對個人可識別信息(PII)的保護,而GDPR則把范圍拓展到了數字世界里的cookie、device ID、IP地址等個人行為數據。針對數據收集者,GDPR規(guī)定不能用隱藏默認的方式獲取用戶許可,必須提前進行明確的提示與詢問,獲得允許后才可以獲取使用用戶數據;收集之后還需要為用戶提供查看收集數據概覽及用途,還必須要設置用戶刪除的功能。
從用戶的角度,GDPR規(guī)定用戶對自己的數據擁有完全的所有權,即便同意收集方收集,也可以隨時查看并撤回刪除相關的協(xié)議,在用戶撤回刪除相關授權后,數據收集者必須立即將相關數據進行匿名化處理。
每次違反條例最高處罰金額為該公司年度營業(yè)額的4%,或者2000萬歐元,最后取決于哪個數值更大。像Google或 Facebook這類的巨頭公司 或許能承受起這種程度的罰款,但對于規(guī)模小一些的公司,這種處罰將會是致命的。
如今飛速發(fā)展的的大數據、云計算、AI市場無一不嚴重依賴數據,這個最嚴格條例一出,國際互聯(lián)網企業(yè)一片哀嚎。因此,GDPR也被認為掣肘了人工智能和數據行業(yè)的發(fā)展。
再看美國數據隱私的監(jiān)管現狀,美國早在1996年就開始實施保護個人醫(yī)療數據的健康保險隱私及責任法案(Health Insurance Portability and Accountability Act,縮寫HIPAA)。
該法案制定了一系列的安全標準,就保健計劃、供應商以及結算中心如何以電子文件的形式來傳送、訪問和存儲受保護的健康信息做出了詳細規(guī)定。法案規(guī)定在確保私密性的情況下保存病人信息檔案六年,還詳細規(guī)定了醫(yī)療機構處理病人信息規(guī)范,以及違法保密原則、通過電子郵件或未授權的網絡注銷病人檔案的處罰方案。
HIPAA定義以下信息為「受保護的健康信息」(PHI):
•姓名
•出生日期,就醫(yī),入院和出院日期,和死亡日期
•電話號碼,地址(包括市,縣,或郵政編碼)傳真號碼等聯(lián)系方式
•社會安全號碼
•病歷號
•照片
•手指和語音打印
•任何其他獨特的識別號碼
那么數據信息在我國發(fā)展情況又是如何呢?
根據我國工信部《大數據產業(yè)發(fā)展規(guī)劃(2016-2020年)》,到2020年大數據相關產品和服務業(yè)務收入應突破1萬億元,年均復合增長率保持30%左右,中國將成為全球最大的大數據產業(yè)國之一。
黑市交易依然是我國數據交易的主流。財經網的一篇報道指出, 中國大數據被黑市壟斷,所有正規(guī)數據交易所和第三方公司收入相加一年不到50億元,因此數據行業(yè)存在巨大的增長潛力,但如果想擺脫黑市的壟斷,需要在技術層面提供安全的數據分享解決方案。
據不完全統(tǒng)計,國內個人信息泄露數達55.3億條左右,平均每人就有4條相關的個人信息泄露,這些信息最終的命運,是在黑市中反復倒手,直至被榨干價值。其中,80%的數據泄露自企業(yè)內鬼,黑客僅占20%。直到2017年6月《網絡安全法》出臺,各類灰色和黑色數據產業(yè)才逐漸收斂,但依然暗流涌動。
02
加密學的幾種技術盤點
其實,我們認為數據行業(yè)交易的應該是數據的使用權,而不是數據本身。數據由于本身易復制和可傳播的特性,在現行的科技手段下,不能有效地防止數據在分享和使用的過程被泄露。
從企業(yè)端來看,大數據分析一般由第三方對各類數據源進行合并、分析和建模。數據集中化收集導致隱私信息泄露等風險,導致目前只有1%的企業(yè)數據向第三方如大數據公司、AI公司分享。擁有數據的公司無法安全的將數據共享或變現,進而產生一個個數據孤島。
從用戶端來看,大數據公司、開發(fā)者和科學家僅能接觸到有限的數據集,并且費用高昂。與運營商等大數據源的合作需要開發(fā)人員現場部署模型于數據源的服務器上,模型算法存在泄露風險,且效率低下。
而要想找到數據隱私的保護手段,其實是可從可信硬件和密碼學兩個方向入手。硬件手段主要是可信執(zhí)行環(huán)境(Trusted Execution Environment),而密碼學手段主要有同態(tài)加密(Homomorphic Encryption, HE),零知識證明(Zero-knowledge Proof, ZKP),以及安全多方計算(Multi-party Computation)。
同態(tài)加密
同態(tài)加密是一種支持密文運算的加密方式。數學上,同態(tài)描述了將一個數據集合轉換為另一個集合的對應關系,同時保持了兩個集合中元素之間的運算結構。由于同態(tài)加密中的明文與密文滿足同態(tài)性,因此對應的數學運算, 無論是對加密數據還是明文數據執(zhí)行,都將得到相同的結果。從而,可在不暴露明文的情況下,利用密文運算獲得數據計算結果,實現了數據隱私和數據處理的并存。
同態(tài)加密有望在云計算中發(fā)揮重要作用,允許公司將加密數據存儲在公共云中,并利用云提供商的分析服務。目前由于理論基礎和技術發(fā)展的限制,同態(tài)加密的效率距實用差距很大,在短期內難以進行大規(guī)模的商用。
零知識證明
零知識證明可簡單描述為,證明者能夠在不向驗證者提供任何有用信息的情況下,使驗證者相信某個論斷是正確的證明方法。零知識證明被大量密碼學協(xié)議用作基本模塊,但在構建隱私計算方面仍有多方面技術難點需要突破,包括一般性函數的計算,運行效率,多方數據隱私,可信初始化等問題。
可信執(zhí)行環(huán)境
可信執(zhí)行環(huán)境通過在硬件計算平臺上引入安全軟硬件協(xié)同設計架構來提高系統(tǒng)的安全性。通過基于硬件密鑰的安全代碼加載,強制硬件環(huán)境中計算行為不可作惡。其優(yōu)點是速度較快,缺點是過于中心化,需要信任硬件提供方,并且存在設計漏洞,易被側信道攻擊等安全風險。
安全多方計算
安全多方計算研究的是在無可信第三方的情況下,幾個相互不信任的參與方如何安全地計算一個約定函數的問題。
安全多方計算可在明文數據不離開各自節(jié)點的前提下,完成多方協(xié)同分析、處理和結果發(fā)布,適合以下應用場景:多個機構之間想共享數據以供信息聯(lián)合查詢,但又互不信任,每個機構都需要防止數據泄露。利用安全多方計算技術,可以實現數據的安全查詢,即在不泄漏任何一方數據的情況下對數據整合和分析,如此,企業(yè)可以在我們的技術的幫助下打通這一原本不可能的場景,并且滿足法律合規(guī)的需求。
安全多方計算對參加計算節(jié)點的算力和帶寬有一定要求。但近幾年科研方面的突破讓計算速度有了指數級的提升。
03
安全多方計算或將成熱點
綜合考慮安全性、效率、運算能力、所能處理問題的復雜程度,在幾種加密技術方案中,我們更看好安全多方計算。在近期,它越來越受到重視,被視為區(qū)塊鏈發(fā)展和數據安全解決方案的熱點。
自1982年由華裔計算機科學家、圖靈獎獲得者姚期智教授提出安全多方計算以來,至今它發(fā)展了30余年,目前安全多方計算效率在迅速提升,約比明文計算慢兩個數量級,我們認為目前已支持中大規(guī)模商用。
數據預處理效率相較 2012 年提高了 200 多倍,計算所需時間不到明文的 10 倍。
目前區(qū)塊鏈的共識過程存在大量冗余計算,中間浪費了許多算力和時間成本。并且,所有鏈上信息和智能合約都是公開的,這被視為是企業(yè)大規(guī)模部署Dapp以及敏感數據上鏈的重大障礙。安全多方計算恰恰就能改變這一點,它自帶的可驗證計算的特性避免了冗余計算,而且能保證參與運算的數據的安全與隱私。
我們如今正在跟歐洲領先的研究型高等院校合作,用安全多方計算去搭建一個多方數據安全共享平臺。具體的計算任務由參與計算的多個節(jié)點共同完成,每個節(jié)點只能拿到數據經過混淆、掩蓋的數據片段。這些片段獨立存在時沒有任何意義,只有將它們用密碼學算法重建時才能合并出數據明文。我們只需要保證有至少一個誠實節(jié)點,所有數據便是安全的。
這種去中心化的技術杜絕了原始數據的泄露,從根本上解決了數據共享和使用中的信任問題,所以安全多方計算有廣闊的市場前景。
最后,列舉幾個安全多方計算常見的應用場景:
數據安全查詢
政府部門的系統(tǒng)中往往儲存了大量的公民個人數據和企業(yè)經營數據,很多商業(yè)機構需要查詢信息用作商業(yè)用途,但政府不希望數據被泄露或被拷貝走,同時,有些場景下商業(yè)機構也不希望政府知道其查詢條件。利用安全多方計算技術,可以實現數據的安全查詢。
除此之外,數據安全查詢的解決方案還可應用在商業(yè)競爭、數據合作等眾多領域中。
聯(lián)合數據分析
跨機構的合作以及大型企業(yè)的經營運作經常需要從多個數據源獲取數據,拼湊成全量數據再進行分析。已有的數據分析算法可能導致隱私暴露,安全多方計算平臺可以使原始數據在無需歸集與共享的情況下實現計算,保護目標數據持有方的隱私及資產安全。
聯(lián)合征信
安全多方計算平臺可賦能金融、保險企業(yè)對客戶的負債率等風險指標進行聯(lián)合分析。目前各家金融、保險、資產管理機構只掌握客戶部分數據,從而導致風險評估誤差。聯(lián)合分析不泄露各參與方數據,對客戶的風險有整體評估,在多頭借貸等場景下能有效降低違約風險。
多維度健康分析
安全多方計算平臺賦能醫(yī)療機構對病人在多家醫(yī)院的病歷和智能硬件生物數據進行分析,從而在病人、醫(yī)院和智能硬件廠商數據不泄露的情況下,對病人有更精準的診斷。同時,針對醫(yī)療機構的聯(lián)合數據分析可以讓藥品研究機構對某特定地區(qū)特定病種有更全面的了解。
精準廣告投放
安全多方計算平臺賦能商戶對潛在客戶多維度信息進行分析,從而更精準的投放廣告。廣告投放機構可以從更多數據維度對客戶購買意向建模,且數據源不泄露個人隱私數據。
數據匹配
安全多方計算平臺可完成兩方或多方的去中心化數據匹配,數據無需脫敏。
我們的長期目標,是想讓每個人把個人數據,包括行為、醫(yī)療、健康和基因數據在保護隱私的情況下安全、高效地變現。如此,不僅能讓更多人意識到數據的價值,推動社會對個人隱私的守護意識,還能解放大量數據,增加數據流動性,形成雙邊數據市場,從而更快推動人工智能的發(fā)展。