6月15日消息,實(shí)際上和所有巨型企業(yè)一樣,蘋果希望盡可能多地了解其用戶。不過(guò),該公司也將自己標(biāo)榜為硅谷的隱私捍衛(wèi)者——與很多依靠廣告收入的競(jìng)爭(zhēng)對(duì)手不同,該公司想對(duì)用戶的信息知道得越少越好。因此,不令人意外的是,蘋果公司現(xiàn)在公開(kāi)吹噓自己在數(shù)學(xué)部門這個(gè)模糊的分支里的“成績(jī)”。
周一,在蘋果世界開(kāi)發(fā)者大會(huì)的主旨演講里,該公司負(fù)責(zé)軟件工程的高級(jí)副總裁克雷格·費(fèi)德里希(Craig Federighi)再一次表?yè)P(yáng)了蘋果的隱私政策,強(qiáng)調(diào)該公司從不收集用戶個(gè)人檔案,對(duì)iMessage和Facetime進(jìn)行端至端的加密,嘗試盡可能多地將涉及用戶個(gè)人信息的計(jì)算儲(chǔ)存于用戶的個(gè)人設(shè)備上而非蘋果服務(wù)器。不過(guò)費(fèi)德里希也承認(rèn),一個(gè)越來(lái)越不容忽視的現(xiàn)實(shí)是,收集用戶信息對(duì)于制作優(yōu)秀軟件非常關(guān)鍵,尤其是在大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的時(shí)代。他神神秘秘地透露說(shuō),問(wèn)題的答案是“差分隱私保護(hù)”(differential privacy)。
費(fèi)德里希在主旨演講上表示:“我們相信各位用戶都應(yīng)該獲得優(yōu)秀的功能和隱私政策。差異隱私保護(hù)是統(tǒng)計(jì)和數(shù)據(jù)分析領(lǐng)域里的研究主題,利用哈希(hashing)、分段抽樣(subsampling)和噪聲注入(noise injection)等方式來(lái)實(shí)現(xiàn)……這種程度的眾包學(xué)習(xí),而在該過(guò)程當(dāng)中又確保每位用戶的信息是完全受保護(hù)的。蘋果一直在這個(gè)領(lǐng)域從事一些超級(jí)重要的工作,以確保大規(guī)模地部署‘差分隱私保護(hù)’。”
按照蘋果公司的觀點(diǎn),差分隱私保護(hù)是一個(gè)統(tǒng)計(jì)學(xué)概念,指的是盡可能多地了解特定的團(tuán)體同時(shí)盡可能少地了解其中的任何個(gè)體。按照差分隱私保護(hù),蘋果可以收集和儲(chǔ)存其用戶的數(shù)據(jù),并從中總結(jié)出用戶們做什么、喜歡什么、想要什么等有用的概念。但是該公司不能提取有關(guān)該群體中任何一個(gè)個(gè)人的信息,否則就可能形成侵犯隱私。而在理論上,黑客或者情報(bào)機(jī)構(gòu)也不能提取這些個(gè)體信息。
蘋果公司的費(fèi)德里希在主旨演講中提到了賓夕法尼亞州大學(xué)計(jì)算機(jī)科學(xué)教授阿隆·羅夫(Aaron Roth),稱他撰寫了關(guān)于差分隱私保護(hù)方面的書籍,后者表示:“一旦擁有包含個(gè)人記錄的大型數(shù)據(jù)集,你可能想要運(yùn)行一段機(jī)器學(xué)習(xí)算法,從整個(gè)數(shù)據(jù)庫(kù)中獲取統(tǒng)計(jì)性的洞見(jiàn),但是你也想要阻止外部的觀察員或者攻擊者,不讓他們了解數(shù)據(jù)集中任何有關(guān)個(gè)人的特定信息。差分隱私保護(hù)可以讓用戶從大型數(shù)據(jù)集中獲得一些深刻見(jiàn)解,并確保任何人都不能從中獲取特定個(gè)人的信息。”
羅夫指出,差分隱私保護(hù)不只是對(duì)用戶的數(shù)據(jù)做模糊化或匿名化處理,這種方式通常都是以失敗告終的。在2007年,Netflix發(fā)布了大量用戶的電影點(diǎn)評(píng),其中隱去了用戶的名字和其他相關(guān)的個(gè)人細(xì)節(jié),只保留了他們?cè)贜etflix上的點(diǎn)評(píng),希望從而優(yōu)化網(wǎng)站的推薦功能。但是研究人員很快通過(guò)對(duì)Netflix數(shù)據(jù)與IMDB上的公眾點(diǎn)評(píng)數(shù)據(jù)進(jìn)行相互對(duì)照,從中找出兩個(gè)網(wǎng)站之間相似的點(diǎn)評(píng)推薦,從而向Netflix本應(yīng)匿名的數(shù)據(jù)庫(kù)中添加用戶的名字。
對(duì)于這些反匿名化伎倆,也可以采取相應(yīng)的對(duì)策——例如去除Netflix電影的標(biāo)題,只保留這些電影所屬的種類。不過(guò),沒(méi)有人能保證其他聰明的花招或者相互對(duì)照的數(shù)據(jù)不能逆轉(zhuǎn)匿名化行為。羅夫說(shuō):“如果在數(shù)據(jù)中除去用戶的名字,并不能阻止人們聰明地進(jìn)行相互對(duì)照。而這正是差分隱私保護(hù)所要避免的。”
他解釋稱,差分隱私保護(hù)尋求的是從數(shù)學(xué)方面證明,特定的數(shù)據(jù)分析形式不會(huì)透露個(gè)人的任何信息。“你可能采取了一些比前人更為聰明的辦法來(lái)對(duì)你的數(shù)據(jù)集作匿名處理,但明天有可能出現(xiàn)比你更聰明的人,并對(duì)數(shù)據(jù)集反匿名化。差分隱私保護(hù)能夠打破這種回路,因而是永不過(guò)時(shí)的。”
費(fèi)德里希對(duì)差分隱私保護(hù)的強(qiáng)調(diào)可能意味著,現(xiàn)在蘋果從用戶設(shè)備上抓取到服務(wù)器進(jìn)行分析的數(shù)據(jù)多于以往,就像谷歌、Facebook以及其他渴望獲得數(shù)據(jù)的科技公司所做的一樣。不過(guò)費(fèi)德里希暗示,蘋果只是以一種經(jīng)過(guò)變換、差分隱私保護(hù)的方式傳輸這些數(shù)據(jù)。事實(shí)上,他提出了三種變換的方式,包括:哈希,這是一種加密功能,可以不可能逆轉(zhuǎn)地將數(shù)據(jù)轉(zhuǎn)化為獨(dú)特的隨機(jī)字符段;分段抽樣,即只抽取部分?jǐn)?shù)據(jù);噪聲注入,增加隨機(jī)的數(shù)據(jù)從而使真實(shí)、敏感的個(gè)人信息模糊化。
從iOS 10開(kāi)始,蘋果將利用差分隱私保護(hù)技術(shù)來(lái)幫助發(fā)掘其大量用戶的使用習(xí)慣,并確保不侵犯?jìng)€(gè)人的隱私。為了模糊處理個(gè)人的身份,差分隱私保護(hù)向個(gè)人使用習(xí)慣的小樣本中增加數(shù)學(xué)噪聲。隨著越來(lái)越多人呈現(xiàn)出相同的使用習(xí)慣,一般性模式浮現(xiàn),從而有利于明確用戶體驗(yàn)并幫助進(jìn)行改善。在iOS 10,這種技術(shù)將幫助改進(jìn)QuickType鍵盤和表情推薦、Spotlight深度鏈接推薦等。
當(dāng)然,蘋果是否嚴(yán)格遵照差分隱私保護(hù)技術(shù)來(lái)全面保護(hù)客戶的隱私,這是另一個(gè)問(wèn)題。在主旨演講中,費(fèi)德里希透露,蘋果已經(jīng)允許賓夕法尼亞州大學(xué)的羅夫“快速瀏覽”該公司對(duì)這種數(shù)學(xué)技術(shù)的執(zhí)行情況。但是羅夫表示,目前不能對(duì)蘋果執(zhí)行差分隱私保護(hù)的具體情況進(jìn)行評(píng)論。相反,就像他所幫助研究和發(fā)明的技術(shù)一樣,羅夫只是提供了一個(gè)可以成功避免透露任何細(xì)節(jié)的結(jié)論:“我認(rèn)為他們現(xiàn)在做的是正確的。”