Apple Photos背后的技術(shù)與深度學(xué)習(xí)及隱私的未來

責(zé)任編輯:editor007

作者:Todd Hoff

2016-06-30 11:40:42

摘自:INFOQ

無處不在的AI輔助成果為我們未來的智能生活指明了兩條實(shí)現(xiàn)方向——云端與設(shè)備內(nèi),這種戲劇般的分支選擇亦如故事般精彩紛呈??雌饋硖O果公司似乎放棄了立足個人的深度學(xué)習(xí)分析,但這也只是種可能性。

無處不在的AI輔助成果為我們未來的智能生活指明了兩條實(shí)現(xiàn)方向——云端與設(shè)備內(nèi),這種戲劇般的分支選擇亦如故事般精彩紛呈。在云陣營中,谷歌公司舉起領(lǐng)袖旗幟。而在設(shè)備端,蘋果則一呼百應(yīng)。那么誰能夠在對抗最終勝出?各擅勝場抑或是雙雙失利?

如果是在一個星期前,我個人絕對會將選票毫不猶豫地投給云陣營。在拜讀了Jeff Dean撰寫的《谷歌的大規(guī)模深度學(xué)習(xí)》一文后,相信大家會和我一樣驚嘆于谷歌實(shí)現(xiàn)的技術(shù)成果——精妙、普適、智能、系統(tǒng)化且極具優(yōu)勢。

而蘋果公司則在將深度學(xué)習(xí)引入自家產(chǎn)品方面表現(xiàn)得較為遲鈍。但這似乎也在意料之中,蘋果方面有著自己的發(fā)展規(guī)劃。其并不打算充當(dāng)什么早期采納者,而更傾向于推出已經(jīng)被消費(fèi)者市場所廣泛接受的技術(shù)成果。

還有一種可能性,事實(shí)上蘋果公司的行事作風(fēng)相當(dāng)隱秘,他們也許掌握著外界無從知曉的深度學(xué)習(xí)成果。當(dāng)然,對于這一點(diǎn)我沒法打包票。

但能夠間接證明這種推論的證據(jù)在于,蘋果公司即將以種全新方式拓展深度學(xué)習(xí):差異化隱私+功能強(qiáng)大的設(shè)備處理器+可下載模型離線訓(xùn)練+承諾不收集任何個人信息+完美保密的深度學(xué)習(xí)機(jī)制。

Photos對Photos

在本次WWDC 2016大會的主題演講中,蘋果公司介紹了其全新照片應(yīng)用,并宣稱將利用深度學(xué)習(xí)技術(shù)幫助用戶搜索圖片、將照片整理成簿以及通過迷你快照形式收集照片、視頻與位置。

這些功能聽起來與Google Photos如出一轍。事實(shí)上,Google Photos設(shè)計團(tuán)隊已經(jīng)能夠在無需為照片添加標(biāo)簽的前提下實(shí)現(xiàn)搜索。大家不必標(biāo)記即可找到對應(yīng)內(nèi)容的圖片。

二者的差異之處在于類似功能的不同實(shí)現(xiàn)方式。

蘋果公司采用了怎樣的實(shí)現(xiàn)方式?我們在WWDC 2016大會的脫口秀環(huán)節(jié)上找到了一些線索。

深度學(xué)習(xí)何時起效?

主持人Gruber幫我問出了最為關(guān)心的問題: 深度學(xué)習(xí)何時起效?

最終答案分為以下幾點(diǎn):

深度學(xué)習(xí)運(yùn)行在蘋果的數(shù)據(jù)中心之內(nèi)。其構(gòu)建一套模型,且可供設(shè)備進(jìn)行下載。訓(xùn)練過程并不涉及用戶數(shù)據(jù),而是依托于外部數(shù)據(jù)集實(shí)現(xiàn)模型構(gòu)建。拍攝照片時該模型即得到應(yīng)用。分析工作在照片進(jìn)入照片庫的同時瞬間完成。其通過110億次計算對照片內(nèi)容進(jìn)行歸類,分辨“其中是一匹馬”或者“其中是一座山”。iOS設(shè)備上的GPU已經(jīng)相當(dāng)強(qiáng)大,因此能夠迅速完成這些處理任務(wù)。很明顯,由于拍攝操作在數(shù)量上并不夸張,所以也不會對電池續(xù)航造成太大影響。全部現(xiàn)有照片在后臺進(jìn)行分析由于這會占用相當(dāng)一部分計算能力,所以相關(guān)分析工作會在夜間設(shè)備接入電源進(jìn)行充電時進(jìn)行。分析結(jié)果不會在同一用戶的設(shè)備間共享。每臺設(shè)備會分別進(jìn)行上述分析流程。未來具體實(shí)現(xiàn)方式可能有所變化,即分析結(jié)果可能共享。由于開發(fā)一套面向這類數(shù)據(jù)共享機(jī)制的安全系統(tǒng)非常困難,因此等待也是可以理解的。

隱私是最大的差別所在

雖然蘋果方面并沒有談及其具體訓(xùn)練方式,但很可能參考了谷歌在深度學(xué)習(xí)中的部分思路。

二者真正的差別在于對隱私的處理態(tài)度。谷歌方面會將全部個人數(shù)據(jù)保存在云端,并利用個人與他人數(shù)據(jù)加以訓(xùn)練。換言之,谷歌公司很清楚這些數(shù)據(jù)各來自哪位用戶。事實(shí)上,我時常想到一種反烏托邦場景,即谷歌利用掌握的信息重建個人用戶的大腦神經(jīng)網(wǎng)絡(luò),并以模擬方式了解我們對于廣告宣傳及政治事件的態(tài)度——太可怕了。

蘋果公司采用的是完全不同的另一種處理思路。蘋果方面永遠(yuǎn)不會了解手機(jī)上的分析結(jié)論,也不會查看用戶的個人數(shù)據(jù)。這一點(diǎn)已經(jīng)在發(fā)布會上進(jìn)行了無數(shù)次強(qiáng)調(diào),也讓人們對數(shù)據(jù)與隱私安全更加放心。

Craig Federighi:

是的。需要明確的是,對于這些照片本身,其架構(gòu)集以加密方式存儲在云端,而元數(shù)據(jù)——包括用戶創(chuàng)建的元數(shù)據(jù)以及我們深度學(xué)習(xí)后分類得出的元數(shù)據(jù)——同樣經(jīng)過加密,蘋果無法進(jìn)行讀取。

那么蘋果要如何保證不會上傳用戶的數(shù)據(jù)并了解個人信息?其采用的是方案名為差異化隱私(簡稱DP)。我之前從沒聽說過這項(xiàng)技術(shù),因此對其倍感好奇。

Matthew Green在《差異化隱私是什么?》一文中對DP進(jìn)行了詳盡說明,這是一項(xiàng)大數(shù)據(jù)技術(shù)成果,利用統(tǒng)計數(shù)據(jù)隱藏用戶身份,從而在數(shù)學(xué)層面證明用戶隱私得到保護(hù)。

那么其實(shí)際效果如何? Matthew Green表示:

實(shí)際答案可能外人永遠(yuǎn)無法知曉。不過總體來講,看起來蘋果公司似乎確實(shí)誠實(shí)地踐行了自己的隱私保護(hù)承諾,同時提供了可行的解決方案,這才是最重要的。

Craig Federighi列舉了以下DP示例(內(nèi)容經(jīng)過編輯):

基本思路是,如果大量用戶輸入某個實(shí)際上并不存在的單詞,那么我們將不再將其視為拼寫錯誤,甚至可能將其納入拼寫補(bǔ)全推薦。

在這種情況下,我們希望全部客戶都能夠理解該單詞,但我們又不希望知曉具體是哪位用戶輸入了該詞。沒錯,我們要刻意回避這種將習(xí)慣與個人掛鉤的信息。

如果我們獲取的只是數(shù)據(jù)片段中的一個側(cè)面,那么我們擁有的最多也只是這部分片段。在所收集到的大量此類片段中,也許其表面的含義與實(shí)際情況并不相符,對吧?

但只要樣本量充足,這種不相符的問題將自行得到解決。因此如果我們希望學(xué)習(xí)新出現(xiàn)的單詞,我們會對其進(jìn)行哈希處理,并從哈希中提取單一bit,例如將其稱為1。與此同時,手機(jī)設(shè)備會對數(shù)據(jù)內(nèi)容進(jìn)行混淆,意味著即使其讀取到的數(shù)據(jù)為1,其也可能通過隨機(jī)算法將其表達(dá)為0。

蘋果公司獲得的數(shù)據(jù)正是這類混淆處理后的結(jié)果。但由于擁有充足的數(shù)據(jù)量,蘋果方面仍然能夠建立起宏觀視角,并了解大規(guī)模群體表現(xiàn)出的真實(shí)傾向。具體來講,蘋果公司能夠借此了解廣泛用戶的思維方式,但卻無法具體將其與個人聯(lián)系起來。

蘋果公司正是利用這樣的機(jī)制,憑借全球十億臺手機(jī)幫助自身建立認(rèn)知優(yōu)勢。

Gruber提出了DP實(shí)現(xiàn)保密的一大關(guān)鍵點(diǎn)。由于數(shù)據(jù)與貨幣不同,我們無法在一段時間后判斷數(shù)據(jù)的具體來源,因此即使出現(xiàn)法律糾紛、蘋果也無法將數(shù)據(jù)與個人聯(lián)系起來。換言之,如果蘋果公司的某些人員未來希望利用數(shù)據(jù)牟取利益,也根本不可能實(shí)現(xiàn)。

谷歌公司還開發(fā)出了眾多模型,其中包含令人印象深刻的功能,且身材纖細(xì)可直接運(yùn)行在智能手機(jī)之內(nèi)。最典型的實(shí)例就是利用視覺取景器識別計算機(jī)中的文本。而后,其會進(jìn)行文本翻譯并直接把結(jié)果疊加在圖片之上。谷歌公司很清楚,智能化技術(shù)必須能夠在移動設(shè)備端全面完成,因此其不必遠(yuǎn)程接入云計算中心。TensorFlow模型能夠運(yùn)行在手機(jī)上,這意味著云訓(xùn)練與遠(yuǎn)程設(shè)備相匹配,但就目前看谷歌不太可能為其采用差異化隱私保護(hù)。

蘋果公司實(shí)現(xiàn)差異化隱私的同時又會失去什么?

看起來蘋果公司似乎放棄了立足個人的深度學(xué)習(xí)分析,但這也只是種可能性。

以谷歌公司的Smart Reply為例。在手機(jī)之上,大家需要快速回復(fù)郵件,但輸入內(nèi)容往往不太方便。因此,谷歌開發(fā)出一套系統(tǒng),用于預(yù)測使用頻率較高的各類回復(fù)信息。

第一步是訓(xùn)練一套小型模型,用于預(yù)測某條信息是否適合作為快捷回復(fù)。如果將這種方式推而廣之,甚至能夠作為信息序列有針對性地實(shí)現(xiàn)預(yù)測型回復(fù)。

舉例來說,在電子郵件當(dāng)中,使用頻率最高的感恩節(jié)邀請回復(fù)內(nèi)容包括:我們也來;一定準(zhǔn)時到;我們來不了,很抱歉。

這很像是蘋果的設(shè)計風(fēng)格。

下面再進(jìn)一步,通過建立一套模型預(yù)測用戶可能做出的反應(yīng)。例如,我們可能會對邀請消息做出怎樣的回復(fù)?也許蘋果公司做不到如此具體的個性化效果,這是因?yàn)槠洳粫谠浦斜A羯矸菪畔?,而僅存在宏觀的數(shù)據(jù)聚合視圖。而在涉及個性化信息時,蘋果公司的政策限制要求其只能在設(shè)備內(nèi)部進(jìn)行模型訓(xùn)練。

這就引發(fā)了數(shù)據(jù)匱乏問題。單純訪問設(shè)備上的數(shù)據(jù)能否準(zhǔn)確代表用戶的喜好?蘋果公司只依靠iMessage或者Siri就能掌握我們的習(xí)慣嗎?抑或是蘋果公司會攔截指向Twitter、電子郵件、Facebook乃至谷歌搜索的流量?

再就是存在計算問題。根據(jù)Jeff Dean的說法,我的理解是整套神經(jīng)網(wǎng)絡(luò)是由成千上萬的參數(shù)構(gòu)成,而非單純參考設(shè)備內(nèi)運(yùn)行的信息。

另外還有“多重人格”問題需要考慮。很明顯,我們在使用電話、iPad以及桌面系統(tǒng)時,交互習(xí)慣自然有所區(qū)別。如果立足于各獨(dú)立設(shè)備,那么我們的習(xí)慣自然也存在巨大差異。這意味著蘋果公司必須打造出某種元訓(xùn)練層,即將各類設(shè)備結(jié)合起來以構(gòu)建起統(tǒng)一的用戶視圖。這種作法恐怕比將全部信息傳輸至云端更具挑戰(zhàn)。

那么這種個性化能力的缺失是否致命?至于對谷歌而言是如此。谷歌公司最近在其谷歌I/O 2016大會上發(fā)布了全面普及機(jī)器學(xué)習(xí)的戰(zhàn)略。其中的典型方案就是Google Assistant,這款新的個人AI將更為全面地服務(wù)用戶。

那么蘋果是否關(guān)心這一點(diǎn)?谷歌公司似乎希望將深度學(xué)習(xí)本身作為主要目標(biāo),而蘋果則更傾向于利用這項(xiàng)技術(shù)打造更出色的產(chǎn)品。雖然存在巨大差別,但只要有著蘋果這位競爭對手的威脅,谷歌就必須提供更具吸引力的生態(tài)系統(tǒng)以發(fā)展技術(shù)成果。

每支團(tuán)隊都需要決定其是否需要構(gòu)建及部署深度學(xué)習(xí)系統(tǒng)。這不僅是一項(xiàng)技術(shù)方案,更會帶來道德層面的拷問。直到現(xiàn)在,我們只見證過一類深度學(xué)習(xí)系統(tǒng)實(shí)例,而蘋果公司的思路顯然提供了不同的實(shí)現(xiàn)模式。

遺憾的是,蘋果公司制定的隱私模式很難普及,因?yàn)槠湎騺韺ψ约曳桨覆扇》忾]政策。在另一方面,谷歌公司則忙于利用深度學(xué)習(xí)探索整個世界。一方強(qiáng)調(diào)隱私,一方強(qiáng)調(diào)分析結(jié)論,多元的發(fā)展方向?qū)τ谖覀冇脩舳燥@然是件好事。

原文鏈接:The Technology Behind Apple Photos And The Future Of Deep Learning And Privacy

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號