從棱鏡門到千萬泄密文件,大數(shù)據(jù)時代的信息解密工程

責(zé)任編輯:editor004

作者:造就

2016-04-07 11:40:19

摘自:百度百家

一家在中美洲注冊的律師事務(wù)所,他的1150萬份秘密文件被匿名者交給德國《南德意志報》,這些文件被不知名人士泄露給新聞機(jī)構(gòu),后者再與100多個新聞機(jī)構(gòu)和400名記者分享信息——這項調(diào)查已經(jīng)持續(xù)近1年。

一家在中美洲注冊的律師事務(wù)所,他的1150萬份秘密文件被匿名者交給德國《南德意志報》,這些文件被不知名人士泄露給新聞機(jī)構(gòu),后者再與100多個新聞機(jī)構(gòu)和400名記者分享信息——這項調(diào)查已經(jīng)持續(xù)近1年。據(jù)《南德意志報》報道,此次披露的泄密數(shù)據(jù)比維基解密(Wikileaks Cablegate)、離岸解密(Offshore Leaks)、 Lux Leaks和Swiss Leaks這幾個解密網(wǎng)站披露的數(shù)據(jù)總和還要多。這使得這次數(shù)據(jù)泄露成為歷史上最大的數(shù)據(jù)泄露。

ICIJ表示,一些機(jī)構(gòu)積極注冊殼公司來幫助富人及政要在全球轉(zhuǎn)移資產(chǎn),此為資產(chǎn)轉(zhuǎn)移的路線圖。

史上最大泄密數(shù)據(jù)怎樣流出?

據(jù)ICIJ負(fù)責(zé)人Ryle介紹,文件泄密事件始于2014年末,當(dāng)時,一位匿名舉報人主動聯(lián)系《南德意志報》?!赌系乱庵緢蟆返挠浾連astian Oberway說這位舉報人通過加密的聊天軟件與他取得聯(lián)系,表示將會提供某種數(shù)據(jù),意圖“將這些罪行公諸于眾”。但這位舉報人稱,他(或她)可能“有生命危險”,因此只愿意通過加密渠道聯(lián)系,并拒絕面談。Obermayer問:“到底有多少數(shù)據(jù)?”舉報人回答說:“你從未見過那么多。”Obermayer告訴《連線》雜志,他通過多個加密渠道與這位線人聯(lián)系,而且頻繁更換渠道,每一次都會刪除所有對話歷史記錄。他籠統(tǒng)提到曾使用Signal和Threema之類的加密軟件,以及PGP加密電子郵件,但拒絕透露他們使用的具體方法。每一次,記者和線人重新建立聯(lián)系后都會使用事先設(shè)定的問題和答案來相互驗證身份。Obermayer說:“我會問‘天氣晴朗嗎?’他應(yīng)回答‘月球上在下雨’,或其他莫名其妙的回答,這樣我們就知道對方依然是那個人。”

泄密的規(guī)模究竟有多大?

實(shí)際泄密的文件尚未被公布——國際調(diào)查記者聯(lián)盟(ICIJ)已宣布,將于下月公布泄密文件涉及的完整公司名單——它們到底包含多少數(shù)據(jù)尚不得而知。據(jù)報道,全部泄露信息包括上述律師事務(wù)所的1150萬份內(nèi)部文件。其中包括但并不局限于電子郵件、合同、抄本和掃描文件??傆嫲?80萬封電子郵件、300萬條數(shù)據(jù)庫信息、200萬份PDF文件、100萬張圖片和32萬份文本文件。所包含信息的總量甚至比維基泄密事件和愛德華·斯諾登泄密案更龐大。全部信息累計有2.6TB字節(jié)。這批文件數(shù)據(jù)生成的時間跨度長達(dá)數(shù)十年,從1977年一直到2015年。據(jù)ICIJ透露,“這些數(shù)據(jù)顯示,上述律師所與超過1.4萬家銀行、律師事務(wù)所、公司法人和其他中間人合作,為其客戶設(shè)立空殼公司、基金會和信托。”

最受這些頂級富豪們歡迎的十大避稅天堂。文件顯示,逾11.3萬(每兩家就有一家)家企業(yè)在英屬維京群島注冊。

如何協(xié)調(diào)幾百家媒體的報道?

文件曝光了有哪些跨國銀行請求為其客戶建立殼公司以及數(shù)量,其中Experta公司和信托服務(wù)的請求數(shù)量居榜首。Obermayer拒絕透露他們的舉報人具體是如何一次性將數(shù)百GB甚至上TB的的數(shù)據(jù)傳送給《南德意志報》的,這顯然遠(yuǎn)遠(yuǎn)超過電子郵件的上限,但如果通過郵寄加密硬盤的方式卻很容易匿名轉(zhuǎn)交。Obermayer只是簡略地說:“我學(xué)到了很多關(guān)于如何安全地傳輸大文件的知識。”在聯(lián)系上ICIJ后,ICIJ的技術(shù)人員為這些文件專門設(shè)計了一種“雙因素認(rèn)證保護(hù)搜索引擎”、以及一個通過加密電子郵件與其他媒體(包括BBC、衛(wèi)報、Fusion和幾十家外語媒體)共享的URL地址。這一網(wǎng)站甚至包括實(shí)時聊天系統(tǒng),方便記者們交換意見,查找自己看不懂的外語文件的翻譯版。“如果你想要查閱巴西相關(guān)文件,可以找一位巴西記者,”Ryle說,“你還能看到誰已經(jīng)起床開始工作,并進(jìn)行公開通信。我們鼓勵每個人告知其他人他正在做什么。”不同的媒體機(jī)構(gòu)最終分別在華盛頓、慕尼黑、倫敦、約翰內(nèi)斯堡和利勒哈默爾組織了各自的面談。

令人驚訝的是,雖然這些信息被如此廣泛地分享,要將數(shù)據(jù)庫中的信息公諸于眾還需等待——或許,部分原因在于它是如此的龐大且難以駕馭。Obermayer承認(rèn),雖然發(fā)生大規(guī)模泄密事件的傳聞風(fēng)聲四起,但數(shù)據(jù)本身并未泄露出去。“去年秋天,我一度非常緊張,擔(dān)心太多人知道了,”他說,“有幾個地方曾出現(xiàn)傳聞,但范圍并未擴(kuò)大。”Ryle說,媒體組織并不計劃像維基解密一樣發(fā)布完整數(shù)據(jù)庫,因為這樣做會暴露無辜個人的敏感信息,他們的報道只關(guān)注公眾人物。在和包括上述律師事務(wù)所在內(nèi)的調(diào)查對象取得聯(lián)系前幾周,Obermayer采取了最后一個預(yù)防措施:他摧毀了和舉報人聯(lián)系的電話和筆記本電腦硬盤。“這樣做似乎有點(diǎn)夸張,”他說,“但穩(wěn)妥總比后悔好。”他說,直到現(xiàn)在,他依然不知道舉報人的真實(shí)身份。“我不知道此人的名字或身份,”Obermayer說,“但我得說,我很了解他/她。有段時期,我與之交談的時間比我和我妻子還要多。”

如何分析1150萬份文件?

為了讓參與調(diào)查的記者能夠分享到原始數(shù)據(jù),首先需要將其轉(zhuǎn)化成數(shù)字格式,這個過程中需要使用高性能計算機(jī),并需要能夠在成千上萬的細(xì)節(jié)中搜尋熟悉名字的算法。為了能夠?qū)π孤段募?nèi)容進(jìn)行報道,掌握數(shù)據(jù)的人必須確保這些數(shù)據(jù)可被計算機(jī)讀取,而且能夠被搜索。“異類數(shù)據(jù)很難讀取或進(jìn)行交叉對照,”倫敦大學(xué)學(xué)院的計算機(jī)學(xué)副教授Gabriel Brostow告訴《連線》雜志說,“表格、數(shù)字、PDF格式文件幾乎都無法讀取。”《南德意志報》、ICIJ與軟件公司Nuix合作,對文件進(jìn)行初步分類和整理。Nuix的高級顧問Carl Batton對《連線》解釋說,要攻克這些數(shù)據(jù),首先需要將它們存儲在私人服務(wù)器上,切斷與外部世界的連接。數(shù)據(jù)隔離完成后,下一步是給它們編索引。Batton說:“我們會把信息中包含的文本和所有元數(shù)據(jù)提取出來,然后我們再從大數(shù)據(jù)和分析的角度,使用Nuix的技術(shù)對其進(jìn)行調(diào)查。”

處理這些數(shù)據(jù)最大的挑戰(zhàn)在于,一開始,大量的文本根本無法被機(jī)器識別。最終使用了“光符識別”(OCR)技術(shù)將數(shù)據(jù)轉(zhuǎn)化成可以被計算機(jī)讀取并搜索的文本。文本提取完成后,就可以插入索引和數(shù)據(jù)庫。據(jù)Batton估計,最終的數(shù)據(jù)庫大小只有原始數(shù)據(jù)的30%。“經(jīng)過我們處理后,ICIJ和《南德意志報》可以對數(shù)據(jù)進(jìn)行關(guān)鍵詞搜索,我們也可以找出其中的關(guān)鍵:比如姓氏、名字和數(shù)字,”Batton說,“我還可以用分析工具查找這些名字與文件的關(guān)聯(lián)。”一旦信息索引完成,再應(yīng)用算法在龐大的新信息庫中尋找特定關(guān)聯(lián)。最后,再將這些自動生成的信息與人工創(chuàng)造的數(shù)據(jù)結(jié)合起來?!赌系乱庵緢蟆吩谝黄u論中解釋說,“記者們負(fù)責(zé)提供重要政客、國際罪犯和著名職業(yè)運(yùn)動員等相關(guān)名單。”然后用專門創(chuàng)造的搜索工具對名單上名字進(jìn)行搜索。這家德國報紙還提到,“涉及政治獻(xiàn)金丑聞的名單包含了130個名字,涉及聯(lián)合國經(jīng)濟(jì)制裁的名單包含600多個名字,然而,強(qiáng)大的搜索算法只用了短短幾分鐘就完成了這些名單與1150萬份文件的對比。”

文件顯示,在全球空殼公司和影子銀行的排行中,中國香港是最活躍的地區(qū),當(dāng)中的離岸公司高達(dá)37675家。可以說,此次泄密如平地一聲驚雷震驚了各大 OFCs,特別是以信息私密性而著稱的 OFCs(比如 BVI、開曼群島、瑞士、 新加坡等),也把 BVI、開曼、庫克群島及其他 OFCs 推到了全球媒體的聚光燈下。為避免公眾產(chǎn)生“數(shù)據(jù)庫所涉及所有 人和公司都在避稅/逃稅”這樣的誤解,ICIJ 在其網(wǎng)站上專門公布了一個“Offshore Leaks Database FAQs” 的問答, 詳 細(xì)地闡述了其選擇披露的考量因素。ICIJ 表示,出于尊重隱私 的考慮,并不打算公布合法使用 OFCs 及境外工具的任何信息,特別是個人信息,只有涉及到公眾人物及已經(jīng)證實(shí)與違法犯罪有牽連,才會公開相關(guān)信息。公眾【不可假定】數(shù)據(jù)庫中所有公司和個人都在避稅或逃稅,相反,大多數(shù)都在合法、合理地使用境外公司和境外信托。

另外,ICIJ僅公布基本的公司信息,公司的詳細(xì)信息和個人信息 不在公布范圍內(nèi),比如,會議記錄、稅務(wù)存檔、銀行賬戶記錄、財務(wù)交易記錄、電子郵件和其他通信往來、個人的護(hù)照信息、個人的電話信息等。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號