搞定大數(shù)據(jù):AI和機器學(xué)習(xí)在數(shù)據(jù)處理與保護上的應(yīng)用

責(zé)任編輯:editor006

作者:nana

2017-04-04 21:18:34

摘自:安全牛

作為咨詢師和顧問,有關(guān)各自數(shù)據(jù)、信息和網(wǎng)絡(luò)安全事務(wù)時,重復(fù)“規(guī)模”問題挺有難度。用下面的表格,我們用一些例子以類比的方式重寫了這些數(shù)字,概念化一下我們實際處理的東西。

作為咨詢師和顧問,有關(guān)各自數(shù)據(jù)、信息和網(wǎng)絡(luò)安全事務(wù)時,重復(fù)“規(guī)模”問題挺有難度。不幸的是,上市公司的“外行”總監(jiān)和管理人員,以及政府高管,傾向于將“規(guī)模”(當它屬于數(shù)據(jù)保護的時候)看做不好的東西,甚至是令人恐怖的事物。

原因部分在于,幾乎沒有什么實用的方法,可以向這些位置上的人解釋:某組織的安全運營中心是有可能每天收到百萬個“事件”,以及,同時處理和調(diào)查這些事件的固有潛在危害,以及,適度保證沒有任何一起事件能夠溜過安全人員的檢測。

大數(shù)據(jù)分析作為商業(yè)工具是很妙的一招,因為我們可以將這些數(shù)字轉(zhuǎn)換成“商業(yè)利益”。但大數(shù)據(jù)也是網(wǎng)絡(luò)安全的需要(比如,使用網(wǎng)絡(luò)流量、數(shù)據(jù)、傳感器和其他反饋,幫助確定網(wǎng)絡(luò)正常模式和異?,F(xiàn)象),問題在于網(wǎng)絡(luò)安全數(shù)據(jù)不太容易被轉(zhuǎn)換成我們能輕易概念化的東西。

那么,我們產(chǎn)生多少大數(shù)據(jù)呢?我們又該怎樣響應(yīng)這些數(shù)據(jù)?有幾個重要的基本問題必須得到很好的理解,否則更難的問題——我們怎樣保護數(shù)據(jù)?就得不到解答了。

一、我們產(chǎn)生多少數(shù)據(jù)?

先從一個基本的概念開始:時至今日,數(shù)據(jù)意味著所有東西,無論是個人的,還是工作上的。我們生活中的方方面面,都已經(jīng)轉(zhuǎn)換成了這些“0”和“1”的組合。我們?nèi)缃駥?shù)據(jù)的依賴是前所未有的,而且肯定還會越來越重,尤其是隨著IoT的爆炸式發(fā)展。而我們產(chǎn)生的數(shù)據(jù)——無論好數(shù)據(jù)、壞數(shù)據(jù)、垃圾數(shù)據(jù),也將持續(xù)增長(以驚人的速度),不斷吞噬全球網(wǎng)絡(luò)上的空間(意味著如果你能夠控制小小一部分這些數(shù)據(jù)流,就能發(fā)動邪惡的DDoS攻擊)。

那么,到底有多少數(shù)據(jù)以近光速游蕩在網(wǎng)絡(luò)中?2016年6月思科的一份白皮書揭示:全球IP流量已進入“澤字節(jié)(ZB:2^70字節(jié))時代”。很好,但ZB是個什么鬼?(下文會有解釋)

二、回到基本規(guī)律

為解答該問題,我們需要從一些基本規(guī)律開始,首先就是:人類是有認知限制的。在試圖理解超級大或超級小的數(shù)字上,這種限制就特別明顯了。我們可以使用計數(shù)符號來表示大數(shù)字,比如 1 ZB(澤字節(jié))就是 1 x 10^21 字節(jié)。但是,這個計數(shù)法對你有任何意義嗎?

把100萬表示成 1 x 10^6 可能對你還有點意義,但那是因為我們對“100萬”的實際意義有著更好的理解??梢杂妹涝獊砀拍罨?ldquo;100萬”以創(chuàng)建一個參考點:你的年薪是 $50,000,工作20年,只存不花,那就能攢下100萬美元了??聪卤?,可以給你的年薪來個“增幅”:

哪種表示法看起來更爽?$1 x 10^9 還是 $1,000,000,000?好吧,其實都一樣的數(shù)額,但后面的一串“0”顯然看起來舒服多了。而且,更重要的是,看著后一種表示法中的一串“0”,不僅可以幫助人類理解該數(shù)字,還能更好地理解這數(shù)字代表的意義。為什么呢?因為我們用單詞代表數(shù)值,而這些數(shù)值必須被轉(zhuǎn)換成可感知的某些東西,我們才能在日常生活和網(wǎng)絡(luò)空間中加以使用,因為規(guī)模、符號和認知的限制,該問題變得更難了。

三、概念化ZB

我們知道十億(10^9)是什么,但我們管10^21叫什么?1,000的7次冪?現(xiàn)在覺得有個稱呼好點兒了么?未必!

想象一下我們可以捕捉的一瞬間,就2016年全球IP流量的一個快照吧——1澤字節(jié)。我們能把這類比成什么呢?

用下面的表格,我們用一些例子以類比的方式重寫了這些數(shù)字,概念化一下我們實際處理的東西。

注:本例中用 1.28 ZB (有些數(shù)字四舍五入了),出于數(shù)學(xué)上的方便,完整寫出數(shù)字時就用十進制值而非二進制了。不用過分糾結(jié)細節(jié),至于技術(shù)宅,記得:更多的人說話方式是“非技術(shù)”的。讓你的生活,以及他們的生活,更容易些吧,術(shù)語行話和煩人的細節(jié)什么的,能避免就避免。

嘗試在腦海中具象化下面的數(shù)字:

*注:1 萬億米相當于1,000,000,000公里

如果地球到土星的距離對比很難概念化,不妨這么想:花8,000輩子一刻不停用腳走就走到了。如果這都還是難以想象,那就這樣:128 GB 之于 1.28 ZB,相當于 20 美金的一張綠票票之于整個美國聯(lián)邦債務(wù)——20萬億美元。于是,假設(shè)聯(lián)邦債務(wù)以全球IP流量增長速率增加,到2020年美國總統(tǒng)大選之時,我們要討論的就是46萬億的債務(wù)數(shù)字了。

四、概念化網(wǎng)絡(luò)安全警報過程

那么,既然我們現(xiàn)在對數(shù)據(jù)產(chǎn)生和流量問題的規(guī)模有了更好的理解,我們就要考慮一下怎么管理了。

毫不意外的,被問到最大的安全事件響應(yīng)挑戰(zhàn)時,被調(diào)查的網(wǎng)絡(luò)安全從業(yè)者中,36%的人稱,“跟上安全警報的規(guī)模。”用上面20萬億美元來做類比,可以說,安全人員的任務(wù)就是每天從550億美元中篩選,找出其中多少是合法的,有多少被盜了,有多少是被洗的,有多少是假鈔。

FBI局長詹姆斯·科米在2014年 60 Minutes 的采訪中對該問題給出了一個非常有用的描述(談及中國網(wǎng)絡(luò)攻擊時說的):

實際上,他們沒那么強。我把他們比作喝醉的盜賊。他們一路踢開大門,撞倒花瓶,再順走你家電視機。他們僅僅是多勞多得而已。他們的策略似乎是:我們就是時時刻刻無處不在。而他們無法阻擋我們。

關(guān)鍵句是“時時刻刻無處不在”,因為這就是現(xiàn)狀。同一份調(diào)查中,42%的受訪者稱自家公司忽略掉了相當大一部分的安全警報,因為他們完全跟不上警報的規(guī)模。當然,被警報淹沒也存在無心之失的風(fēng)險:“狼來了”太多次的后遺癥。

但或許更令人擔憂的數(shù)字是:34%的人稱,1/4到一半的警報都被無視了,20%稱一半到3/4的警報被無視,11%稱超過3/4的安全警報被無視!額滴娘喂,這不就是無數(shù)大門被踢開,然后放任不管么。

再回到20萬億美元的對比,也就是每天要從550億美鈔中篩選的類比中。如果我們使用上述“忽略”數(shù)字,翻譯過來就是:警報告訴我們有些不對勁的事情在發(fā)生,但我們太疲于應(yīng)付了,我們不想撥冗查看價值150億的日產(chǎn)警報。這可真是很多很多錢啊。

很不幸,該問題由來已久。警報忽略似乎與警報本身一樣常見,而且如《思科2017年度網(wǎng)絡(luò)安全報告》中揭示的:不到一半的合法警報切實觸發(fā)了某種形式的修正,而僅不到1%的嚴重/關(guān)鍵警報被予以調(diào)查。2014年,企業(yè)每天處理10,000個警報;2016年,政府部門每天處理50,000個警報;誰知道2017年底隨著IoT爆炸式發(fā)展我們每天要處理多少警報呢。

不幸的是,盡管有良好建議,比如設(shè)置目標、獲取正確的信息、鞏固整合等等,我們依然疲于奔命,因為我們還是沒解決“規(guī)模”問題。哦,還有,我們是不是還沒提到,有時候網(wǎng)絡(luò)安全分析師每天只能搞定10個調(diào)查?這就是AI和機器學(xué)習(xí)可以大展拳腳的地方了(也是為什么專注于網(wǎng)絡(luò)安全問題的AI初創(chuàng)公司,是最好利用我們當前越來越脆弱的狀況的原因了)

五、到底意味著什么?

這意味著,我們還有很多工作要做,意味著如果沒有AI和機器學(xué)習(xí)幫我們解決網(wǎng)絡(luò)安全挑戰(zhàn)——感覺上是兩碼事而實際上就一碼事的東西(提示:網(wǎng)絡(luò)安全+信息安全=數(shù)據(jù)安全),我們就一條道走到黑了。只要有人能命令并控制僅僅1%的全球IP網(wǎng)絡(luò)流量,其后果都是災(zāi)難性的。

這想法聽起來挺難以置信的,但很可能就真是這樣,尤其是在想到IoT設(shè)備有多不安全(你的洗碗機有口令嗎?),以及向移動設(shè)備的遷移分分鐘都不停腳的時候。這意味著只會有越來越多的人連接本就不安全的設(shè)備WiFi網(wǎng)絡(luò)。

這些困難不會變得更容易解決,特別是當我們持續(xù)產(chǎn)生數(shù)據(jù),而黑客宣稱可以在12小時內(nèi)突破大多數(shù)目標的時候。因此,我們需要盡可能多的工具(比如AI/LM),但我們也需要清醒且坦誠地面對手頭處理的對象。網(wǎng)絡(luò)安全是個技術(shù)問題,也是人的問題,但我們?nèi)祟愖陨韰s一直都理解錯了這一點。對人類認知限制的認識,是領(lǐng)先對手和惡徒的重要一步。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號