大數(shù)據(jù)和AI,純談概念沒意義

責(zé)任編輯:editor004

2016-10-21 12:07:58

摘自:“caoz的夢囈

前段時間, Google 的新聞發(fā)布會,有很多與AI相關(guān)的產(chǎn)品推出,其實很多媒體已經(jīng)說了,Google已經(jīng)是一家AI公司了。

前段時間, Google 的新聞發(fā)布會,有很多與AI相關(guān)的產(chǎn)品推出,其實很多媒體已經(jīng)說了,Google已經(jīng)是一家AI公司了。

最近AI,大數(shù)據(jù),機(jī)器學(xué)習(xí)這些概念特別火,一個通用的認(rèn)識是,AI是行業(yè)未來,是下一個風(fēng)口,是千億美元巨頭的誕生點。但我不想說,寫一篇文章來證明,為什么AI那么重要或者那么有價值,因為這屬于正確但完全沒用的廢話。就好比你說IT行業(yè)是巨大的市場方向一樣,正確然而并沒有卵用。

大數(shù)據(jù)

AI并不是最新的東西,只是最新技術(shù)發(fā)展的確實有點快,很多出色的互聯(lián)網(wǎng)產(chǎn)品或其他高科技產(chǎn)品多少都要有AI的成分,從游戲里的Boss,到翻譯系統(tǒng),搜索引擎,推薦系統(tǒng),到?jīng)Q策支持系統(tǒng),自動交易系統(tǒng),工業(yè)機(jī)器人,無人駕駛,以及各種社交機(jī)器人陪聊系統(tǒng),美圖工具,AI其實無處不在。就算從傳統(tǒng)領(lǐng)域來說,不說無人駕駛,現(xiàn)在汽車?yán)锏母鞣N安全輔助系統(tǒng),其實也可以認(rèn)為是AI系統(tǒng)。

錘子科技的發(fā)布會,訊飛語音輸入法突然走紅,這也是AI 的一個典型場景,你們知道么,我在十五年前就知道并了解過這個東西了,你會說吹牛吧,十五年前pc互聯(lián)網(wǎng)才剛起步,移動互聯(lián)網(wǎng)還沒人聽說過呢。 那時候,我還在做呼叫中心方案,呼叫中心方案里有個模塊叫做IVR,中文是交互式語音應(yīng)答,當(dāng)時國內(nèi)技術(shù)最強(qiáng),處于近乎壟斷地位的,就是科大訊飛,其實就是語音識別和自動處理,和現(xiàn)在的訊飛輸入法,從技術(shù)原理而言,并無二致,但那時候,AI 這個概念還沒火。當(dāng)然技術(shù)也沒現(xiàn)在成熟,實際上絕大部分呼叫中心,并沒有把交互式語音應(yīng)答當(dāng)作重要的模塊,更多是讓用戶按鍵輸入和人工服務(wù)。

AI最初,是人類制定明確的規(guī)則和邏輯,并提供給機(jī)器可以借用的數(shù)據(jù)資源,讓機(jī)器去執(zhí)行,也就是一樣樣教,機(jī)器一樣樣學(xué),機(jī)器發(fā)揮計算力和反應(yīng)速度的優(yōu)勢。但后來大數(shù)據(jù),機(jī)器學(xué)習(xí)這些東西開始起來后,很多東西就發(fā)生了改變,人類只給一個基本的學(xué)習(xí)方法和邏輯,然后就是大數(shù)據(jù)集,讓AI通過這些大數(shù)據(jù),和基本的學(xué)習(xí)方法,自己去學(xué)習(xí)和發(fā)現(xiàn)知識點,這樣AI的能力就得到了飛躍,甚至可以發(fā)現(xiàn)很多人類尚未發(fā)現(xiàn)的知識點,也就是出現(xiàn)了超越人類判斷力的可能。

舉個例子,比如我有個系統(tǒng),需要根據(jù)人的基因測序結(jié)果,來分析和判斷這個人的健康風(fēng)險和遺傳疾病可能,在以前呢,是需要對每一個基因的定義,科學(xué)家做嚴(yán)格的對比測試,把結(jié)論整理清楚,然后告訴這個系統(tǒng),這個系統(tǒng)才知道,你這個基因到底咋回事,出了什么問題。但后來大數(shù)據(jù)出來了,就有了新的玩法,根據(jù)大量真實用戶的基因測序結(jié)果和真實的疾病診斷記錄,系統(tǒng)從中尋找規(guī)律,識別不同基因的可能含義以及對應(yīng)的健康問題。這很多人類尚未明確的一些基因定義,也可能被系統(tǒng)發(fā)現(xiàn),系統(tǒng)就擁有了超越現(xiàn)有人類知識庫的能力,但如果樣本集不夠大,也可能一些偶然重合的基因被賦予了不正確的定義。

所以大數(shù)據(jù),機(jī)器學(xué)習(xí),將AI帶入了一個新的境界,但這里除了數(shù)據(jù)量,算法,也就是所謂的學(xué)習(xí)方法也很重要。 比如圍棋AI,最開始人類用自己的規(guī)則教給他,結(jié)果怎么教都學(xué)不會,特別low,后來蒙特卡洛算法被引用后,圍棋AI上了一個大臺階,從業(yè)余菜鳥水平迅速躥升到了業(yè)余高手的水平,但這個算法的潛力很快被挖掘到了極限,所以最近三四年,其實圍棋AI的能力基本停滯,直到Google 的價值評估策略橫空出世,一下子從業(yè)余高手突進(jìn)變成職業(yè)頂級水平,由于 Google 公開了論文,僅僅是論文的公開,僅僅最近半年時間,世界其他的圍棋AI程序紛紛突破瓶頸,全都上了新的臺階。所以好的學(xué)習(xí)算法,也是非常重要的。

所以我們談AI,談大數(shù)據(jù),談機(jī)器學(xué)習(xí),在相當(dāng)多場合,可能說的是一回事。

那么問題來了,說了這些,有什么卵用?

1、可復(fù)用的基礎(chǔ)技術(shù)

這一點必須承認(rèn),Google走的比較靠前。

一些基本的算法和思路,在很多場合可以通用,比如蒙特卡洛算法就是一個很典型的例子,當(dāng)然,有專業(yè)人士可能會挑刺,這個算法貌似和機(jī)器學(xué)習(xí)關(guān)系不大哦,好吧,其實我也不是行家,很多東西我也不是很懂的。

可復(fù)用的基礎(chǔ)技術(shù),脫離場景的話,你可能不知道這玩意值錢在哪里,或者有什么意義,就好比你贏了圍棋世界冠軍,對商業(yè)來說,又能代表什么?

但這東西會成為很多革命的火種,就好比交流電,當(dāng)特斯拉最開始秀各種電的神奇表演時,對于大眾而言,誰知道這會成為人類生活各種場景各種工具密不可分的基礎(chǔ)技術(shù)呢。

中國目前的互聯(lián)網(wǎng)公司,從來都是實用為王,技術(shù)上拼得是我雙11的處理能力,運營上拼得是線下幾萬個快遞小哥的覆蓋能力。在應(yīng)用技術(shù)挖潛上我們可以做到極致,但是在這種基礎(chǔ)能力上,我們還停留在超強(qiáng)的拿來主義原則上。

2、應(yīng)用場景

關(guān)鍵點來了,最終能變成千億美元,或者百億美元的市場空間,一定是要落在具體的應(yīng)用場景里。

以后誰要跟你得瑟說AI是未來,大數(shù)據(jù)是未來,巴拉巴拉的,你就直接噎他一句,具體應(yīng)用場景是哪些。說不出來的都是裝逼犯。

一些基礎(chǔ)可復(fù)用的算法策略,加上針對具體應(yīng)用場景的算法策略,加上海量的數(shù)據(jù)訓(xùn)練集,是讓機(jī)器形成正確和快速判斷的基礎(chǔ)。

幾個非常明確的場景

翻譯絕對算一個, 想象一下,以后語音識別+自動翻譯,出門全球自由行,帶個實時翻譯耳機(jī),各說各話,全程無障礙溝通。這個場景將徹底改變旅游,商務(wù)出行的市場格局,并且真正促進(jìn)人類的彼此理解和溝通,社會價值極為巨大。

有人說翻譯的質(zhì)量不會達(dá)到人類的標(biāo)準(zhǔn),但其實這不重要,能夠雙方清晰理解就可以,在大多數(shù)日常溝通情況下,翻譯的目的是雙方理解,而不需要絕對精確。而且這樣會帶來一個后果,就是也許以后機(jī)器翻譯體可能會開始流行,一些機(jī)器特點的表達(dá)方式會反過來改變語言原本的使用習(xí)慣,不用擔(dān)心,連long time no see這樣的短語,這不老美也都習(xí)慣了。當(dāng)翻譯體都開始流行時,良性反饋,機(jī)器的翻譯就越來越精確了。

無人駕駛是一個, 用車成本會極大降低。想象一下,出租車的費用會減少一半,這是啥概念,而且不會再有繞路,拒載的事情。就算是私家車,能夠安心的看風(fēng)景,或者看書,或者處理工作或?qū)W習(xí)的事情,而不是緊張兮兮的捏著方向盤在車流里尋找見縫插針的機(jī)會。

醫(yī)療健康會有機(jī)會, 至少基因的大數(shù)據(jù)分析已經(jīng)開始,但是從成本考慮,獲得足夠多的樣本建立訓(xùn)練集應(yīng)該還是一個比較長時間的事情。此外,機(jī)器導(dǎo)診會不會出現(xiàn),基于海量病歷,針對患者病情描述和必要的檢查,給出導(dǎo)診建議,或給醫(yī)生輔助建議。比如,有23%的幾率是A病癥,5%的幾率是B病癥,建議做什么什么檢查。 短期內(nèi)取代人類醫(yī)生可能還不太敢,但作為輔助方式,這個其實技術(shù)上應(yīng)該已經(jīng)沒有太大門檻了,缺的就是足夠的數(shù)據(jù)量和必要的學(xué)習(xí)算法。

教育我不好講, 但也存在一些想象空間,一個學(xué)生通過智能教育系統(tǒng)做題,根據(jù)其答題表現(xiàn),給出下一步的學(xué)習(xí)方案和復(fù)習(xí)計劃。每個學(xué)生都會根據(jù)自己的能力和自己的實際表現(xiàn),采用不同學(xué)習(xí)進(jìn)度,不同的學(xué)習(xí)方向發(fā)展自己。個性化的教育是不是有機(jī)會,至少可以想一下。

軍事我就不說了, 有個大佬說了,這種技術(shù)最先肯定是在軍事領(lǐng)域應(yīng)用,因為替代成本高啊,比如米國,一個士兵的死亡成本是多少,派個無人機(jī)過去,替代成本高,這事就容易推動,值得投入。

正在寫這個文章的時候,突然有個安全高手在微信群提到了 風(fēng)控AI。 如何識別騙子,識別欺詐,識別有問題的賬戶或者用戶,現(xiàn)在都是人工去把出問題的內(nèi)容拿出來看,然后總結(jié)規(guī)律,形成規(guī)則交給機(jī)器和算法,但是不是可以形成一套基于歷史數(shù)據(jù)挖掘的自動系統(tǒng),只要發(fā)現(xiàn)壞數(shù)據(jù),就回溯源數(shù)據(jù),然后加入樣本庫學(xué)習(xí),對比好數(shù)據(jù),然后自動形成風(fēng)控的策略,從而在保持門檻寬松的前提下,降低壞賬率。對于一些小額貸款的p2p金融項目來說,這簡直就是核心競爭力有沒有,你玩得起對手玩不起,拼得就是壞賬率和風(fēng)控水平。

金融市場的自動交易就不說了, 人家都搞了快幾十年了,會不會出現(xiàn)一個超級BT的新算法吊打各種傳統(tǒng)策略?值得期待一下,但很多血淋淋的教訓(xùn)在前面呢。比如BAT試圖用大數(shù)據(jù)邏輯來做基金啥的,紛紛被打臉,呵呵,呵呵吧。有人說,以后投資基金都不需要專業(yè)人士了,靠大數(shù)據(jù)分析就夠了,不知道這個以后有多久,至少目前的大數(shù)據(jù)分析策略,還差的挺遠(yuǎn)。

圖像識別和圖像處理這幾年也非?;穑?除了娛樂應(yīng)用外,安防風(fēng)控,電商都有應(yīng)用場景,此外還有一個分支,鑒黃,但概念火了好幾年,卻沒有看到特別有價值的商業(yè)表現(xiàn)。依然是缺乏特別殺手級的應(yīng)用場景,大概也和技術(shù)仍然不夠強(qiáng)大有關(guān)。想象一下,尋人,包括走失,包括拐賣,包括抓捕,在警方后臺提交一個照片,自動提示全國的哪個攝像頭這個人最后經(jīng)過了,這個價值大不大,但問題是,現(xiàn)在的技術(shù)實現(xiàn)不到這個級別呢?,F(xiàn)在也就是火車站,機(jī)場安檢能查指定逃犯,遠(yuǎn)談不上大數(shù)據(jù)。

最后總結(jié)一句,大數(shù)據(jù)和AI,純談概念沒意義,要回歸場景,可復(fù)用的通用技術(shù)固然重要,但只有落在場景里,我們才知道其明確的價值在哪里。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號