在百度大數(shù)據(jù)開放大會上,中國疾病預(yù)防控制中心的高福院士在開講時就向聽眾拋出了一個問題“如果2003年百度的搜索引擎和現(xiàn)在一樣發(fā)達(dá),能夠提前告知我們廣州、香港已經(jīng)開始出現(xiàn)SARS病毒感染了,那么其他地區(qū)的危害是否會變得小一些?”
而這一問題也其實(shí)暴露了傳統(tǒng)疾病預(yù)防控制的方式的不足,最大的不足在于實(shí)時性上,疾病的傳染控制搶的就是時間,與死神賽跑。而此次疾病預(yù)防控制中心與百度的合作也正是意在改變現(xiàn)狀,開始利用大數(shù)據(jù)對疾病傳播進(jìn)行更先進(jìn)的監(jiān)控與控制。
谷歌已在疾病預(yù)測防控上已經(jīng)走出先例,那么我們先來看下谷歌的谷歌流感趨勢(Google Flu Trends,GFT)的工作成果,再對比百度,從中窺視中國疾病預(yù)防控制的大數(shù)據(jù)未來。
一,谷歌在疾控上的成就
2008年,谷歌上線“谷歌流感趨勢”項目,該項目開始預(yù)測流感傳播。
2009年在美國的H1N1爆發(fā)幾周前,谷歌成功預(yù)測了H1N1在全美的傳播范圍,具體到了州還有特定地區(qū),判斷非常及時,令美國公共衛(wèi)生機(jī)構(gòu)以及全美大為震驚,疾控中心通常只能在流感爆發(fā)一兩周之后才可以做到,而谷歌的及時性讓全美側(cè)目。
這是真正第一次利用搜索引擎大數(shù)據(jù)對疾病控制的預(yù)測嘗試,谷歌因此也獲得巨大殊榮。
二,中國疾控中心的大數(shù)據(jù)方向
此次疾控中心與百度深入合作,不僅利用百度的數(shù)據(jù)技術(shù)來達(dá)到疾病傳播的控制,還將拿出官方的監(jiān)測數(shù)據(jù)與百度進(jìn)行深入分析并建立模型。以下是在大數(shù)據(jù)下,疾病控制可以做到以下幾點(diǎn)。
1,提前確定一定規(guī)模的未知疾病,為疫情控制爭取時間。無論傳統(tǒng)檢測還是大數(shù)據(jù)都是無法監(jiān)測到任何沒有臨床癥狀的病例的,這些經(jīng)驗(yàn)在醫(yī)院的臨床經(jīng)驗(yàn)中都為0。但大數(shù)據(jù)卻可以做到一件事,通過醫(yī)院的共享信息以及百度監(jiān)控指定地區(qū)的用戶的頻繁搜索關(guān)鍵詞,可以檢測到某個地區(qū)已經(jīng)出現(xiàn)了諸如不明原因的肺炎,某地餐館讓多少人出現(xiàn)嘔吐腹瀉等異常狀況......
然后再通過與疾病控制中心的病毒庫中的病毒分析,尋找吻合的病毒,進(jìn)行比對分析然后將其找出,為判斷疾病贏取時間。換句話說,有了大數(shù)據(jù)后,疾病預(yù)防可以真正在第一時間內(nèi)去判斷出疫情的病毒源,進(jìn)而為控制爭取時間。
另外要說明一點(diǎn)的是,當(dāng)前的科技下,疫情的發(fā)生是誰也無法控制的,我們目前唯一能夠控制的就是及時制止其傳播的范圍,而大數(shù)據(jù)則是目前唯一的也是最佳的途徑。
2,判斷人員流向,控制疫情。在疫情發(fā)生后,雖然國家可以第一時間控制住當(dāng)?shù)匾咔?,但是人員流動則是無法控制的?,F(xiàn)在利用百度的技術(shù)可以做到,比如A地突然爆發(fā)了傳染病,而此時根據(jù)百度大數(shù)據(jù)的監(jiān)控就能監(jiān)測到傳染源區(qū)人員的主要流向地是B地與C地,于是疾控中心就拿出對應(yīng)的醫(yī)療技術(shù)和對應(yīng)的治療藥品以及疫苗來防治,第一時間趕到B地與C地,將一切藥物準(zhǔn)備就緒并為當(dāng)?shù)厝私臃N疫苗,這樣一來就減少了盲目的廣撒網(wǎng)式的全面布局情況,通過百度提供的人員流動數(shù)據(jù),讓控制疫情在效率上大幅度提升。
3,治療藥物和疫苗的迅速研發(fā)。在疫情發(fā)生后最重要的事情就是研發(fā)對應(yīng)藥物,傳統(tǒng)的做法是一個小范圍的研發(fā),然后用傳統(tǒng)的交流方式,但是有了大數(shù)據(jù)就不可同日而語。在病人的治療中,所有藥物的使用數(shù)據(jù)以及用戶的病情數(shù)據(jù)都將全部聯(lián)網(wǎng),當(dāng)機(jī)器檢測到發(fā)現(xiàn)某種藥物(通過讀取錄入的藥物數(shù)據(jù))對病人的病情(通過讀取錄入病人健康的關(guān)鍵指數(shù)后的數(shù)據(jù))有部分效果后,將會迅速納入研發(fā)的決策范圍,為研發(fā)部門提供有用參考,為研發(fā)對抗疫情的藥物以及預(yù)防疫情的疫苗,提供全網(wǎng)的大數(shù)據(jù)的支持。
4,傳播動力學(xué)模型建立。疫情的傳播模型在學(xué)術(shù)上有很多研究成果,但是這些學(xué)術(shù)研究都很難落地,就像《反脆弱》里說的這種涉及社會問題的理論要想建立,從學(xué)術(shù)到實(shí)踐是一種大眾錯覺,真正建立起理論的永遠(yuǎn)是實(shí)踐再到學(xué)術(shù)然后再不斷微調(diào)。而現(xiàn)在擁有了大數(shù)據(jù)的全面監(jiān)控后,疾控中心也就有了更多的實(shí)踐支持,就可以開始真正從實(shí)踐中建立有關(guān)疫情的復(fù)雜動態(tài)網(wǎng)絡(luò)的傳播動力學(xué)。
目前,疾控中心將國家拿出監(jiān)控點(diǎn)的數(shù)據(jù),從鄉(xiāng)鎮(zhèn)到醫(yī)院的數(shù)據(jù),與百度已有的大數(shù)據(jù)結(jié)合,再加上百度更強(qiáng)的分析能力,一起繪制出傳播的模型,來為今后的疫情控制工作做更多的參考。
5,建立全民預(yù)警機(jī)制。高院士有個愿景,希望未來的大數(shù)據(jù)疾病預(yù)防控制的預(yù)警不僅僅只是他們這些坐在辦公室的決策者能夠收到,更希望能夠讓全民享有這樣的福利,來保障更多人的安全。比如當(dāng)你去出差時,百度會在你的手機(jī)上提前通知你,你將要去的地區(qū)有食品安全問題,再比如第一時間通知你,你所在的地區(qū)有流感地區(qū)的人群大量流入,讓你及時做好預(yù)防工作以及接種疫苗等等。
關(guān)于這一點(diǎn),我認(rèn)為并不遙遠(yuǎn),相信在近期就能夠做到。
三,谷歌的前車之鑒
谷歌雖然在09年的預(yù)測上做出了漂亮的成績,但是在2013年的2月谷歌流感趨勢被媒體大量批評,原因就在于其數(shù)據(jù)總是偏高于真實(shí)的流感數(shù)據(jù)。
谷歌出錯的原因有很多,比如谷歌的搜索算法調(diào)整會間接影響到用戶習(xí)慣,再比如谷歌的推薦搜索以及相關(guān)性推薦也會影響用戶的搜索結(jié)果,此外搜索某個關(guān)鍵詞的用戶也不一定是患病用戶,再加上運(yùn)營商的地理位置判斷等問題,使得谷歌出現(xiàn)算法過度擬合的情況,將噪聲當(dāng)成了信號,導(dǎo)致其結(jié)果的不準(zhǔn)確性。
而谷歌的反復(fù)試錯,也讓百度在該項目上更加警惕,所以直到最近才開展該項目,想必是已經(jīng)做好了充足的準(zhǔn)備有了充足的自信,才敢開始該項目,并接受大眾的檢驗(yàn)。
結(jié)語:之前交通部與百度的合作,再加上現(xiàn)在的疾控中心與百度的合作讓我們看到互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)已經(jīng)進(jìn)入了到國家決策的層面。未來的政府也將更加依賴于這些大數(shù)據(jù)的支持來做決策,而我們也將一起利用這些共享開放的數(shù)據(jù),為自己所用。