大數(shù)據(jù)威力無窮:百度遷徙春運(yùn)項(xiàng)目揭秘

責(zé)任編輯:editor004

2014-02-13 10:46:30

摘自:中關(guān)村在線

世界上最大的哺乳動(dòng)物遷徙莫過于中國春運(yùn)。百度遷徙的數(shù)據(jù)其實(shí)并非完全精準(zhǔn)的,只是一個(gè)粗略定位數(shù)據(jù)的統(tǒng)計(jì),“直線模式”就可以證明并非實(shí)時(shí)定位的數(shù)據(jù),那么百度只需要調(diào)用春運(yùn)路程的起點(diǎn)與終點(diǎn)數(shù)據(jù)既可以收集一個(gè)用戶的信息。

百度遷徙春運(yùn)項(xiàng)目揭秘

世界上最大的哺乳動(dòng)物遷徙莫過于中國春運(yùn)。每一年紅紅火火的春運(yùn)即將結(jié)束,但是今年卻有些不同,百度推出的一項(xiàng)百度遷徙項(xiàng)目引起大家圍觀。大家對(duì)于百度遷徙也存在許多疑問,今天就在這里為大家解刨一下什么是百度遷徙,它又會(huì)給我們的生活帶來什么樣的變化。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

在知乎的討論版上,我們看到了不少網(wǎng)友關(guān)于百度遷徙的討論,其中涉及了不少專有名詞,在討論百度遷徙之前,我們先為大家解釋一下這些常常見到的名詞都代表什么意思。

LBS

Location Based Service的縮寫,基于位置服務(wù)。意思就是這項(xiàng)服務(wù)內(nèi)容是基于位置定位的?,F(xiàn)在我們智能手機(jī)中LBS服務(wù)不少,比如打車服務(wù)、周邊團(tuán)購信息查詢等,都是先確定了用戶的位置再提供相應(yīng)的服務(wù)。

GPS

Global Positioning System,美國軍方開發(fā)的衛(wèi)星定位系統(tǒng),由衛(wèi)星不斷發(fā)布精準(zhǔn)的時(shí)間信息,通過終端產(chǎn)品計(jì)算確定用戶位置。其特點(diǎn)是覆蓋面廣、精度高(民用3-10米)、民用免費(fèi)等特點(diǎn)。

粗略定位

粗定位有很多方式,我們比較常見的就是手機(jī)通過基站的粗定位,其原理與衛(wèi)星定位差別不大,但是精度有限。比如在通訊基站較為密集的城市精度較好,在落后城市中基站較少就會(huì)出現(xiàn)很大的偏差。

API

Application Programming Interface縮寫,意為應(yīng)用程序編程接口。我們使用的應(yīng)用程序并非每一項(xiàng)服務(wù)都是有開發(fā)商一家完成的,有些服務(wù)需要調(diào)用其他公司的服務(wù)。說到百度遷徙則就意味著百度的LBS服務(wù)的API。對(duì)于中國嚴(yán)格限制地圖服務(wù)商的政策下,更多的應(yīng)用開發(fā)商都需要選擇不同的位置服務(wù)商來調(diào)用數(shù)據(jù)。

手機(jī)定位

手機(jī)定位主要可以通過上面介紹的兩種方式,若要進(jìn)行連貫導(dǎo)航,必須透過GPS連續(xù)定位獲取。而手機(jī)定位之后會(huì)在各種軟件、服務(wù)中留下“痕跡”,百度遷徙則是透過各種方式獲取了用戶的位置信息,通過大量的數(shù)據(jù)演算得來。

那么通過上面的一些名詞解釋,可能大家不難理解百度遷徙是從何而來。當(dāng)然伴隨著手機(jī)定位的數(shù)據(jù)統(tǒng)計(jì),也會(huì)讓用戶懷疑隱私是否安全等問題,那么下面我們就來看看百度遷徙的內(nèi)容以及伴隨生活的定位服務(wù)會(huì)給我們帶來什么樣的優(yōu)勢(shì)與隱患。

第2頁:遷徙數(shù)據(jù)從何而來?

首先百度遷徙的數(shù)據(jù)其實(shí)并非完全精準(zhǔn)的,只是一個(gè)粗略定位數(shù)據(jù)的統(tǒng)計(jì),“直線模式”就可以證明并非實(shí)時(shí)定位的數(shù)據(jù),那么百度只需要調(diào)用春運(yùn)路程的起點(diǎn)與終點(diǎn)數(shù)據(jù)既可以收集一個(gè)用戶的信息。原理有了,我們還需要大量的數(shù)據(jù)作為基礎(chǔ)。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

看似非常復(fù)雜的遷徙圖 其實(shí)原理并不復(fù)雜 需要大量的數(shù)據(jù)做支撐

那么百度的數(shù)據(jù)是從何而來呢?去年3月份統(tǒng)計(jì),國內(nèi)移動(dòng)通訊用戶達(dá)到了11.46億,而基于百度API的應(yīng)用程序位置信息請(qǐng)求數(shù)量達(dá)到每日35億次(2013年8月數(shù)據(jù)),也就是說平均到每一個(gè)用戶,我們每天都會(huì)請(qǐng)求差不多3次位置數(shù)據(jù),這樣龐大的數(shù)據(jù)量為百度遷徙提供了基礎(chǔ)。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

如果是實(shí)時(shí)定位 回家的路線應(yīng)該類似上圖 只取8小時(shí)兩點(diǎn)位置便形成下圖

在日常生活中,我們打開微信、微博甚至玩游戲都有可能請(qǐng)求位置數(shù)據(jù),如果我們卸載了百度相關(guān)的應(yīng)用之后其實(shí)也不能避免位置信息被收集,百度的LBS服務(wù)API已被數(shù)十萬應(yīng)用采用,真的是“防不勝防”。

透過了如此大量的數(shù)據(jù)積累之后,百度遷徙中每一天都可以積累相當(dāng)?shù)奈恢眯畔?。但是也有網(wǎng)友對(duì)于百度遷徙中8小時(shí)為單位的查詢表示疑問,8小時(shí)為一個(gè)循環(huán)的數(shù)據(jù)周期可能不夠準(zhǔn)確。其實(shí)這并不重要,百度遷徙本身是大數(shù)據(jù)時(shí)代下的一個(gè)新面貌,而且在樣本數(shù)量足夠多的情況下,就足夠了。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

動(dòng)車大大縮短了出行時(shí)間 數(shù)據(jù)才選擇8小時(shí)為單位

而選擇8小時(shí)為單位,也是很合理的選擇,現(xiàn)在全國高鐵線路已經(jīng)很成熟,使得每個(gè)人回家使用的時(shí)間大大縮短了,目前運(yùn)行時(shí)間最長(zhǎng)的高鐵動(dòng)車組大概也就14個(gè)小時(shí),大多都能夠在8小時(shí)內(nèi)抵達(dá)目的地,乘坐飛機(jī)就更短了。如果在沒有高鐵或者飛機(jī)的時(shí)代,可能百度就會(huì)選擇24小時(shí)或者更長(zhǎng)的時(shí)間作為遷徙樣本。當(dāng)然百度也可以通過某些條件篩選合適的樣本,并非每一個(gè)人的8小時(shí)都需要被采用。

大數(shù)據(jù)是為了服務(wù)大眾

百度遷徙是大數(shù)據(jù)時(shí)代的一個(gè)具象表現(xiàn),其實(shí)我們?nèi)粘I钪羞€有各種各樣的數(shù)據(jù)被收集起來為各種公共事業(yè)服務(wù),讓商家進(jìn)行決策,但個(gè)人數(shù)據(jù)的采集一方面會(huì)給我們帶來很多便利,同時(shí)也存在一些隱患,我們一一來說說看。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

路況信息的采集來源很多 TomTom的路況技術(shù)中就采用了手機(jī)定位的技術(shù)

LBS服務(wù)

位置信息對(duì)于用戶來說,可能主要是用來定位與導(dǎo)航相關(guān)服務(wù);而對(duì)于商家來說,他們可以通過具體的位置,為我們提供更直接的服務(wù)。比如說我們要團(tuán)購電影票,基于位置信息,我們可以得到距離由近及遠(yuǎn)的影院排列,消費(fèi)者更容易查詢。如果位置信息準(zhǔn)確度不夠高,那么也可以根據(jù)所在城市來劃分,不會(huì)讓我們看到其它城市的影院信息,這些是毫無價(jià)值的。

公共事務(wù)&路況信息

而百度遷徙這個(gè)項(xiàng)目其實(shí)只是百度大數(shù)據(jù)的一部分,遷徙地圖可以讓我們看到一些有趣味的可視化大數(shù)據(jù)信息。而政府、廠商可以透過百度收集的位置信息大數(shù)據(jù)來做更多的事情。

比如說TomTom旗下知名的路況技術(shù),其中有一部分就是透過手機(jī)定位的數(shù)據(jù)采集通過合理的演算方式,來得到路況信息以及預(yù)估未來路況變化情況的。而政府透過類似上班與下班市民集中的位置數(shù)據(jù),對(duì)于城市規(guī)劃更具針對(duì)性,比如地鐵的線路應(yīng)該如何規(guī)劃、商業(yè)區(qū)應(yīng)該規(guī)劃在什么地方、公共部門(警局、醫(yī)院、辦事處)安置在什么地方。這些都是透過大數(shù)據(jù)來做決策的。

WiFi定位技術(shù)

而類似Google的WiFi定位技術(shù),也是通過手機(jī)我們用戶手機(jī)的位置數(shù)據(jù)來填充數(shù)據(jù)庫的,因?yàn)槊恳粋€(gè)路由器的物理地址是固定的位置也不常變動(dòng),收集在數(shù)據(jù)庫中,任何接入Google服務(wù)器的用戶都可以透過WiFi的信號(hào)來確定自己的位置(這也是粗略定位的一種方式)。

第4頁:個(gè)人隱私也有泄密隱患

那么我們說了一些好處,也來談?wù)勎恢眯畔⑿孤督o我們帶來的隱患。任何技術(shù)從不同的側(cè)面來說都是雙刃劍,我們只是考慮利弊的比例來選擇是否采用。位置信息對(duì)于個(gè)人來說是一項(xiàng)隱私信息,其實(shí)在我們?nèi)粘I钪幸矔?huì)帶來一些隱患,希望大家以后能夠有所注意。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

內(nèi)置GPS的相機(jī)可以直接標(biāo)記地理位置

首先我們要說明,單獨(dú)的位置信息被收集起來,其實(shí)并不會(huì)對(duì)我們?cè)斐啥啻蟮睦_,因?yàn)槲覀兗易≡谀睦锘蛘咴谀睦锕ぷ鳎軐?duì)我們?cè)斐傻膿p失還是有限的。而問題就在于搭配在位置信息一起我們泄露了什么。

大數(shù)據(jù)的威力百度遷徙春運(yùn)項(xiàng)目揭秘

許多軟件都會(huì)調(diào)用位置信息 如果不需要可以關(guān)閉 特別是照相機(jī)

以前有一個(gè)新聞,科普節(jié)目“流言終結(jié)者”主持人住家地址因?yàn)樗檬謾C(jī)拍攝的圖片而泄露出去了,對(duì)他造成了不下的困擾?,F(xiàn)在很多社交軟件以及拍照功能中都會(huì)請(qǐng)求位置信息,我們可以選擇關(guān)閉掉,這樣就可以避免一些明星的位置被泄露的問題。

對(duì)于普通消費(fèi)者來說,如果我們發(fā)個(gè)微博,曬一曬家中的寶貝,一些高昂價(jià)格的物品加上你的家庭位置,如果泄露出去就很有可能被小偷盯上,而且不法分子很有可能會(huì)根據(jù)您拍攝的照片以及一些生活信息來進(jìn)行詐騙活動(dòng)。還是俗話說的好:“財(cái)不可露白”。在日常生活中多加注意,一方面少分享精準(zhǔn)的位置信息,另一方面減少炫富的行為,都可以有效防范財(cái)產(chǎn)損失。

當(dāng)然我們也不必太過擔(dān)心類似百度LBS收集起來的大數(shù)據(jù),因?yàn)楣馐窃谶@樣龐大的數(shù)據(jù)中分析出有價(jià)值的個(gè)人信息是很困難的,而且小偷小摸有這樣的能力自然也不會(huì)以身犯法,而且精確的大數(shù)據(jù)可以為我們生活提供不少的便利,對(duì)于城市的發(fā)展也意義非凡。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)