圖片來(lái)源,GoodLifeStudio/cloudcomputing news.net
Airbnb的數(shù)據(jù)科學(xué)團(tuán)隊(duì)領(lǐng)導(dǎo)人Riley Newman在nerds.airbnb.com的日志上寫(xiě)道:“數(shù)據(jù)是一種行為或事件的記錄。通常情況下它可以代表出人們所做出的決定。如果你可以重現(xiàn)一個(gè)人做出決定的過(guò)程,你就可以從中學(xué)到很多東西;這是從人們那里知道他們喜歡或不喜歡什么的不直接的辦法——這個(gè)特性比那個(gè)更吸引我,我發(fā)現(xiàn)這個(gè)功能很好用但是那些……沒(méi)有那么好用。這樣的反饋可以成為做出有關(guān)社區(qū)成長(zhǎng)、產(chǎn)品開(kāi)發(fā)或者資源優(yōu)化的決定時(shí)非常有價(jià)值的信息來(lái)源。我們可以把來(lái)自客戶的信息翻譯成一種更適合指引我們做出決定的語(yǔ)言。”
正是這種從用戶反饋中獲得信息的洞察力讓Airbnb得以將他們的精力集中在發(fā)展高峰期時(shí)熱門(mén)旅游景點(diǎn)的房主數(shù)量上。并且為價(jià)格制定出明確的結(jié)構(gòu)標(biāo)準(zhǔn)以使得他們能最大化程度利用他們?nèi)蚧瘜傩远占瘉?lái)的海量數(shù)據(jù)。比如說(shuō),數(shù)據(jù)可以幫助Airbnb通過(guò)像位置、出租時(shí)所在的時(shí)間段、鋪位的類(lèi)型、交通的發(fā)達(dá)程度等數(shù)種變量來(lái)決定一個(gè)房間或一間公寓的合適價(jià)格,Airbnb現(xiàn)在可以利用算法來(lái)幫助他們的客戶做到這些。如果你考慮到這些房間都是真正的“家”,而不是旅館那種標(biāo)準(zhǔn)化的、可以輕易的用星級(jí)來(lái)評(píng)判好壞的房間,你就會(huì)發(fā)現(xiàn)要給出一個(gè)清晰的調(diào)價(jià)方式真的是件很有挑戰(zhàn)性的事。畢竟那些在城市公寓中比較會(huì)讓人滿意的條件(比如WiFi、便捷的交通)對(duì)于一間古典、精致的小農(nóng)舍可能就沒(méi)有那么重要了(那里的住客可能會(huì)更渴望平靜、浪漫的生活而不是WiFi覆蓋或者地鐵直達(dá))。
為了幫助房主們定價(jià),Airbnb開(kāi)發(fā)了一套叫“Aerosolve”的機(jī)器學(xué)習(xí)平臺(tái)。這個(gè)平臺(tái)會(huì)自動(dòng)將城市劃分成無(wú)數(shù)個(gè)由微型街區(qū)組成的小區(qū)域,并分析房主們拍攝的房間照片(展示一個(gè)溫馨舒適的臥室會(huì)比展示一間時(shí)髦的客廳更加容易獲得青睞!)。Aerosolve還模仿酒店和航空公司的定價(jià)模式搭建了一套動(dòng)態(tài)定價(jià)策略。
Airbnb還開(kāi)源了一個(gè)叫“Airpal”的平臺(tái):這是一個(gè)用戶友好型的數(shù)據(jù)分析平臺(tái),能允許公司的任何員工——而不是只有那些受過(guò)專(zhuān)業(yè)訓(xùn)練的員工獲得和分析公司的數(shù)據(jù)信息,并且使用Airpal提供的工具對(duì)其進(jìn)行質(zhì)詢。
大數(shù)據(jù)應(yīng)用的結(jié)果怎么樣?
就像Newman說(shuō)的那樣:“頗為諷刺的是,衡量一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)給公司帶來(lái)的影響反而是很難的,但是有一個(gè)明顯的信號(hào)是:現(xiàn)在不管是技術(shù)人員還是非技術(shù)人員,都一致的希望能參考更多數(shù)據(jù)來(lái)作出決定。”這種現(xiàn)象在Airpal里得到了表現(xiàn)和證明。2014年上線運(yùn)行的Airpal系統(tǒng)至今已經(jīng)被超過(guò)三分之一的員工用來(lái)進(jìn)行查詢和質(zhì)疑。這個(gè)讓人印象深刻的數(shù)字表明了數(shù)據(jù)已經(jīng)成為了Airbnb內(nèi)部決定流程中非常重要的一環(huán)。
而Airbnb的不斷成長(zhǎng)也是另一個(gè)他們對(duì)數(shù)據(jù)的明智使用產(chǎn)生了回報(bào)的側(cè)面體現(xiàn)。
有哪些數(shù)據(jù)被用上了?
被分析的數(shù)據(jù)主要是由格式化的和無(wú)固定格式的消息混合起來(lái)的內(nèi)部信息:屋主拍攝的房間照片、地理位置、居住條件(房間、床位的數(shù)量,WiFi,熱水浴缸等等),用戶反饋和評(píng)分,事物處理數(shù)據(jù)之類(lèi)。也有一些外部數(shù)據(jù)會(huì)被考慮進(jìn)去。比如英國(guó)的愛(ài)丁堡有一個(gè)非常出名的節(jié)日“愛(ài)丁堡文化節(jié)(The Edinburgh Festival)”,在節(jié)日期間,同一條件的房間的定價(jià)會(huì)比一年中的其余時(shí)段都要高一些。
可以說(shuō)一些技術(shù)細(xì)節(jié)嗎?
Airbnb目前手握將近1500TB的數(shù)據(jù),像蜂巢一樣由HDFS(Hadoop Distributed File System,一種用來(lái)管理大數(shù)據(jù)的文件系統(tǒng))集群組織起來(lái),托管在亞馬遜的EC2(Elastic Compute Cloud)云服務(wù)中。Airbnb曾經(jīng)用亞馬遜的RedShift服務(wù)作為數(shù)據(jù)查詢工具,但后來(lái)?yè)Q成了Facebook的Presto。因?yàn)镻resto是開(kāi)源的,所以他們能及早的修復(fù)發(fā)現(xiàn)的漏洞并且打上相應(yīng)的補(bǔ)丁。
在未來(lái),Airbnb希望將數(shù)據(jù)處理的方式由現(xiàn)在的批量處理升級(jí)為實(shí)時(shí)處理,這將能讓他們更好的發(fā)現(xiàn)和處理支付過(guò)程中出現(xiàn)的異常現(xiàn)象,并且提升房源匹配和個(gè)性化信息的準(zhǔn)確度。
有什么需要克服的困難嗎?
其實(shí)Airbnb的數(shù)據(jù)科學(xué)團(tuán)隊(duì)面臨的一項(xiàng)巨大的挑戰(zhàn)反而是跟上公司夢(mèng)幻般的發(fā)展速度。在2011年早些時(shí)候,這個(gè)團(tuán)隊(duì)僅由三名數(shù)據(jù)學(xué)家組成,因?yàn)槟菚r(shí)候公司還很小,所以盡管只有三人,他們也能有足夠的精力來(lái)處理每個(gè)員工遇到的數(shù)據(jù)問(wèn)題。但在那一年的末尾,Airbnb就已經(jīng)有了10個(gè)國(guó)際分公司,公司的人數(shù)有了巨大的增長(zhǎng),這也意味著數(shù)據(jù)團(tuán)隊(duì)不可能再一對(duì)一的為公司的員工解決問(wèn)題了。
就像Newman對(duì)此所說(shuō)的那樣:“我們需要找到一個(gè)讓我們的工作變得更大眾、通俗的做法,不僅是局限于一對(duì)一的指導(dǎo)和幫助,我們需要允許工作組、全公司甚至我們的整個(gè)社區(qū)都了解使用這些數(shù)據(jù)的辦法。”隨著更快速和可靠的技術(shù)的購(gòu)入,這個(gè)想法成為了可能。他們還把搜索查詢基礎(chǔ)數(shù)據(jù)的工作也從科學(xué)家們手中交給了整個(gè)公司的團(tuán)隊(duì)們,在項(xiàng)目控制面板和Airpal提供的工具的幫助下,這些數(shù)據(jù)讓Airbnb的團(tuán)隊(duì)如虎添翼。并且由于數(shù)據(jù)科學(xué)家們從這些繁瑣的一對(duì)一工作中解脫了出來(lái),他們可以將精力集中在一些更酷、更有用的項(xiàng)目上。教會(huì)公司的團(tuán)隊(duì)如何使用這些工具是幫助他們獲得對(duì)數(shù)據(jù)的洞察力的關(guān)鍵。
我們能從中學(xué)到什么?
Airbnb是一家對(duì)大數(shù)據(jù)的需求和應(yīng)用隨著公司的擴(kuò)張而成長(zhǎng)的完美的例子。我想,他們隨著公司的成長(zhǎng)而調(diào)整、轉(zhuǎn)換自己以適應(yīng)新節(jié)奏的能力是他們賴以成功的關(guān)鍵和精髓。這點(diǎn)更突出了大數(shù)據(jù)的“非靜態(tài)”屬性,你的數(shù)據(jù)處理策略可能需要隨時(shí)變化來(lái)應(yīng)對(duì)需求的改變。
而一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)能與公司內(nèi)的所有團(tuán)隊(duì)都配合的如此之好(即使他們不會(huì)再同每個(gè)員工面對(duì)面交流了)也是一件非常了不起的事。這不僅意味著數(shù)據(jù)團(tuán)隊(duì)能保證一直對(duì)公司的商業(yè)目標(biāo)保持最貼切的理解,也強(qiáng)調(diào)了公司保持基于數(shù)據(jù)的決定方式的重要性。畢竟如果沒(méi)有人會(huì)依據(jù)它們來(lái)行動(dòng)的話,你有再多的數(shù)據(jù)也沒(méi)有用。