近年來,大數(shù)據(jù)已經(jīng)成為了信息技術(shù)最為關(guān)注的熱點(diǎn)之一,各行各業(yè)都在探討如何利用大數(shù)據(jù)創(chuàng)造商業(yè)價值,一時間眾說紛紜,各種關(guān)于大數(shù)據(jù)的應(yīng)用方案接踵而來。作為全球最大的中文搜索引擎,百度每天響應(yīng)來自138個國家和地區(qū)的60億次搜索請求,它是一家真正擁有大數(shù)據(jù)的企業(yè),在這個數(shù)據(jù)為王的信息時代,百度搜索如何應(yīng)用大數(shù)據(jù)?大數(shù)據(jù)在搜索引擎效果測試和優(yōu)化中有哪些應(yīng)用價值?
在百度第二屆開放研究計(jì)劃中,百度網(wǎng)頁搜索測試部的阮星華和南開大學(xué)的張建忠合作,共同承擔(dān)了“機(jī)器學(xué)習(xí)在搜索引擎效果測試和改進(jìn)中的應(yīng)用”這一IT主題研究項(xiàng)目。據(jù)了解,這個項(xiàng)目就是百度利用大數(shù)據(jù)分析搜索引擎缺陷并優(yōu)化搜索引擎的成功案例之一。
據(jù)阮星華介紹,參與“機(jī)器學(xué)習(xí)在搜索引擎效果測試和改進(jìn)中的應(yīng)用”這一項(xiàng)目的成員,主要是來自百度網(wǎng)頁搜索測試部的張鑫、李卓、張敏等,以及南開大學(xué)的研究生張文、朱曉曦,他和南開大學(xué)的張建忠教授作為合作雙方的接口人,對項(xiàng)目實(shí)施具體負(fù)責(zé)。
“互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量巨大,內(nèi)容樣式多種多樣,少量網(wǎng)頁還存在內(nèi)容作弊,用戶的需求表達(dá)方式也各有不同。因此難免會出現(xiàn)一些檢索結(jié)果不好,不能滿足用戶需求的情況,這種情況我們稱之為Bad Case,也就是產(chǎn)品缺陷。而我們這個項(xiàng)目所做的,就是通過機(jī)器學(xué)習(xí)的方法自動或半自動挖掘Bad Case,進(jìn)而推動產(chǎn)品做有針對性的改進(jìn);其次是通過對海量數(shù)據(jù)的分析發(fā)現(xiàn)改進(jìn)產(chǎn)品的思路和方案,并推動實(shí)現(xiàn)從而提高產(chǎn)品的效果和體驗(yàn)。”談起項(xiàng)目的出發(fā)點(diǎn),阮星華表示,搜索引擎并不是對每一個查詢都能給出最好的結(jié)果,存在一些用戶需求沒有滿足、體驗(yàn)不好的情況(Bad Case),他們需要基于海量搜索數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)這些Bad Case,推動產(chǎn)品升級改進(jìn),使搜索引擎更加精準(zhǔn)。
研究過程中,他們發(fā)現(xiàn)了多類Bad Case,如不出官網(wǎng)結(jié)果、搜索結(jié)果摘要差甚至無摘要、相關(guān)性差、搜索詞糾錯錯誤等,對此,他們針對大搜索建立十多個缺陷挖掘模型,建立起“用戶滿意度挖掘模型”、“尋址類搜索挖掘模型”、“糾錯詞Bad Case挖掘模型”等不同Bad Case類型的挖掘方法。在過去的一年時間中累計(jì)挖掘各類產(chǎn)品缺陷超過5萬個,有效推動產(chǎn)品的升級和改進(jìn),成為產(chǎn)品升級決策的一個重要參考依據(jù)。
例如,當(dāng)用戶使用搜索引擎查找某個網(wǎng)址的時候,有可能會因?yàn)椴樵冊~不合適、網(wǎng)頁未收錄或者相關(guān)性排序不合理等原因?qū)е滤阉鹘Y(jié)果中沒有出現(xiàn)用戶想要的網(wǎng)址或者想要的網(wǎng)址比較靠后,阮星華和他的團(tuán)隊(duì)所做的一部分工作就是找出這樣的信息,精確展現(xiàn)真實(shí)的官網(wǎng),僅這一部分工作,就為產(chǎn)品線挖掘了大量精確官網(wǎng)數(shù)據(jù),大大提高了尋址類需求的滿足度,為用戶提供更加準(zhǔn)確的搜索結(jié)果。
“為了讓搜索結(jié)果更準(zhǔn)確、用戶體驗(yàn)更好,我們在這個項(xiàng)目中通過數(shù)據(jù)分析,做了很多優(yōu)化工作。比如用戶在百度中搜索劉德華,搜索結(jié)果不僅展現(xiàn)劉德華的相關(guān)資料,還會在網(wǎng)頁右側(cè)‘其他人還搜’中展現(xiàn)于劉德華關(guān)系密切的人物,更貼心的是,在網(wǎng)頁底端的‘相關(guān)搜索’中,還有各類與劉德華相關(guān)的搜索熱詞。我們通過數(shù)據(jù)分析提出針對“其他人還搜”和“相關(guān)搜索”兩個區(qū)域的改進(jìn)措施,有效提升了這兩個區(qū)域的點(diǎn)擊率。根據(jù)我們的數(shù)據(jù)統(tǒng)計(jì),在‘知心百科“其他人還搜”卡片內(nèi)實(shí)體入退場策略優(yōu)化’中,我們的項(xiàng)目研究成果給“其他人還搜”帶來了11.4%的點(diǎn)擊率提升;在‘相關(guān)搜索’結(jié)果優(yōu)化后,我們帶來了約17%的“相關(guān)搜索”結(jié)果點(diǎn)擊收益,這些數(shù)據(jù)充分說明在我們在大數(shù)據(jù)挖掘中得到的價值判斷是正確的,對網(wǎng)民的需求分析比較到位。”
據(jù)悉,“機(jī)器學(xué)習(xí)在搜索引擎效果測試和改進(jìn)中的應(yīng)用”這一項(xiàng)目取得了十分豐厚的成果,無論是從技術(shù)發(fā)展還是人才培養(yǎng)角度來說,都具有重大意義。“這個項(xiàng)目取得了9項(xiàng)技術(shù)成果,并發(fā)表了一篇論文,獲得了3項(xiàng)相關(guān)專利,其中一項(xiàng)專利還被評為百度公司的一級專利,而且我們這個項(xiàng)目還獲得百度質(zhì)量部總監(jiān)最高獎和創(chuàng)新獎,這些成果和榮譽(yù)對我們來說,很有激勵意義。”阮星華對“機(jī)器學(xué)習(xí)在搜索引擎效果測試和改進(jìn)中的應(yīng)用”這個項(xiàng)目能夠取得如此豐厚的成果表示欣喜。此外,他還特別指出,參與該項(xiàng)目的兩位實(shí)習(xí)生張文和朱曉曦,也通過校招的途徑正式加入了百度網(wǎng)頁搜索測試部,即將成為他們中的一份子。而且,通過該項(xiàng)目,百度和南開大學(xué)計(jì)算機(jī)與控制工程學(xué)院建立測試課程合作,加深了外界對測試的理解以及對百度質(zhì)量部的認(rèn)識,也為校企合作提供了人才培養(yǎng)的平臺,這是此次合作的意外收獲。
“我們在項(xiàng)目中一旦發(fā)現(xiàn)Bad Case,就會分析歸類并推動解決,所以隨著項(xiàng)目的進(jìn)行,我們的研究成果不斷上線被應(yīng)用,及時地為用戶提供更精準(zhǔn)更智能的搜索服務(wù)。”對于研究成果的應(yīng)用,阮星華頗為自豪,“通過2013年一年的研究,我們對基于大數(shù)據(jù)的搜索引擎缺陷分析以及產(chǎn)品改進(jìn)有了一些積累,今后,我們將更加深入優(yōu)化不同的缺陷挖掘模型,能夠更全面更快速的發(fā)現(xiàn)搜索引擎不同維度的缺陷,加速產(chǎn)品迭代,讓用戶使用更智能更精準(zhǔn)的搜索引擎。”