基于Hadoop的社交網(wǎng)絡(luò)的分析,Hadoop社交分析

責(zé)任編輯:editor005

2015-01-29 13:43:49

摘自:幫客之家

昨天終于hadoop的項(xiàng)目驗(yàn)收完成了,終于可以松一口氣了,總體還是比較滿意的。說一下項(xiàng)目流程,用mapreduce對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后用mahout中的聚類算法(kmeans)對(duì)數(shù)據(jù)進(jìn)行處理,最后用peoplerank對(duì)數(shù)據(jù)進(jìn)行處理

昨天終于hadoop的項(xiàng)目驗(yàn)收完成了,終于可以松一口氣了,總體還是比較滿意的。

首先說一下項(xiàng)目流程,用mapreduce對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后用mahout中的聚類算法(kmeans)對(duì)數(shù)據(jù)進(jìn)行處理,最后用peoplerank對(duì)數(shù)據(jù)進(jìn)行處理。

根據(jù)老師交給我們的數(shù)據(jù),包括Google+和Twitter的部分社交網(wǎng)絡(luò)數(shù)據(jù)。以下是兩個(gè)數(shù)據(jù)下載的鏈接

http://snap.stanford.edu/data/egonets-Gplus.html(Google+)

http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)

這里面的Google的人數(shù)是大概是100000多,相互之間的映射關(guān)系(A->B,就是A關(guān)注B,或者A是B的好友)有20W+,Twitter的人數(shù)大概是80000多,相互之間的映射關(guān)系也有20W+。

對(duì)下面的圖片做一些解釋,橫坐標(biāo)代表?yè)碛泻糜训臄?shù)量,縱坐標(biāo)為擁有該好友數(shù)的用戶數(shù)。這樣的分布是符合網(wǎng)絡(luò)的無標(biāo)度性。

我是在本地上實(shí)現(xiàn)分布式的,在我的機(jī)子上開啟了兩個(gè)虛擬機(jī),和使用了其他兩個(gè)同學(xué)的電腦。

然后我們的性能是用ganglia進(jìn)行檢測(cè)的,ganglia的安裝以及使用我已在之前的一篇博文中已經(jīng)說過。

這只是其中一張性能分析的圖片,估計(jì)本地上配置除了問題,所以才導(dǎo)致,master做了所有的工作。

如果有想要程序的朋友,可以在下面留言,我會(huì)寫出全部的過程,和代碼。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)