大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。
大數(shù)據(jù)解決方案
大數(shù)據(jù)時(shí)代的到來(lái)對(duì)數(shù)據(jù)的存儲(chǔ)、處理及分析提出了新的挑戰(zhàn), 但總的發(fā)展趨勢(shì)是通過(guò)分布式計(jì)算來(lái)解決 “瓶頸”問(wèn)題。我們不能依賴(lài)提高單個(gè)節(jié)點(diǎn)性能這種縱向擴(kuò)展的方式提升系統(tǒng)整體的性能,相反, 我們需要能夠通過(guò)增加系統(tǒng)內(nèi)節(jié)點(diǎn)的數(shù)目這種橫向擴(kuò)展的方式來(lái)達(dá)到我們的目的。我們將存儲(chǔ)、 處理和分析的任務(wù)通過(guò)分布式的方式分散到系統(tǒng)中各個(gè)節(jié)點(diǎn)上來(lái)加快數(shù)據(jù)的存儲(chǔ)、 處理和分析的速度。在實(shí)際的實(shí)現(xiàn)上,Google、Amazon、微軟和 VMware 這 4 家公司在不同時(shí)間陸續(xù)推出各自的大數(shù)據(jù)方案, 在應(yīng)用領(lǐng)域和贏利模式上,Amazon 和Google 處于跑者地位, 微軟和 VMware 緊隨其后,此外還有開(kāi)源的Hadoop 平臺(tái)。Hadoop 是谷歌大數(shù)據(jù)平臺(tái)的開(kāi)源實(shí)現(xiàn), 由于其開(kāi)源特性, 越來(lái)越多的企業(yè)在Hadoop 的基礎(chǔ)上對(duì)其進(jìn)行修改以適應(yīng)自己的需要,如Facebook 根據(jù)其業(yè)務(wù)需求, 底層采用Hadoop 平臺(tái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理, 并在其上開(kāi)發(fā)了Hive。Facebook 通過(guò)Hive實(shí)現(xiàn)了例行性報(bào)表、 即席查詢(xún)、 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法, 達(dá)到了較好的效果。大數(shù)據(jù)的存儲(chǔ)穩(wěn)定、 高效的存儲(chǔ)系統(tǒng)既是系統(tǒng)正常運(yùn)行的重要保證, 也可以單獨(dú)作為一項(xiàng)服務(wù)提供給用戶(hù)。5 種方案之中, Amazon 的 S3 和微軟的 Blob存儲(chǔ)比較類(lèi)似, Google的GFS則完全不同,VMware 目前僅向虛擬機(jī)提供存儲(chǔ)服務(wù),Hadoop仿照GFS 開(kāi)發(fā)了HDFS, 是GFS的簡(jiǎn)化版本。相比GFS, HDFS 缺少了多客戶(hù)端并發(fā)的 Append 模型及快照功能。
大數(shù)據(jù)的處理
計(jì)算服務(wù)是所有的大數(shù)據(jù)解決方案最核心的業(yè)務(wù)之一, 同時(shí)也是用戶(hù)最常用的服務(wù)。Google 和Hadoop提供基于MapReduce 的數(shù)據(jù)處理, 整個(gè) 過(guò) 程 對(duì)用戶(hù)而言是透明的。Amazon 的EC2給予用戶(hù)配置硬件參數(shù)的權(quán)利, 使得用戶(hù)可以根據(jù)實(shí)際的需求動(dòng)態(tài)地改變配置,從而提高效率和節(jié)省資源。微軟的Azure允許用戶(hù)在處理數(shù)據(jù)之前設(shè)置部分參數(shù)。
VMware 的 vCloud 中提供了DRS 和DPM 技術(shù),可以通過(guò)遷移和關(guān)閉虛擬機(jī)來(lái)實(shí)現(xiàn)資源優(yōu)化。表2 是這5 種計(jì)算服務(wù)的比較。MapReduce 在系統(tǒng)層面解決了大數(shù)據(jù)分析平臺(tái)的擴(kuò)展性和容錯(cuò)性問(wèn)題,是非關(guān)系型數(shù)據(jù)庫(kù)的典型代表,因此越來(lái)越多的研究人員從性能和易用性方面對(duì)MapReduce 進(jìn)行改進(jìn)。
1. 多核硬件與圖形處理器上的性能改進(jìn)。
2. 索引技術(shù)與連接技術(shù)的優(yōu)化。
3. 調(diào)度技術(shù)優(yōu)化。
4. 其他優(yōu)化技術(shù)。
針對(duì)MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。
山東大學(xué)數(shù)據(jù)分析的幾個(gè)探索
學(xué)術(shù)論文成果學(xué)科數(shù)據(jù)可視化探索
我們提出了一個(gè)交互系統(tǒng),用來(lái)收集,分析和可視化科研的論文數(shù)據(jù),這種方法可用于量化學(xué)生和導(dǎo)師的研究成果。系統(tǒng)專(zhuān)門(mén)分析了每個(gè)作者文章數(shù)量和質(zhì)量的貢獻(xiàn)。同時(shí)將第一作者的在圖形上中顯示,其目的是直觀地反應(yīng)論文的詳細(xì)情況。
我們采用雙環(huán)可視化方法而不是網(wǎng)絡(luò)圖方法的目的是,觀察學(xué)生和導(dǎo)師在研究成果中的不同職責(zé),特別是指導(dǎo)學(xué)生的導(dǎo)師。同時(shí),學(xué)術(shù)合作和知識(shí)域的變化可以通過(guò)可視化的表現(xiàn)形式展現(xiàn)給用戶(hù)。
我們開(kāi)發(fā)了在兩個(gè)同心圓中呈現(xiàn)結(jié)果的可視化方法。外圈用不同的顏色將不同級(jí)別的學(xué)生區(qū)分開(kāi),內(nèi)圈用不同的顏色將導(dǎo)師區(qū)分開(kāi)。三角形以及三角形的邊框顏色表示了出版的類(lèi)型(會(huì)議或期刊出版),并填充顏色表示不同發(fā)表指數(shù)(SCI 或EI)的出版物。三角形可以看作是一個(gè)箭頭指向本文的第一作者,連接到三角形的線(xiàn)表示發(fā)表成果的共同作者,實(shí)線(xiàn)表示第一作者和第二作者在這個(gè)發(fā)表成果中的直接貢獻(xiàn),而虛線(xiàn)表示發(fā)表成果第一作者和第三作者之間的貢獻(xiàn)關(guān)系。
我們統(tǒng)計(jì)和分析了計(jì)算機(jī)科學(xué)領(lǐng)域2004 至2012 年所有可用的文字類(lèi)型成果,其中包括作者信息,關(guān)鍵字,摘要,級(jí)別和類(lèi)型。采用指數(shù)將EI 和SCI 進(jìn)行分類(lèi)。
圖1 展示了每年在不同出版物中發(fā)表的數(shù)量信息。可以看出,該數(shù)字波動(dòng)的年變化,在2008 年和2010 年之間出現(xiàn)明顯的熱潮,但是之后,開(kāi)始遞減。
圖1 每年在不同出版物中發(fā)表的數(shù)量信息
此外,刊物的級(jí)別可以通過(guò)影響因子,反映該雜志近期的文章被引用的平均數(shù)。圖2 對(duì)成果的發(fā)表時(shí)間進(jìn)行了評(píng)估,通過(guò)圖表可以清楚地看出,在一年中成果發(fā)表水平和數(shù)量的情況。例如,2007 年有三個(gè)論文的影響因子大于2.0。
圖2 對(duì)成果的發(fā)表時(shí)間進(jìn)行的評(píng)估
圖3 表示了導(dǎo)師的研究成果??梢钥闯?,所選中的導(dǎo)師參與了11 篇論文的研究工作,其中包括7 篇會(huì)議論文, 4 篇期刊論文,其中四個(gè)是SCI 收錄。其中,作為第一作者出現(xiàn)一次,作為第二作者出現(xiàn)五次。圖4 給出了研究組于2008 年在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)表成果信息。在外圈上的對(duì)象表示學(xué)生,內(nèi)圈的對(duì)象表示顧問(wèn),對(duì)象的顏色區(qū)分出他們的研究興趣是否一致,內(nèi)外圈上對(duì)象會(huì)自動(dòng)調(diào)整其位置以避免重疊的出現(xiàn)。在這個(gè)交互界面中,發(fā)表成果的信息將很容易通過(guò)選擇三角形進(jìn)行查詢(xún),其詳細(xì)信息,包括標(biāo)題,作者,會(huì)議或期刊以及其他人的信息將出現(xiàn)在頂部。
圖3 表示了導(dǎo)師的研究成果
招生網(wǎng)站檢測(cè)與生源數(shù)據(jù)分析
山東大學(xué)本科招生網(wǎng)站是山東大學(xué)發(fā)布招生信息,錄取信息,公布錄取結(jié)果的重要手段之一,每到招生期間訪(fǎng)問(wèn)人數(shù)很大。對(duì)于本科招生網(wǎng)站的數(shù)據(jù)監(jiān)控和數(shù)據(jù)分析對(duì)于保障招生安全進(jìn)行,招生數(shù)據(jù)挖掘和分析有重要的意義。所以每年數(shù)據(jù)分析的使用有著良好的作用。通過(guò)數(shù)據(jù)挖掘可以分析考生的關(guān)注點(diǎn),考生的活躍時(shí)間等有價(jià)值的信息。
“大數(shù)據(jù)”分析做不了什么?
數(shù)據(jù)可以幫我們解讀數(shù)字的含義。數(shù)據(jù)可以輔助我們擺脫直覺(jué)和認(rèn)知的錯(cuò)誤。但有些事情是“大數(shù)據(jù)”不擅長(zhǎng)的:
數(shù)據(jù)不理解社會(huì)認(rèn)知,計(jì)算機(jī)數(shù)據(jù)分析擅長(zhǎng)的是測(cè)量社會(huì)交往的“量”而非“質(zhì)”。數(shù)據(jù)不了解背景,即便是一部普普通通的小說(shuō),數(shù)據(jù)分析也無(wú)法解釋其中的思路。
數(shù)據(jù)擴(kuò)張?zhí)?,關(guān)系太復(fù)雜,找到有價(jià)值信息的難度大。
數(shù)據(jù)掩蓋了價(jià)值觀念?!?ldquo;原始數(shù)據(jù)”只是一種修辭》一書(shū)中的要點(diǎn)之一就是,數(shù)據(jù)從來(lái)都不可能是“原始”的,數(shù)據(jù)總是依照某人的傾向和價(jià)值觀念而被構(gòu)建出來(lái)的。數(shù)據(jù)分析的結(jié)果看似客觀公正,但其實(shí)價(jià)值選擇貫穿了從構(gòu)建到解讀的全過(guò)程。
大數(shù)據(jù)有拿手強(qiáng)項(xiàng),也有不擅長(zhǎng)的領(lǐng)域。我們既需要看到大數(shù)據(jù)的優(yōu)點(diǎn),也要清晰認(rèn)識(shí)到大數(shù)據(jù)的缺點(diǎn),解讀大數(shù)據(jù)是一項(xiàng)系統(tǒng)綜合工程,與數(shù)據(jù)所生成的社會(huì)背景無(wú)法分開(kāi)。