天天躁日日躁狠狠躁av色欲,欧美精品免费专区在线观看,2024国产精品秘片多多

大數(shù)據(jù)應(yīng)用之山東大學(xué)案例

責(zé)任編輯：editor004

2014-02-10 18:08:42

摘自：中國(guó)教育網(wǎng)絡(luò)

大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。我們采用雙環(huán)可視化方法而不是網(wǎng)絡(luò)圖方法的目的是，觀察學(xué)生和導(dǎo)師在研究成果中的不同職責(zé)，特別是指導(dǎo)學(xué)生的導(dǎo)師

大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。

大數(shù)據(jù)解決方案

大數(shù)據(jù)時(shí)代的到來(lái)對(duì)數(shù)據(jù)的存儲(chǔ)、處理及分析提出了新的挑戰(zhàn)，但總的發(fā)展趨勢(shì)是通過(guò)分布式計(jì)算來(lái)解決 “瓶頸”問(wèn)題。我們不能依賴(lài)提高單個(gè)節(jié)點(diǎn)性能這種縱向擴(kuò)展的方式提升系統(tǒng)整體的性能，相反，我們需要能夠通過(guò)增加系統(tǒng)內(nèi)節(jié)點(diǎn)的數(shù)目這種橫向擴(kuò)展的方式來(lái)達(dá)到我們的目的。我們將存儲(chǔ)、處理和分析的任務(wù)通過(guò)分布式的方式分散到系統(tǒng)中各個(gè)節(jié)點(diǎn)上來(lái)加快數(shù)據(jù)的存儲(chǔ)、處理和分析的速度。在實(shí)際的實(shí)現(xiàn)上，Google、Amazon、微軟和 VMware 這 4 家公司在不同時(shí)間陸續(xù)推出各自的大數(shù)據(jù)方案，在應(yīng)用領(lǐng)域和贏利模式上，Amazon 和Google 處于跑者地位，微軟和 VMware 緊隨其后，此外還有開(kāi)源的Hadoop 平臺(tái)。Hadoop 是谷歌大數(shù)據(jù)平臺(tái)的開(kāi)源實(shí)現(xiàn)，由于其開(kāi)源特性，越來(lái)越多的企業(yè)在Hadoop 的基礎(chǔ)上對(duì)其進(jìn)行修改以適應(yīng)自己的需要，如Facebook 根據(jù)其業(yè)務(wù)需求，底層采用Hadoop 平臺(tái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理，并在其上開(kāi)發(fā)了Hive。Facebook 通過(guò)Hive實(shí)現(xiàn)了例行性報(bào)表、即席查詢(xún)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法，達(dá)到了較好的效果。大數(shù)據(jù)的存儲(chǔ)穩(wěn)定、高效的存儲(chǔ)系統(tǒng)既是系統(tǒng)正常運(yùn)行的重要保證，也可以單獨(dú)作為一項(xiàng)服務(wù)提供給用戶(hù)。5 種方案之中， Amazon 的 S3 和微軟的 Blob存儲(chǔ)比較類(lèi)似， Google的GFS則完全不同，VMware 目前僅向虛擬機(jī)提供存儲(chǔ)服務(wù)，Hadoop仿照GFS 開(kāi)發(fā)了HDFS，是GFS的簡(jiǎn)化版本。相比GFS， HDFS 缺少了多客戶(hù)端并發(fā)的 Append 模型及快照功能。

大數(shù)據(jù)的處理

計(jì)算服務(wù)是所有的大數(shù)據(jù)解決方案最核心的業(yè)務(wù)之一，同時(shí)也是用戶(hù)最常用的服務(wù)。Google 和Hadoop提供基于MapReduce 的數(shù)據(jù)處理，整個(gè) 過(guò) 程對(duì)用戶(hù)而言是透明的。Amazon 的EC2給予用戶(hù)配置硬件參數(shù)的權(quán)利，使得用戶(hù)可以根據(jù)實(shí)際的需求動(dòng)態(tài)地改變配置，從而提高效率和節(jié)省資源。微軟的Azure允許用戶(hù)在處理數(shù)據(jù)之前設(shè)置部分參數(shù)。

VMware 的 vCloud 中提供了DRS 和DPM 技術(shù)，可以通過(guò)遷移和關(guān)閉虛擬機(jī)來(lái)實(shí)現(xiàn)資源優(yōu)化。表2 是這5 種計(jì)算服務(wù)的比較。MapReduce 在系統(tǒng)層面解決了大數(shù)據(jù)分析平臺(tái)的擴(kuò)展性和容錯(cuò)性問(wèn)題，是非關(guān)系型數(shù)據(jù)庫(kù)的典型代表，因此越來(lái)越多的研究人員從性能和易用性方面對(duì)MapReduce 進(jìn)行改進(jìn)。

1. 多核硬件與圖形處理器上的性能改進(jìn)。

2. 索引技術(shù)與連接技術(shù)的優(yōu)化。

3. 調(diào)度技術(shù)優(yōu)化。

4. 其他優(yōu)化技術(shù)。

針對(duì)MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。

山東大學(xué)數(shù)據(jù)分析的幾個(gè)探索

學(xué)術(shù)論文成果學(xué)科數(shù)據(jù)可視化探索

我們提出了一個(gè)交互系統(tǒng)，用來(lái)收集，分析和可視化科研的論文數(shù)據(jù)，這種方法可用于量化學(xué)生和導(dǎo)師的研究成果。系統(tǒng)專(zhuān)門(mén)分析了每個(gè)作者文章數(shù)量和質(zhì)量的貢獻(xiàn)。同時(shí)將第一作者的在圖形上中顯示，其目的是直觀地反應(yīng)論文的詳細(xì)情況。

我們采用雙環(huán)可視化方法而不是網(wǎng)絡(luò)圖方法的目的是，觀察學(xué)生和導(dǎo)師在研究成果中的不同職責(zé)，特別是指導(dǎo)學(xué)生的導(dǎo)師。同時(shí)，學(xué)術(shù)合作和知識(shí)域的變化可以通過(guò)可視化的表現(xiàn)形式展現(xiàn)給用戶(hù)。

我們開(kāi)發(fā)了在兩個(gè)同心圓中呈現(xiàn)結(jié)果的可視化方法。外圈用不同的顏色將不同級(jí)別的學(xué)生區(qū)分開(kāi)，內(nèi)圈用不同的顏色將導(dǎo)師區(qū)分開(kāi)。三角形以及三角形的邊框顏色表示了出版的類(lèi)型（會(huì)議或期刊出版），并填充顏色表示不同發(fā)表指數(shù)（SCI 或EI）的出版物。三角形可以看作是一個(gè)箭頭指向本文的第一作者，連接到三角形的線(xiàn)表示發(fā)表成果的共同作者，實(shí)線(xiàn)表示第一作者和第二作者在這個(gè)發(fā)表成果中的直接貢獻(xiàn)，而虛線(xiàn)表示發(fā)表成果第一作者和第三作者之間的貢獻(xiàn)關(guān)系。

我們統(tǒng)計(jì)和分析了計(jì)算機(jī)科學(xué)領(lǐng)域2004 至2012 年所有可用的文字類(lèi)型成果，其中包括作者信息，關(guān)鍵字，摘要，級(jí)別和類(lèi)型。采用指數(shù)將EI 和SCI 進(jìn)行分類(lèi)。

圖1 展示了每年在不同出版物中發(fā)表的數(shù)量信息。可以看出，該數(shù)字波動(dòng)的年變化，在2008 年和2010 年之間出現(xiàn)明顯的熱潮，但是之后，開(kāi)始遞減。

圖1 每年在不同出版物中發(fā)表的數(shù)量信息

此外，刊物的級(jí)別可以通過(guò)影響因子，反映該雜志近期的文章被引用的平均數(shù)。圖2 對(duì)成果的發(fā)表時(shí)間進(jìn)行了評(píng)估，通過(guò)圖表可以清楚地看出，在一年中成果發(fā)表水平和數(shù)量的情況。例如，2007 年有三個(gè)論文的影響因子大于2.0。

圖2 對(duì)成果的發(fā)表時(shí)間進(jìn)行的評(píng)估

圖3 表示了導(dǎo)師的研究成果?？梢钥闯?，所選中的導(dǎo)師參與了11 篇論文的研究工作，其中包括7 篇會(huì)議論文， 4 篇期刊論文，其中四個(gè)是SCI 收錄。其中，作為第一作者出現(xiàn)一次，作為第二作者出現(xiàn)五次。圖4 給出了研究組于2008 年在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)表成果信息。在外圈上的對(duì)象表示學(xué)生，內(nèi)圈的對(duì)象表示顧問(wèn)，對(duì)象的顏色區(qū)分出他們的研究興趣是否一致，內(nèi)外圈上對(duì)象會(huì)自動(dòng)調(diào)整其位置以避免重疊的出現(xiàn)。在這個(gè)交互界面中，發(fā)表成果的信息將很容易通過(guò)選擇三角形進(jìn)行查詢(xún)，其詳細(xì)信息，包括標(biāo)題，作者，會(huì)議或期刊以及其他人的信息將出現(xiàn)在頂部。

圖3 表示了導(dǎo)師的研究成果

招生網(wǎng)站檢測(cè)與生源數(shù)據(jù)分析

山東大學(xué)本科招生網(wǎng)站是山東大學(xué)發(fā)布招生信息，錄取信息，公布錄取結(jié)果的重要手段之一，每到招生期間訪(fǎng)問(wèn)人數(shù)很大。對(duì)于本科招生網(wǎng)站的數(shù)據(jù)監(jiān)控和數(shù)據(jù)分析對(duì)于保障招生安全進(jìn)行，招生數(shù)據(jù)挖掘和分析有重要的意義。所以每年數(shù)據(jù)分析的使用有著良好的作用。通過(guò)數(shù)據(jù)挖掘可以分析考生的關(guān)注點(diǎn)，考生的活躍時(shí)間等有價(jià)值的信息。

“大數(shù)據(jù)”分析做不了什么？

數(shù)據(jù)可以幫我們解讀數(shù)字的含義。數(shù)據(jù)可以輔助我們擺脫直覺(jué)和認(rèn)知的錯(cuò)誤。但有些事情是“大數(shù)據(jù)”不擅長(zhǎng)的：

數(shù)據(jù)不理解社會(huì)認(rèn)知，計(jì)算機(jī)數(shù)據(jù)分析擅長(zhǎng)的是測(cè)量社會(huì)交往的“量”而非“質(zhì)”。數(shù)據(jù)不了解背景，即便是一部普普通通的小說(shuō)，數(shù)據(jù)分析也無(wú)法解釋其中的思路。

數(shù)據(jù)擴(kuò)張?zhí)?，關(guān)系太復(fù)雜，找到有價(jià)值信息的難度大。

數(shù)據(jù)掩蓋了價(jià)值觀念?！?ldquo;原始數(shù)據(jù)”只是一種修辭》一書(shū)中的要點(diǎn)之一就是，數(shù)據(jù)從來(lái)都不可能是“原始”的，數(shù)據(jù)總是依照某人的傾向和價(jià)值觀念而被構(gòu)建出來(lái)的。數(shù)據(jù)分析的結(jié)果看似客觀公正，但其實(shí)價(jià)值選擇貫穿了從構(gòu)建到解讀的全過(guò)程。

大數(shù)據(jù)有拿手強(qiáng)項(xiàng)，也有不擅長(zhǎng)的領(lǐng)域。我們既需要看到大數(shù)據(jù)的優(yōu)點(diǎn)，也要清晰認(rèn)識(shí)到大數(shù)據(jù)的缺點(diǎn)，解讀大數(shù)據(jù)是一項(xiàng)系統(tǒng)綜合工程，與數(shù)據(jù)所生成的社會(huì)背景無(wú)法分開(kāi)。

append 硬件參數(shù) 谷歌山東大學(xué)