在高級(jí)計(jì)算分析領(lǐng)域,比如云計(jì)算和Hadoop的相關(guān)公司,當(dāng)被問及阻礙公司發(fā)展的因素時(shí),往往有一個(gè)不得不提的問題,那就是人才缺乏。在每一個(gè)部門,這件事都是很容易出現(xiàn)的。當(dāng)企業(yè)轉(zhuǎn)型為數(shù)據(jù)驅(qū)動(dòng)型時(shí),人才的缺乏往往會(huì)成為其最大的限制。
人才缺乏可怕嗎?
缺人缺到怕的新興行業(yè)
這種現(xiàn)象十分常見,但不同領(lǐng)域受災(zāi)情況不同。而相比之下,在計(jì)算機(jī)集群之中采用簡單的編程模型處理大數(shù)據(jù)集的Hadoop分布式框架可謂其中的重災(zāi)區(qū),其人才缺乏程度往往讓企業(yè)開始對整個(gè)領(lǐng)域的前景表示懷疑。
而根據(jù)業(yè)內(nèi)人士透露,全球用戶最多、實(shí)力最強(qiáng)的云服務(wù)供應(yīng)商亞馬遜云服務(wù)AWS便深受這一問題的困擾,人才缺乏已經(jīng)影響了AWS在該領(lǐng)域的進(jìn)一步發(fā)展以及用戶的增加。
由于這一領(lǐng)域存在一定的技術(shù)難度,專業(yè)知識(shí)的缺乏也已經(jīng)成為阻礙企業(yè)借助現(xiàn)有基礎(chǔ)知識(shí)完成高級(jí)分析的主要因素。從移動(dòng)設(shè)備、傳感器等產(chǎn)生的大量的數(shù)據(jù)讓采用了定制架構(gòu)的Hadoop和云壓力倍增。
有數(shù)據(jù),有工具,缺人才
但是這些數(shù)據(jù)對于企業(yè)而言是十分重要的,企業(yè)需要利用這些數(shù)據(jù)盡可能高效的解決業(yè)務(wù)問題,比如根據(jù)客戶流失情況提供更為合適的報(bào)價(jià)等。而先進(jìn)的算法和分析能夠讓企業(yè)找到更新的看法并且預(yù)測未來的結(jié)果,但是這些的前提都是企業(yè)有人掌握了數(shù)據(jù)科學(xué)的技能。
可是,相應(yīng)人才的缺乏是相對的,在過去的很多年里我們一直都在提醒這一點(diǎn)的存在,那么這一情況改變了嗎?去年的一項(xiàng)調(diào)查揭示,有57%的被訪問者認(rèn)為,Hadoop的主要障礙仍然是具備專業(yè)技能的人才缺乏。
試試技術(shù)的改進(jìn)吧
解決人才缺乏是一個(gè)急不得的問題,因?yàn)槿瞬诺呐囵B(yǎng)周期是固定的,揠苗助長只能得到并不成熟的人才。但是這一問題卻是迫在眉睫不得不解決的問題,那么應(yīng)該怎么辦?簡化工具,提高技術(shù)也是一種解決之道。
近年來,提取處理存儲(chǔ)在Hadoop中海量數(shù)據(jù)的工具得到了更多人的關(guān)注。從早期的MapReduce和Hive;到新的Hadoop存儲(chǔ)工具,如Presto;再到最近崛起的ApacheSpark,數(shù)據(jù)處理工具的更新迭代正在讓其變得逐漸趨向于簡單化。
而且,現(xiàn)在的數(shù)據(jù)公司也在以此進(jìn)行更進(jìn)一步的研發(fā),予以企業(yè)更多靈活性,無論他們采用了怎樣的技術(shù),讓企業(yè)能夠在數(shù)據(jù)產(chǎn)生的見解中獲得自己所需的信息,得到關(guān)鍵解決方案,借此提升企業(yè)業(yè)務(wù)。
在Hadoop中,通過執(zhí)行分析本地內(nèi)部集群、完全集成的YARN和YARN資源管理器等得出數(shù)據(jù)結(jié)果,而這些投入和使用也是企業(yè)為Hadoop提供了這么多基礎(chǔ)設(shè)施后實(shí)現(xiàn)其價(jià)值的重要一步。
工具都在,結(jié)果卻不同
AWS做過一個(gè)實(shí)驗(yàn),他們只給企業(yè)提供一個(gè)分析環(huán)境和先進(jìn)的分析技術(shù),然后給企業(yè)一定的資本和時(shí)間讓企業(yè)自己進(jìn)行分析。結(jié)果,企業(yè)得到了很多個(gè)結(jié)果,他們在數(shù)據(jù)之中所獲取的回報(bào)也不盡相同。
在本質(zhì)意義是來講,工具是連接了數(shù)據(jù)分析師和大數(shù)據(jù)的存在。而事實(shí)上,大多數(shù)的開源軟件中,先進(jìn)的分析軟件包在設(shè)計(jì)時(shí)并沒有考慮到業(yè)務(wù)分析師。他們所訪問的數(shù)據(jù)超出了簡單的商業(yè)智能和報(bào)表使用的范圍,讓他們的工作變的更難。
敏捷性與易用性
目前有很多的工具已經(jīng)適用于Hadoop,但是他們并不是專門設(shè)計(jì)用來在Hadoop中運(yùn)行的,而是優(yōu)勝劣汰中生存下來的軟件。這些工具往往需要將數(shù)據(jù)提取到另一個(gè)專用的平臺(tái)中,使得分析工作規(guī)模變大,難度上升。
這一問題的解決需要新的方法更為簡化,分析更先進(jìn),能夠很好的適應(yīng)于Hadoop環(huán)境中運(yùn)行,讓分析師在擴(kuò)展SQL指令中進(jìn)行更有價(jià)值的任務(wù),獲得更精準(zhǔn)的分析結(jié)果和信息。
敏捷易用的工具,可暫緩人才難
例如,他們可以進(jìn)行路徑分析,了解客戶的動(dòng)態(tài)、轉(zhuǎn)換,或者進(jìn)行圖形分析,進(jìn)一步揭示對用戶的影響因素。而機(jī)器學(xué)習(xí)可通過傳感器數(shù)據(jù)來預(yù)測未來情況,投資的成敗。事實(shí)上,在很多先進(jìn)的分析工具幫助下,Hadoop數(shù)據(jù)直接進(jìn)行分析也并非遙不可及。
以AWS為例,他們?yōu)橛脩籼峁┝丝焖倥渲媒馕錾诚浣o企業(yè),提供預(yù)編譯的SQL分析加和隨時(shí)代發(fā)展的模型,幫助企業(yè)提供分析結(jié)果。只要分析師需要,他們可以采用多個(gè)流派分析方法獲得大量數(shù)據(jù)的分析結(jié)果,獲得了巨大的敏捷性。
另一方面,由于數(shù)據(jù)存儲(chǔ)在Hadoop和云中,這些新的功能為企業(yè)提供了一個(gè)在移動(dòng)端提高企業(yè)業(yè)務(wù)的方法。而沒有新的硬件、設(shè)置和基礎(chǔ)設(shè)施的增加,企業(yè)的成本并不會(huì)有更高的提升,業(yè)務(wù)卻可以得到大幅上漲。
因此,我們不難看出,人才缺乏誠然會(huì)對企業(yè)的發(fā)展有一定影響,但是工具和技術(shù)的進(jìn)步也是解決這一問題的關(guān)鍵。在這個(gè)發(fā)展的時(shí)代,沒有什么問題是會(huì)被一條路堵死的。