大數(shù)據(jù)處理常用框架
大數(shù)據(jù)處理框架負(fù)責(zé)對系統(tǒng)中的數(shù)據(jù)進(jìn)行計(jì)算,并且從大量的單一數(shù)據(jù)點(diǎn)中提取信息和觀點(diǎn)。大數(shù)據(jù)處理框架可以分為三類,批處理框架、流處理框架和混合處理框架。
Hadoop早已證明了自己批處理系統(tǒng)是最古老的處理系統(tǒng)之一,其主要適用于操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過程完成后返回結(jié)果,對于一些需要訪問全套記錄才能完成的計(jì)算工作較為合適。而Apache Hadoop則是一種專用于批處理的處理框架,是第一個在開源社區(qū)獲得極大認(rèn)可的大數(shù)據(jù)框架,基于谷歌有關(guān)海量數(shù)據(jù)處理的多篇論文與經(jīng)驗(yàn),Hadoop重新實(shí)現(xiàn)了相關(guān)算法和組件堆棧,簡化了大規(guī)模批處理技術(shù),提高了易用性。Apache Hadoop可以高效的處理對時間要求不高的大規(guī)模數(shù)據(jù)集。
流處理系統(tǒng)會對隨時進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算,其可以處理幾乎無限量的數(shù)據(jù),但同一時間只能處理一條或很少量數(shù)據(jù),不同記錄間只維持最小量的狀態(tài)。流處理框架Apache Storm是最常用的選擇,其側(cè)重于極低延遲,甚至可以達(dá)到近實(shí)時處理的工作負(fù)載。Apache Storm可處理海量的數(shù)據(jù),而且可以以更低的延遲提供結(jié)果,適用于對于延遲需求很高的流處理工作負(fù)載。
Spark正在證明自己混合處理則是針對一些特殊處理框架同時解決批處理和流處理工作負(fù)載。這種框架可用相關(guān)的組件和API處理兩種類型的數(shù)據(jù)以實(shí)現(xiàn)簡化處理。Apache Spark最常見的一種的新一代批處理框架,Spark主要側(cè)重于通過完善的內(nèi)存計(jì)算和處理優(yōu)化機(jī)制加快批處理工作負(fù)載的運(yùn)行速度,可作為獨(dú)立集群部署與Hadoop集成并取代MapReduce引擎。Spark是多樣化工作負(fù)載處理任務(wù)的最佳選擇,其批處理能力以高內(nèi)存占用為代價提供了速度優(yōu)勢。
大數(shù)據(jù)處理是讓數(shù)據(jù)被洞察和升值的過程,經(jīng)過了處理的數(shù)據(jù)才會閃現(xiàn)金子的光芒。