在這個大數(shù)據(jù)爆炸的時代,各種新項目如雨后春筍一般,每天從世界各地不斷涌現(xiàn)出來。好消息是當(dāng)下的技術(shù)都是開源可用的。下面就一起來看看這個Top10列表,應(yīng)用起來吧!
1. Hadoop Hadoop是穩(wěn)定企業(yè)實力和其他一切工作的基礎(chǔ)。你需要利用YARN ,HDFS和Hadoop中的基礎(chǔ)設(shè)施,存儲原始數(shù)據(jù)以及運行關(guān)鍵的大數(shù)據(jù)服務(wù)器和應(yīng)用程序。
2. Spark Spark易于使用,并且支持所有重要的大數(shù)據(jù)語言(Scala,Python,Java,R)。同時,Spark還是一個巨大的生態(tài)系統(tǒng),發(fā)展迅速,便于支持microbatching/batching/SQL。這是另一個不費腦筋的技術(shù)。
3. NiFi NiFi是NSA工具,它可以用最少的編碼和一個光滑的UI,提供簡單的數(shù)據(jù)攝取、存儲和處理各種來源數(shù)據(jù)。這些數(shù)據(jù)的來源包括社交媒體,JMS,NoSQL,SQL,Rest/JSON Feeds,AMQP,SQS,F(xiàn)TP,F(xiàn)lume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等等。如果NiFi沒有你需要的來源或匯集,你可以為NiFi直接用Java代碼編寫自己的處理器。NiFi是另一個推薦選入工具箱中的Apache項目,是大數(shù)據(jù)工具中的瑞士軍刀。
4. Apache Hive 2.1 Apache Hive是運行在Hadoop之上的永久SQL解決方案。在Apache Hive 2.1最新版本中,性能和功能上的增強(qiáng)使 Hive成功作為SQL大數(shù)據(jù)解決方案留在榜單。
5. Kafka Kafka是大數(shù)據(jù)系統(tǒng)間進(jìn)行異步、分布式消息傳遞的選擇,它能夠進(jìn)入大多數(shù)的堆棧。從Spark到NiFi,到第三方工具,再到Java和Scala,它很好地維系了系統(tǒng)。Kafka需要在棧中應(yīng)用。
6. Phoenix- HBase 由于很多公司都在應(yīng)用HBase,也就導(dǎo)致了這個開源項目的數(shù)據(jù)規(guī)模極大。在HDFS支持下,NoSQL能夠很好地集成所有工具。所以,在HBase上額外構(gòu)建的Phoenix成為了NoSQL首選。這增強(qiáng)了HBase的SQL、JDBC、OLTP和運營分析能力。
7. Zeppelin 在使用Hive,Spark,SQL,Shell,Scala,Python以及許多其他的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具時,Zeppelin是一款便捷、集成性較高的notebook工具。在易于使用的同時,Zeppelin能夠以很好的方式來探索和查詢數(shù)據(jù)。而且這個工具可以支持多種環(huán)境和功能,用戶只需要經(jīng)常更新圖表和映射數(shù)據(jù)即可。
8. Sparkling Water Sparkling Water彌補(bǔ)了Spark中Machine Learning和其他工作間的空缺,提供所有可能用到的機(jī)器學(xué)習(xí)服務(wù)。
9. Apache Beam Apache Beam是一個用Java編寫的統(tǒng)一框架,用于數(shù)據(jù)處理和管道開發(fā)。同時,它也可以支持Spark和Flink。其他的框架很快也會上線,用戶不必再去學(xué)習(xí)太多的框架。
10. Stanford CoreNLP Natural Language Processing目前應(yīng)用極廣且增長迅速,Stanford CoreNLP也在不斷地提高他們的框架性能。
時下有數(shù)不清的大數(shù)據(jù)項目,所以最好的辦法就是合并及測試不同項目版本,來確保他們在安全和管理上都能夠順暢運行。