Citus Data擴(kuò)展快速SQL查詢到Hadoop應(yīng)用

責(zé)任編輯:editor003

2013-02-25 13:51:59

摘自:中關(guān)村在線

據(jù)了解,CitusDB是Citus Data公司的旗艦數(shù)據(jù)庫產(chǎn)品,建立在PostgreSQL之上,目的就是為關(guān)系型數(shù)據(jù)設(shè)計(jì)像谷歌Dremel規(guī)模和性能的數(shù)據(jù)庫。

近日,從國外數(shù)據(jù)庫初創(chuàng)公司Citus Data方面了解,實(shí)現(xiàn)了Hadoop數(shù)據(jù)上的快速SQL查詢,同時(shí)超越Postgres將其高速、分析數(shù)據(jù)庫CitusDB擴(kuò)展到Hadoop上,未來將擴(kuò)展到MongoDB及其它數(shù)據(jù)庫產(chǎn)品,特別是關(guān)系型數(shù)據(jù)庫、Hadoop、MongoDB、Amazon S3等產(chǎn)品平臺(tái)。

Citus Data擴(kuò)展SQL查詢數(shù)據(jù)到Hadoop

Citus Hadoop架構(gòu)(來源gigaom.com)

如今,可以說大數(shù)據(jù)打開企業(yè)數(shù)據(jù)分析以及選擇性數(shù)據(jù)存儲(chǔ)的應(yīng)用領(lǐng)域。有效地將兩項(xiàng)結(jié)合需要學(xué)習(xí)新的語言,使用多工具處理,甚至在分析平臺(tái)上或許要犧牲一部分性能。

據(jù)了解,CitusDB是Citus Data公司的旗艦數(shù)據(jù)庫產(chǎn)品,建立在PostgreSQL之上,目的就是為關(guān)系型數(shù)據(jù)設(shè)計(jì)像谷歌Dremel規(guī)模和性能的數(shù)據(jù)庫。特別是名為 “foreign data wrappers”功能,它能夠在多種數(shù)據(jù)類型(像CSV, log以及JSON files)上運(yùn)行SQL。

另外特點(diǎn)就是,CitusDB不僅具有良好的靈活性而且性能很快。相比較甲骨文Exadata machine上TPC-H基準(zhǔn)測(cè)試中數(shù)據(jù)直接存儲(chǔ)在硬盤有明顯優(yōu)勢(shì),而之前在亞馬遜EC2云上的Postgres-Hadoop查詢幾秒鐘內(nèi)實(shí)現(xiàn)。

以Hadoop舉例,MapReduce提供數(shù)據(jù)集的計(jì)算,但是每一個(gè)Job需要對(duì)整個(gè)數(shù)據(jù)集進(jìn)行掃描,導(dǎo)致Hadoop上的SQL查詢工具Hive性能慢的原因。CitusDB比Hive查詢數(shù)據(jù)類型的速度快3~20倍。

但是CitusDB市場上競爭對(duì)手是SQL-On-Hadoop的項(xiàng)目,相比Aster Data,Platfora,Cloudera (Impala)等公司在Hadoop上的產(chǎn)品,CitusDB除了查詢多個(gè)數(shù)據(jù)源之外,Citus絕非一個(gè)查詢執(zhí)行引擎產(chǎn)品,而是具有企業(yè)級(jí)數(shù)據(jù)庫的特點(diǎn)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)