2012 對(duì)于 IT 行業(yè)來(lái)說(shuō),無(wú)疑是大數(shù)據(jù)之年。據(jù) IDC 統(tǒng)計(jì), 2011 年數(shù)據(jù)總量將達(dá)到 1.8 萬(wàn)億 GB ,對(duì)這些海量數(shù)據(jù)的分析已經(jīng)成為企業(yè)和機(jī)構(gòu)非常重要且緊迫的需求。面臨著占據(jù)不到 15% 的傳統(tǒng)標(biāo)準(zhǔn)化、結(jié)構(gòu)化的信息,企業(yè)已經(jīng)無(wú)法捕捉正確的、全部的市場(chǎng)信息,剩下的 85% 非結(jié)構(gòu)化數(shù)據(jù)則廣泛存在于社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)和電子商務(wù)之中。面對(duì)席卷而來(lái)的大數(shù)據(jù)浪潮,企業(yè)更需要一種全新的技術(shù),幫助他們實(shí)時(shí)處理海量的復(fù)雜性信息,挖掘大數(shù)據(jù)分析的價(jià)值。
在大數(shù)據(jù)分析中,傳統(tǒng)的數(shù)據(jù)庫(kù)部署已經(jīng)不能承載 TB 數(shù)據(jù),也不能很好的支持高級(jí)別的數(shù)據(jù)分析。 “大數(shù)據(jù)的應(yīng)用關(guān)鍵在于可高度擴(kuò)展的分析,包括處理海量、高速、種類(lèi)繁多以及無(wú)法預(yù)測(cè)的數(shù)據(jù)類(lèi)型等極端情況”, Forrester 研究機(jī)構(gòu)于 10 月發(fā)布的報(bào)告《企業(yè) Hadoop :新興的大數(shù)據(jù)核心》指出。
在大數(shù)據(jù)分析領(lǐng)域, Hadoop 和 MapReduce 越來(lái)越受到關(guān)注。 Hadoop 是一個(gè)開(kāi)放源碼的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),主要面向存儲(chǔ)和處理結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化等真正意義上的大數(shù)據(jù)(通常成百上千的 TB 甚至 PB 級(jí)別數(shù)據(jù))應(yīng)用。 MapReduce 能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題,將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,然后將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。
Sybase IQ 15.4 采用業(yè)內(nèi)領(lǐng)先的 MPP 列式數(shù)據(jù)庫(kù)和最先進(jìn)的數(shù)據(jù)庫(kù)內(nèi)分析技術(shù),并革命性地加入 MapReduce 與 Hadoop 集成,以應(yīng)對(duì)大數(shù)據(jù)時(shí)代的分析挑戰(zhàn),開(kāi)啟洞察關(guān)鍵業(yè)務(wù)的能力。 Sybase IQ 15.4 正在打破數(shù)據(jù)分析的壁壘,徹底改變 “ 大數(shù)據(jù)分析 ” 領(lǐng)域。
Sybase IQ 15—— 創(chuàng)新性的列式數(shù)據(jù)庫(kù)
面對(duì)大數(shù)據(jù)分析的全新需求, Sybase IQ 的列式數(shù)據(jù)庫(kù)無(wú)疑更能夠駕馭大數(shù)據(jù)浪潮。
相比于傳統(tǒng)的“行式存儲(chǔ)”的關(guān)系型數(shù)據(jù)庫(kù), Sybase IQ 使用了獨(dú)特的列式存儲(chǔ)方式,在進(jìn)行分析查詢(xún)時(shí),僅需讀取查詢(xún)所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶(hù)、大規(guī)模數(shù)據(jù),還可以提交對(duì)商業(yè)信息的高速訪問(wèn),其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的百倍甚至千倍。“隨著 Sybase IQ 不斷地在分析應(yīng)用 POC 測(cè)試中拔得頭籌,有時(shí)甚至超過(guò)其他對(duì)手 100 倍之多”, Gartner 評(píng)價(jià)道,“ Sybase IQ 逐漸成為從數(shù)據(jù)集市到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)最令人渴望的 DBMS (數(shù)據(jù)庫(kù)管理系統(tǒng))。 ”
在此基礎(chǔ)上, Sybase IQ 15 提升了核心的引擎基礎(chǔ)架構(gòu)能力,包括數(shù)據(jù)加載和查詢(xún)性能、改進(jìn)的安全架構(gòu)、強(qiáng)大的集群管理和因數(shù)據(jù)分區(qū)而增強(qiáng)的管理等等。自 2009 年推出以來(lái), Sybase 陸續(xù)發(fā)布了 Sybase IQ 15.1 、 15.2 、 15.3 以至最新的 Sybase IQ 15.4 版本,每個(gè)版本都著力于增加新的核心能力以促進(jìn)更深入的高級(jí)分析。 Sybase IQ 15.3 在內(nèi)置分析、全文檢索等功能基礎(chǔ)上,采用 PlexQ 技術(shù)的全共享 MPP 架構(gòu),擴(kuò)展后可支持實(shí)時(shí)訪問(wèn)數(shù)千個(gè)用戶(hù)、多個(gè)混合工作負(fù)載和大規(guī)模數(shù)據(jù)集,將性能、分析、靈活性提高前所未有的高度,從而重新定義企業(yè)級(jí)業(yè)務(wù)分析。 Sybase IQ 15.4 已將 Sybase IQ 的性能、分析、靈活性提升到了更高的級(jí)別,進(jìn)一步推動(dòng)了其在商業(yè)智能方面業(yè)已非常強(qiáng)勢(shì)的增長(zhǎng)。
長(zhǎng)期以來(lái), Sybase IQ 這些技術(shù)革新使得 Sybase IQ 一直以來(lái)位于列式分析服務(wù)器市場(chǎng)的領(lǐng)導(dǎo)者地位。目前,全球已有 2 , 0 00 多名用戶(hù)采用了 Sybase IQ 創(chuàng)新的列式處理方法,為其關(guān)鍵的分析和報(bào)表系統(tǒng)提供支持。在過(guò)去三年,每年都有大約 200 個(gè)新客戶(hù)加入 Sybase IQ 用戶(hù)陣營(yíng)。
Sybase IQ 15 —— 采用更靈活、效益更高的 PlexQ 技術(shù)
Sybase 在 2010 年推出的 Sybase IQ 15.3 就采用了全共享架構(gòu)的 PlexQ 技術(shù),該技術(shù)重新定義了企業(yè)范圍的業(yè)務(wù)信息,全共享架構(gòu)可輕松支持涉及海量數(shù)據(jù)集、海量并發(fā)用戶(hù)數(shù)和獨(dú)特工作流程的多種復(fù)雜分析樣式,大大增加了其效益。與其他 MPP 解決方案不同, Sybase IQ 的 PlexQ 網(wǎng)格技術(shù)能夠動(dòng)態(tài)管理可輕松擴(kuò)展并且專(zhuān)用于不同組和流程的一系列計(jì)算與存儲(chǔ)資源中的分析工作量,從而使其能夠以更低的成本更輕松地支持日益增長(zhǎng)的數(shù)據(jù)量以及快速增長(zhǎng)的用戶(hù)社區(qū)。
基于成熟的 PlexQ 技術(shù)構(gòu)建的 Sybase IQ 采用下圖所示的三層構(gòu)架:
基本層:數(shù)據(jù)庫(kù)管理系統(tǒng) (DBMS) ,這是一個(gè)全共享 MPP 分析 DBMS 引擎,是 Sybase IQ 最大的獨(dú)特優(yōu)勢(shì)。
第二層:分析應(yīng)用程序服務(wù)層,其提供 C++ 和 Java 數(shù)據(jù)庫(kù)內(nèi) API ,并可實(shí)現(xiàn)與外部數(shù)據(jù)源的集成和聯(lián)邦;包括四種 與 Hadoop 的集成方法。
頂層: Sybase IQ 生態(tài)系統(tǒng),由四個(gè)強(qiáng)大且不同的合作伙伴和認(rèn)證 ISV 應(yīng)用程序組成。
基于這種 PlexQ 技術(shù), Sybase IQ 15.4 將大數(shù)據(jù)轉(zhuǎn)變成可指揮每個(gè)人都行動(dòng)的情報(bào)信息,從而在整個(gè)企業(yè)的用戶(hù)和業(yè)務(wù)流程范圍內(nèi)輕松具備大數(shù)據(jù)的分析能力。
Sybase IQ 15.4 —— 面向大數(shù)據(jù)的高級(jí)分析平臺(tái)
Sybase IQ 提供了一個(gè)統(tǒng)一的 DBMS 平臺(tái),可使用各種算法分析不同類(lèi)型的數(shù)據(jù),這包括結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。此外,該版本還做了以下的擴(kuò)充:擴(kuò)大了對(duì)數(shù)據(jù)庫(kù)內(nèi)分析功能的支持,包括 MapReduce API 、預(yù)測(cè)模型標(biāo)記語(yǔ)言( PMML )支持、與 Hadoop 的集成以及基于 Sybase IQ PlexQ 大規(guī)模并行處理( MPP )技術(shù)的統(tǒng)計(jì)和數(shù)據(jù)挖掘算法的擴(kuò)展庫(kù)。新的 API 幫助開(kāi)發(fā)人員快速、安全地實(shí)施數(shù)據(jù)庫(kù)內(nèi)算法,實(shí)現(xiàn)優(yōu)于現(xiàn)有方法 10 倍以上的性能加速。
[page]
Sybase IQ 15. 4 具有以下主要功能 :
1.更強(qiáng)的數(shù)據(jù)管理
大量增強(qiáng)的功能改善了 Sybase IQ 的數(shù)據(jù)管理、部署和可維護(hù)性。
· 更快速的批量加載 : 批量加載數(shù)據(jù)通過(guò) ODBC 和 JDBC 接口插入到 Sybase 中,從而實(shí)現(xiàn)具有更高可擴(kuò)展性的應(yīng)用程序,同時(shí)可極大提高加載性能。
· 更出色的文本壓縮 : 更出色地對(duì) VARCHAR 、 VARBINARY 、 CHAR 和 BINARY 壓縮可實(shí)現(xiàn)以更高效率、更低成本部署高性能文本分析應(yīng)用程序,同時(shí)極大提高壓縮速率。
2.豐富的應(yīng)用程序
Sybase IQ 15.4 增加了一系列 API 和工具,用于創(chuàng)建在數(shù)據(jù)庫(kù)內(nèi)運(yùn)行的高級(jí)分析算法,并且能通過(guò) PlexQ 網(wǎng)格能充分利用大規(guī)模并行處理的能力。
支持自帶 Map Reduce 的表參數(shù)化用戶(hù)自定義函數(shù) (UDF) —— 這是 Sybase IQ 的本地應(yīng)用程序編程接口,可使應(yīng)用程序編程人員在 Sybase IQ 數(shù)據(jù)庫(kù)服務(wù)器內(nèi)構(gòu)建和部署 C++ 庫(kù)。使用這些 API 可實(shí)現(xiàn)專(zhuān)有算法或算法包,安全地位于 Sybase IQ 內(nèi),通過(guò)在保存于 Sybase IQ 數(shù)據(jù)庫(kù)服務(wù)器中的數(shù)據(jù)附近執(zhí)行,以快 10 倍的速度返回結(jié)果。此框架可實(shí)現(xiàn)在 Sybase IQ 中開(kāi)發(fā)和部署 MapReduce 程序,以分析涉及結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)格式的超大數(shù)據(jù)集。 C++ 、 Map 和 Reduce 算法通過(guò)標(biāo)準(zhǔn) SQL 加以調(diào)用,并且由 Sybase IQ 強(qiáng)大的查詢(xún)引擎自動(dòng)在 PlexQ 網(wǎng)格中進(jìn)行分發(fā)和并行化。
Hadoop 集成與聯(lián)邦— —將基于 Hadoop 的分析的結(jié)果與運(yùn)行于 Sybase IQ 中的查詢(xún)相集成。 Sybase 是唯一一家提供 4 種不同方法將標(biāo)準(zhǔn) SQL 查詢(xún) ( 客戶(hù)端聯(lián)邦、 ETL 處理、數(shù)據(jù)聯(lián)邦和查詢(xún)聯(lián)邦 ) 中的 Hadoop 數(shù)據(jù)和分析與分析數(shù)據(jù)庫(kù)相集成的廠商。 Sybase IQ 15.4 充分利用 Hadoop 來(lái)識(shí)別海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集中的相關(guān)數(shù)據(jù)點(diǎn),然后將 Hadoop 中的相關(guān)數(shù)據(jù)點(diǎn)集成到 Sybase IQ 中,以便利用傳統(tǒng)數(shù)據(jù)和來(lái)自其他數(shù)據(jù)源的結(jié)果集進(jìn)行分析。
預(yù)測(cè)模型標(biāo)記語(yǔ)言 (PMML) 支持—— 通過(guò) Zementis 提供的認(rèn)證插件,自動(dòng)執(zhí)行使用業(yè)界標(biāo)準(zhǔn)語(yǔ)言定義在 SAS 、 SPSS 、“ R ”等工具以及其他流行預(yù)測(cè)工作平臺(tái)產(chǎn)品中所創(chuàng)建的分析模型。充分利用流行的分析工具構(gòu)建預(yù)測(cè)模型,自動(dòng)執(zhí)行在 Sybase IQ 中部署的預(yù)測(cè)模型,并使用業(yè)界標(biāo)準(zhǔn)語(yǔ)言,以避免形成廠商捆綁。
“ R ”集成 : —— 用戶(hù)可使用 RJDBC 接口,以及流行的開(kāi)源統(tǒng)計(jì)工具“ R ”查詢(xún) Sybase IQ 數(shù)據(jù)庫(kù)。此外,用戶(hù)還可以將來(lái)自 Sybase IQ 的“ R ”庫(kù)作為 SQL 查詢(xún)中的函數(shù)調(diào)用加以執(zhí)行,并返回結(jié)果集。
3.數(shù)據(jù)庫(kù)內(nèi)分析庫(kù)
更新的數(shù)據(jù)庫(kù)內(nèi)統(tǒng)計(jì)和數(shù)據(jù)挖掘庫(kù) ( 來(lái)自 Fuzzy · Logix 的 DBLytix): 在 Sybase IQ 內(nèi)運(yùn)行的高級(jí)分析、統(tǒng)計(jì)和數(shù)據(jù)挖掘算法庫(kù)。 Sybase IQ 15.4 中的更新可使該庫(kù)充分利用一些數(shù)據(jù)挖掘算法中的 MapReduce API 進(jìn)行大規(guī)模并行處理,并且包含多種新函數(shù),例如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和 Adaptive Boosting 。
4.擴(kuò)展的生態(tài)系統(tǒng)
Sybase IQ 還非常適合面向大數(shù)據(jù)分析的端到端全面解決方案。重要的工具和互補(bǔ)的合作伙伴產(chǎn)品可在以下方面提供幫助 :
Sybase PowerDesigner 16.1 參考架構(gòu)生成器 : 可通過(guò)在實(shí)施 Sybase IQ 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市時(shí)生成最佳硬件配置,快速實(shí)現(xiàn)價(jià)值。
Sybase Control Center(SCC) : 改進(jìn)方面包括大量管理功能,例如過(guò)程、函數(shù)、 UDF( 表、 TPF 和 JavaEE ) 及文本索引。用戶(hù)能夠更輕松地管理 SCC 中頻繁使用的功能,以及更輕松地部署內(nèi)置、外部和文本數(shù)據(jù)庫(kù)內(nèi)分析。此外該版本還包含了新的 SQL 執(zhí)行窗口,該窗口可實(shí)現(xiàn)易于測(cè)試的特定 SQL 例程。
已通過(guò) SAPBusinessObjects? 認(rèn)證 : Sybase IQ 15.4 已通過(guò)認(rèn)證,可與 SAP Business Objects Business Intelligence Platform 4.0 和 SAP Business Objects Data Services 4.0 配合使用,以提供豐富的端到端業(yè)務(wù)分析框架。
基于合作伙伴的解決方案 : Sybase IQ 擁有基于與 Solix 、 KXEN 、 Quest 、 BMMSoft 、 Zementis 及 Fuzzy Logix 之間的合作伙伴關(guān)系的多種新解決方案,從而可使 Sybase IQ 提供可滿足各種需求的優(yōu)質(zhì)解決方案。
總結(jié)
以上新功能充分利用 PlexQ 智能分析網(wǎng)格技術(shù),能夠在一個(gè)企業(yè)級(jí)數(shù)據(jù)分析平臺(tái)上執(zhí)行大規(guī)模分析。憑借 Sybase IQ 15.4 ,企業(yè)能夠有效地將海量數(shù)據(jù)轉(zhuǎn)變成可操作的信息,管理海量增長(zhǎng)的半結(jié)構(gòu)與非結(jié)構(gòu)化數(shù)據(jù)、實(shí)現(xiàn)復(fù)雜數(shù)據(jù)環(huán)境下高效的大數(shù)據(jù)分析。
在大數(shù)據(jù)浪潮下, Sybase 從行業(yè)的變化以及用戶(hù)的真實(shí)需求出發(fā),不斷革新技術(shù)并調(diào)整服務(wù),為全球用戶(hù)提供適應(yīng)大數(shù)據(jù)環(huán)境的產(chǎn)品與解決方案。