Terark想通過自研的技術(shù)解決數(shù)據(jù)存儲、壓縮難題

責(zé)任編輯:editor007

作者:陳慶翔

2016-08-09 18:33:08

摘自:36kr

大數(shù)據(jù)時(shí)代,對于數(shù)據(jù)的壓縮和檢索的要求也越來越高。而對于數(shù)據(jù)庫我們總是希望在系統(tǒng)資源一定的前提下能夠

大數(shù)據(jù)時(shí)代,對于數(shù)據(jù)的壓縮和檢索的要求也越來越高。而對于數(shù)據(jù)庫我們總是希望在系統(tǒng)資源一定的前提下能夠:第一,存儲的數(shù)據(jù)更多,因此這個世界上出現(xiàn)了各種壓縮算法。第二,訪問的速度更快,更快的 壓縮(寫)/解壓(讀) 算法,更大的緩存。

對于普通的以數(shù)據(jù)塊/文件為單位的壓縮,傳統(tǒng)的(流式)數(shù)據(jù)壓縮算法工作得不錯,時(shí)間長了,大家也都習(xí)慣了這種數(shù)據(jù)壓縮的模式?;谶@種模式的數(shù)據(jù)壓縮算法層出不窮,不斷有新的算法被實(shí)現(xiàn)出來。

在計(jì)算機(jī)的遠(yuǎn)古時(shí)代,內(nèi)存的性能、容量,與磁盤的性能、容量,涇渭分明,各種應(yīng)用對性能的需求也比較小,大家各司其職相安無事。

然而隨著ssd,PCIe ssd,3d xpoint……的出現(xiàn),內(nèi)存變得越來越大,塊壓縮的缺點(diǎn)也愈發(fā)突出,具體表現(xiàn)在:塊選小了,壓縮率不夠,塊選大了,性能無法忍,更要命的是塊壓縮,節(jié)省的只是更大更便宜的磁盤和ssd,更貴更小的內(nèi)存不但沒有節(jié)省反而更加浪費(fèi)(雙緩存問題)。因此在很多對實(shí)時(shí)性要求較高的場景下我們不得不放棄壓縮。然而一家名為Terark的公司,試圖通過其自主研發(fā)的技術(shù)解決這一問題。

如上文所說,Terark想要解決數(shù)據(jù)壓縮和存儲的問題。按照傳統(tǒng)的塊/文件為單位的壓縮方式,往往需要先解壓再查詢,但Terark推出的技術(shù)除了具有高壓縮率之外,還可以讓用戶在數(shù)據(jù)時(shí)進(jìn)行實(shí)時(shí)檢索,避免傳統(tǒng)的先解壓后查詢的問題。據(jù)CEO付新元介紹,Terark的壓縮率是傳統(tǒng)的5-100倍。

值得一提的是Terark將數(shù)據(jù)和索引融為一體,從而提高性能、節(jié)省存儲空間。舉個例子來說,用戶在手機(jī)上搜索關(guān)鍵詞時(shí)除了可以搜索到來自短信、郵件等內(nèi)容外,還可以檢索到郵箱附件里的內(nèi)容。

另外,Terark還支持在海量數(shù)據(jù)流中實(shí)時(shí)監(jiān)測關(guān)鍵詞和復(fù)雜規(guī)則。其適用于信息監(jiān)測、信息安全、數(shù)據(jù)預(yù)處理、基因監(jiān)測、垃圾郵件過濾以及網(wǎng)絡(luò)數(shù)據(jù)包監(jiān)測設(shè)備等諸多場景。

付新元告訴36氪,目前這些技術(shù)可以應(yīng)用在云、互聯(lián)網(wǎng)、企業(yè)的數(shù)據(jù)存儲和檢索分析方面;硬件上的存儲與索引;數(shù)據(jù)安全檢測和過濾;數(shù)據(jù)庫與各種數(shù)據(jù)系統(tǒng)的的存儲引擎……方面。’

在采訪中付新元強(qiáng)調(diào),Terark不是在做一款新的數(shù)據(jù)庫,而是做更加底層的壓縮、存儲、搜索技術(shù)。因此Terark和數(shù)據(jù)庫廠商也不是競爭關(guān)系,而是通過技術(shù)的開放為數(shù)據(jù)庫提供更高的性能。

目前Terark與許多互聯(lián)網(wǎng)企業(yè)選用的MonggoDB數(shù)據(jù)最為適配,集成TerarkDB存儲引擎的MongoDB在提升了內(nèi)存效率、降低IO壓力,提升了數(shù)據(jù)壓縮率、增加容量、降低延遲以及提升吞吐量。再配合MongoDB本身的數(shù)據(jù)庫功能和運(yùn)維能力,Terark版本的MongoDB具有高可用、可擴(kuò)展的分布式數(shù)據(jù)庫。

在商業(yè)模式方面,其核心的的壓縮、索引技術(shù)可以與云、手機(jī)、智能硬件的廠商合作,落地在實(shí)際的應(yīng)用場景中,而其TerarkDB可以和企業(yè)大數(shù)據(jù)、云、CDN、行業(yè)合作,為存儲引擎提供更高的性能和容量。除此之外,Terark還為企業(yè)提供完整的數(shù)據(jù)庫解決方案。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號