隨著越來越多的企業(yè)致力于以數(shù)據(jù)為驅(qū)動進行發(fā)展,開發(fā)移動應用程序并將大數(shù)據(jù)分析整合進產(chǎn)品或服務中是的商業(yè)模式日漸流行。企業(yè)規(guī)模擴大伴隨用戶基數(shù)增多,如何應對移動應用程序帶來的數(shù)據(jù)井噴成為重要問題。
使用范圍越來越廣的虛擬架構(gòu)正是用以管理移動應用所產(chǎn)生的大量數(shù)據(jù),而解決數(shù)據(jù)井噴問題的最佳方案應當使企業(yè)的注意力集中在藏于數(shù)據(jù)背后的有價值信息上,而非數(shù)據(jù)基礎架構(gòu)問題,如數(shù)據(jù)基礎架構(gòu)的成本、存儲容量和靈活性。許多機構(gòu)已經(jīng)采用云端技術(shù)來規(guī)避這些問題。
對于如何構(gòu)建大數(shù)據(jù)驅(qū)動型云終端以支撐移動應用程序架構(gòu),這里列出三條重要建議:
大量投資以構(gòu)建復雜數(shù)據(jù)處理平臺,而非數(shù)據(jù)管理基礎構(gòu)架
像 Ola Cabs 和 MyFitnessPal 這樣移動應用開發(fā)的企業(yè)正不斷深化數(shù)據(jù)分析研究并催生了最近的數(shù)據(jù)存儲空間擴容熱潮,因此這類企業(yè)也有著新的需求:構(gòu)建一個可以處理大量數(shù)據(jù)的 IT 基礎架構(gòu)。其中最大的挑戰(zhàn)是如何在最小化數(shù)據(jù)管理成本的同時滿足不斷增長的數(shù)據(jù)分析性能要求。
企業(yè)應當仔細考慮自行構(gòu)建和維護數(shù)據(jù)基礎架構(gòu)?;蛘撸麄兛梢岳脕嗰R遜云端計算(AWS)、微軟云(Microsoft Azure)和谷歌計算引擎(Google Compute Engine)等云服務優(yōu)化數(shù)據(jù)管理。云技術(shù)不僅有助于降低資金成本,更重要的是,它還可以降低產(chǎn)品風險并減少關(guān)鍵項目耗時。
另外,對于任何大數(shù)據(jù)項目,為適應數(shù)據(jù)集大小的變化,數(shù)據(jù)庫存儲容量必須快速擴容,同時計算性能要能夠在數(shù)據(jù)規(guī)模上升和下降時都快速給出精確結(jié)果。云服務提供了一個解決這些問題的便捷方法,同時它允許對所使用的數(shù)據(jù)分析模型按需付費,因此企業(yè)只需要為他們實際使用的服務進行付費,靈活性大大提高。
大數(shù)據(jù)項目的另外一個挑戰(zhàn)是尋找創(chuàng)新的技術(shù)解決方案,該方案可以解決傳統(tǒng)數(shù)據(jù)庫和現(xiàn)有的可擴展架構(gòu)忽略的問題。移動應用程序收集到的數(shù)據(jù)來自于多個不同系統(tǒng),我們需要把它們轉(zhuǎn)化為一種通用的格式,以便進一步分析利用。例如,企業(yè)應該考慮利用 Hive 來打開數(shù)據(jù)集中的原始 JSON 格式數(shù)據(jù)。Hive 可使用柱狀格式存儲的數(shù)據(jù),比如 RCFile 和 ORC格式的數(shù)據(jù),這使使用者減少分析查詢時的讀取操作且使數(shù)據(jù)集中每列變量可以被獨立地訪問。通過組織數(shù)據(jù)使其可讀性更強并更易訪問,企業(yè)將能專注于已收集到的數(shù)據(jù)而非花大量精力處理從移動應用程序中搜集到的原始數(shù)據(jù)。
利用實時查詢技術(shù)維持競爭優(yōu)勢
移動應用程序使數(shù)據(jù)獲取更便捷,使數(shù)據(jù)使用分析更具即時性更頻繁。為了分析這些穩(wěn)定的大數(shù)據(jù)流,企業(yè)可以對拍字節(jié)(PB)的數(shù)據(jù)源使用查詢引擎技術(shù)來最優(yōu)化即席交互查詢功能。
大數(shù)據(jù)剛起步時,開源 Hadoop 的早期采用者通過對海量的復合結(jié)構(gòu)數(shù)據(jù)進行分析得到有巨大應用價值的深層次信息從而取得競爭優(yōu)勢。如今,由于 SQL-on-Hadoop 技術(shù)(如云服務中的 Presto-as-a-Service)的快速發(fā)展,下一個競爭熱點是實時數(shù)據(jù)查詢技術(shù)。實時查詢軟件使企業(yè)獲得更多利潤,因為它能幫助決策者比競爭對手更快地獲得可利用的有價值信息,并做出更好的決策。此外,通過與定位工具結(jié)合的實時查詢技術(shù),企業(yè)可以追蹤消費者的位置信息,與之互動并施加影響,在提升用戶體驗的同時促升產(chǎn)品銷量增長——而這一切都是實時完成的。
實時查詢技術(shù)可以通過互動和累積的過程幫助使用者更快地提高獲取有價值信息。通過允許用戶把包含各種細節(jié)信息的原始數(shù)據(jù)集直接倒進 Hadoop 中,它使得用戶避免了冗雜而緩慢的傳統(tǒng)數(shù)據(jù)預處理和精煉過程。有必要指出的是, Hadoop 中分析的元數(shù)據(jù)被所有進程共享。這意味著,如果用戶通過實時查詢指令從數(shù)據(jù)中提取出附加信息,那么系統(tǒng)中的其他進程也可以獲取到這些信息。結(jié)果是,挖掘信息的過程也加速了,且所有的部門(如市場部和運營部)都可以看到并使用這些數(shù)據(jù),并合理使用在自己的專業(yè)領(lǐng)域中。
另外,Hadoop 的實時查詢技術(shù)允許機構(gòu)進行數(shù)據(jù)的全保真度分析,彌補了單純的深入分析和易于搜索性所帶來的缺陷。實時查詢軟件在既提供摘要信息又提供細節(jié)信息的同時給分析員提供了易于解決未預料到的特別問題的靈活性。因為該軟件具有循環(huán)處理海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的能力,終端用戶不僅可以看到隱藏在原始數(shù)據(jù)背后的趨勢、關(guān)系和模式,還可以看到所有的細節(jié)信息。
Hadoop 實時查詢功能最讓企業(yè)滿意的方面在于企業(yè)可負擔其成本,并且它可以幫助提高企業(yè)利潤。由于利用運行在商業(yè)服務器集群上的開源軟件,基于云端技術(shù)的 Hadoop 平臺可以使得每太字節(jié)(TB)數(shù)據(jù)的初始成本從幾千美元減少到幾百美元。利用 Hadoop 實時查詢功能,人們不再需要把數(shù)據(jù)從一個系統(tǒng)遷移到另一個系統(tǒng),這節(jié)省了機構(gòu)的成本費用,更重要的是,還節(jié)省了寶貴的時間。
啟用可持續(xù)靈活性
由于具有商業(yè)價值,移動應用開發(fā)企業(yè)勢頭日盛,然而企業(yè)的 IT 開發(fā)者正拼盡全力跟上移動應用開發(fā)人員對于訪問關(guān)鍵業(yè)務進程和應用程序的需求。云端技術(shù)的靈活性和彈性可以幫助企業(yè)更快地適應市場環(huán)境變化。
當評估比較幾個選中的云服務技術(shù)時,企業(yè)為了實現(xiàn)一定的性能要求應該綜合考慮云服務的自動調(diào)整功能以及即時競價決策能力。這將有助于企業(yè)節(jié)省資金,并提高投資收益。
另外,在選擇大數(shù)據(jù)服務的過程中,需要有全局觀并明確業(yè)務優(yōu)先次序,需要記住的是這些優(yōu)先性會發(fā)生變化。也就是說,不存在一個萬能的基礎架構(gòu)。云技術(shù)吸引人的地方在于它的彈性基礎架構(gòu)可以與其他領(lǐng)域結(jié)合,使商業(yè)決策業(yè)務更加靈活高效。
最后,公司里的不同團隊必須能夠使用所需的最佳分析工具,從而利用不同類型的大數(shù)據(jù)工作模式作出決策。在移動應用領(lǐng)域中,我們還需要一些事后查詢。比如,廣告工作流程通常包括分析歷史數(shù)據(jù),其中有對過去行為的特定分析。另一方面,應用實時信息流分析提供“周邊環(huán)境服務”的趨勢正在顯現(xiàn)。其中一個例子是,我們會詢問移動應用程序:“附近正在營業(yè)的意大利餐廳中哪一家最好吃?”
總結(jié)
這三條建議將有助于確保機構(gòu)能處理大量數(shù)據(jù)并應對不斷增長的業(yè)務需求。把商業(yè)智能和數(shù)據(jù)分析整合進移動應用程序中已成為時下企業(yè)發(fā)展新的標配,用以幫助企業(yè)進行決策和跨部門合作。移動企業(yè)應該采取適當措施而專注于數(shù)據(jù)的價值,而不是擔心應該如何管理這些數(shù)據(jù)。