2019人人莫人人擦人人看,亚洲自偷自偷照片,久久香蕉国产线

如何構建下一代大數據架構——數據湖

責任編輯：editor006

作者：zyy　

2017-03-08 16:48:44

摘自：it168網站

技術和軟件的進步使我們能夠處理和分析大量數據。數據湖存儲所有類型的數據，包括結構化和非結構化數據，并通過整個企業(yè)的統一視圖提供民主化訪問。

如何創(chuàng)建一個適用于多樣數據類型，并可擴展的敏捷數據平臺?答案就在數據湖中！

如何構建下一代大數據架構——數據湖

技術和軟件的進步使我們能夠處理和分析大量數據。雖然很明顯，大數據是一個企業(yè)投入了大量資金的熱門話題，但要注意，除了考慮數據規(guī)模，我們還需要考慮到被分析數據類型的多樣性。數據種類不同意味著數據集可以存儲在許多格式和存儲系統中，每個類型都有自己的特征。

考慮數據多樣性是一項艱巨的任務，但有一種方法可以使你360度全面了解你的客戶，提供商和運營商。為了實現這種方法，我們需要實現下一代大數據架構。接下來，我們來看一下如何構建下一代大數據架構。

如今，較具前瞻性的企業(yè)都越來越依賴數據湖。數據湖是管理事務數據庫，同時，數據湖也可以看做是一個大數據分析平臺。數據湖支持不同來源的數據，如文件，點擊流，IoT傳感器數據，社交網絡數據和SaaS應用程序數據。

數據湖的核心原則是存儲原始的，未經改變的數據。這讓數據分析和探索更具有靈活性，并且還允許查詢和算法基于歷史和當前數據，而不是基于單個時間點的快照來演變。數據湖可將數據集中到一個公共存儲庫中，以此避免信息孤島。該存儲庫很可能分布在許多物理機上，但最終將為用戶提供透明訪問和基礎分布式存儲的統一視圖。此外，數據不僅是分布式的而且是復制的，因此可以確保數據的易訪問和可用性。

數據湖存儲所有類型的數據，包括結構化和非結構化數據，并通過整個企業(yè)的統一視圖提供民主化訪問。通過這種方法，用戶可以在單個平臺支持許多不同的數據源和數據類型。數據庫加強了企業(yè)現有的IT基礎架構，與傳統應用程序集成，增強(甚至替換)企業(yè)數據倉庫(EDW)環(huán)境，并可利用日益增長的數據種類和數據量為新應用程序提供支持。

能夠存儲不同類型的數據是數據湖的一個重要特征，這保證了用戶不會丟棄任何有價值的元數據或原屬性，不同的數據分析技術也可用于數據的各階段，避免了僅在其被聚合或變換之后才處理數據而產生的限制。創(chuàng)建可以使用不同算法查詢的統一存儲庫，包括傳統EDW環(huán)境范圍之外的SQL備選方案，是數據湖的標志和大數據戰(zhàn)略的基本部分。

為了實現數據湖的最大價值，必須保證數據的質量和可靠性——即確保數據湖可以恰當地反映公司業(yè)務?？梢暂p松訪問，讓用戶能夠更快識別他們想要使用的數據。為了管理數據湖，關鍵是具有清理，保護和操作數據的流程。

構建數據湖不是一個簡單的過程，必須決定采集哪些數據，以及如何組織和編目數據。雖然它不是一個自動化的過程，但有相應的工具和產品來簡化企業(yè)級現代數據湖架構的創(chuàng)建和管理。這些工具允許提取不同類型的數據包括流，結構化和非結構化，所有這些都為敏捷數據湖平臺的創(chuàng)建打下了基礎。

數據湖 SaaS 數據類型