Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

本篇內(nèi)容介紹了“Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的有關(guān)知識(shí)，在實(shí)際案例的操作過(guò)程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),名山企業(yè)網(wǎng)站建設(shè),名山品牌網(wǎng)站建設(shè),網(wǎng)站定制,名山網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,名山網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿，時(shí)刻以成就客戶成長(zhǎng)自我，堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

管理大數(shù)據(jù)所需的許多功能是其中一些是事務(wù)，數(shù)據(jù)突變，數(shù)據(jù)校正，流媒體支持，架構(gòu)演進(jìn)，因?yàn)樗嵝允聞?wù)能力Apache提供了四種，用于滿足和管理大數(shù)據(jù)。

Apache Sharding Sphere

它是一個(gè)眾所周知的數(shù)據(jù)庫(kù)中間件系統(tǒng)。它包含三個(gè)獨(dú)立的模塊，JDBC，Proxy和Sidecar(計(jì)劃)，但在部署時(shí)它們都混合在一起。Apache Shardingsphere提供標(biāo)準(zhǔn)化的數(shù)據(jù)分片，分布式事務(wù)和數(shù)據(jù)庫(kù)治理功能，可以針對(duì)各種多樣化應(yīng)用方案，例如Java同義，異構(gòu)語(yǔ)言和云本機(jī)。

今天的電子商務(wù)主要依賴于關(guān)系數(shù)據(jù)庫(kù)和分布式環(huán)境，高效查詢的激增和數(shù)據(jù)快速轉(zhuǎn)移成為公司關(guān)系數(shù)據(jù)庫(kù)的主要目標(biāo)Apache Shardingsphere是偉大的關(guān)系數(shù)據(jù)庫(kù)中間件生態(tài)系統(tǒng)，它為其開(kāi)發(fā)人員提供了合理的計(jì)算和存儲(chǔ)功能關(guān)系數(shù)據(jù)庫(kù)。

Apache Iceberg

Apache Iceberg 最初由Netflix設(shè)計(jì)和開(kāi)發(fā)。關(guān)鍵的想法是組織目錄樹(shù)中的所有文件，如果您需要在2018年5月創(chuàng)建的文件在Apache iceBerg中，您只需找出該文件并只讀該文件，也沒(méi)有必要閱讀您可以閱讀的其他文件忽略您對(duì)當(dāng)前情況不太重要的其他數(shù)據(jù)。核心思想是跟蹤時(shí)間表上表中的所有更改。

它是一種用于跟蹤非常大的表的數(shù)據(jù)湖解決方案，它是一個(gè)輕量級(jí)數(shù)據(jù)湖解決方案，旨在解決列出大量分區(qū)和耗時(shí)和不一致的元數(shù)據(jù)和HDFS數(shù)據(jù)的問(wèn)題。它包含三種類型的表格格式木質(zhì)，Avro和Orc.in Apache iceberg表格格式與文件集合和文件格式的集合執(zhí)行相同的東西，允許您在單個(gè)文件中跳過(guò)數(shù)據(jù)

它是一種用于在非常大型和比例表上跟蹤和控制的新技術(shù)格式。它專為對(duì)象存儲(chǔ)而設(shè)計(jì)(例如S3)。Iceberg 中更重要的概念是一個(gè)快照?？煺毡硎疽唤M完整的表數(shù)據(jù)文件。為每個(gè)更新操作生成新快照。

Apache Iceberg 有以下特征：

ACID 事務(wù)能力，可以在不影響當(dāng)前運(yùn)行數(shù)據(jù)處理任務(wù)的情況下進(jìn)行上游數(shù)據(jù)寫(xiě)入，這大大簡(jiǎn)化了ETL; Iceberg 提供更好的合并能力，可以大大減少數(shù)據(jù)存儲(chǔ)延遲;
支持更多的分析引擎優(yōu)異的內(nèi)核抽象使其不綁定到特定的計(jì)算引擎。目前，冰山支持的計(jì)算發(fā)動(dòng)機(jī)是Spark，F(xiàn)link，Presto和Hive。
Apache Iceberg為文件存儲(chǔ)，組織，基于流的增量計(jì)算模型和基于批處理的全尺度計(jì)算模型提供統(tǒng)一和靈活的數(shù)據(jù)。批處理和流式傳輸任務(wù)可以使用類似的存儲(chǔ)模型，并且不再隔離數(shù)據(jù)。iceberg支持隱藏的分區(qū)和分區(qū)演進(jìn)，這促進(jìn)了業(yè)務(wù)更新數(shù)據(jù)分區(qū)策略。支持三個(gè)存儲(chǔ)格式木質(zhì)，Avro和Orc。
增量讀取處理能力iceBerg支持以流式方式讀取增量數(shù)據(jù)，支持流和傳輸表源。

Apache Hudi

Apache Hudi是一個(gè)大數(shù)據(jù)增量處理框架，它試圖解決攝取管道的效率問(wèn)題和在大數(shù)據(jù)中需要插入，更新和增量消耗基元的ETL管道。它是針對(duì)分析和掃描優(yōu)化的數(shù)據(jù)存儲(chǔ)抽象，其可以在幾分鐘內(nèi)將更改應(yīng)用于HDF中的數(shù)據(jù)集，并支持多個(gè)增量處理系統(tǒng)來(lái)處理數(shù)據(jù)。通過(guò)自定義InputFormat與當(dāng)前Hadoop生態(tài)系統(tǒng)(包括Apache Hive，Apache Parquet，Presto和Apache Spark)的集成使框架無(wú)縫為最終用戶。

Hudi的設(shè)計(jì)目標(biāo)是快速且逐步更新HDFS上的數(shù)據(jù)集。有兩種更新數(shù)據(jù)的方法：讀寫(xiě)編寫(xiě)并合并讀取。寫(xiě)入模式上的副本是當(dāng)我們更新數(shù)據(jù)時(shí)，我們需要通過(guò)索引獲取更新數(shù)據(jù)中涉及的文件，然后讀取數(shù)據(jù)并合并更新的數(shù)據(jù)。這種模式更易于更新數(shù)據(jù)，但是當(dāng)涉及的數(shù)據(jù)更新時(shí)更新時(shí)，效率非常低;并合并讀取是要將更新寫(xiě)入單獨(dú)的新文件，然后我們可以選擇與原始數(shù)據(jù)同步或異步地將更新的數(shù)據(jù)與原始數(shù)據(jù)合并(可以調(diào)用組合)，因?yàn)楦碌膬H編寫(xiě)新文件，所以此模式將更新更快。

在Hudi系統(tǒng)的幫助下，很容易在MySQL，HBase和Cassandra中收集增量數(shù)據(jù)，并將其保存到Hudi。然后，presto，spark和hive可以快速閱讀這些遞增更新的數(shù)據(jù)。

Apache Iotdb

它是一種物聯(lián)網(wǎng)時(shí)間序列工業(yè)數(shù)據(jù)庫(kù)，Apache IOTDB是一款集成，存儲(chǔ)，管理和Anallyze Thge IoT時(shí)間序列數(shù)據(jù)的軟件系統(tǒng)。Apache IOTDB采用具有高性能和豐富功能的輕量級(jí)架構(gòu)，并與Apache Hadoop，Spark和Flink等進(jìn)行深度集成，可以滿足工業(yè)中大規(guī)模數(shù)據(jù)存儲(chǔ)，高速數(shù)據(jù)讀數(shù)和復(fù)雜數(shù)據(jù)分析的需求事物互聯(lián)網(wǎng)領(lǐng)域。

Apache IOTDB套件由多個(gè)組件組成，它們一起形成一系列功能，例如“數(shù)據(jù)收集 - 數(shù)據(jù)寫(xiě)入數(shù)據(jù)存儲(chǔ) - 數(shù)據(jù)查詢 - 數(shù)據(jù)可視化數(shù)據(jù)分析”。其結(jié)構(gòu)如下：

用戶可以導(dǎo)入從設(shè)備上的傳感器收集的時(shí)間序列數(shù)據(jù)，服務(wù)器負(fù)載和CPU內(nèi)存等消息隊(duì)列中的時(shí)間序列數(shù)據(jù)，時(shí)間序列數(shù)據(jù)，應(yīng)用程序的時(shí)間序列數(shù)據(jù)或從其他數(shù)據(jù)庫(kù)到本地或遠(yuǎn)程IOTDB的時(shí)間序列數(shù)據(jù)JDBC。在。用戶還可以直接將上述數(shù)據(jù)寫(xiě)入本地(或在HDFS上)TSFile文件。TSFile文件可以寫(xiě)入HDF，以實(shí)現(xiàn)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)處理平臺(tái)等異常檢測(cè)和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理任務(wù)。對(duì)于寫(xiě)入HDFS或本地的TSFile文件，您可以使用TSFile-Hadoop或TSFile-Spark連接器來(lái)允許Hadoop或Spark處理數(shù)據(jù)。分析結(jié)果可以寫(xiě)回TSFile文件。IOTDB和TSFile還提供相應(yīng)的客戶端工具，以滿足用戶在SQL，腳本和圖形格式中查看數(shù)據(jù)的需求。

“Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

當(dāng)前名稱：Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么
URL地址：http://www.muchs.cn/article30/jsodpo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開(kāi)發(fā)、面包屑導(dǎo)航、品牌網(wǎng)站建設(shè)、定制開(kāi)發(fā)、自適應(yīng)網(wǎng)站、建站公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容