Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

本篇內(nèi)容介紹了“Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),名山企業(yè)網(wǎng)站建設(shè),名山品牌網(wǎng)站建設(shè),網(wǎng)站定制,名山網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,名山網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

管理大數(shù)據(jù)所需的許多功能是其中一些是事務(wù),數(shù)據(jù)突變,數(shù)據(jù)校正,流媒體支持,架構(gòu)演進(jìn),因?yàn)樗嵝允聞?wù)能力Apache提供了四種,用于滿足和管理大數(shù)據(jù)。

Apache Sharding Sphere

它是一個(gè)眾所周知的數(shù)據(jù)庫(kù)中間件系統(tǒng)。它包含三個(gè)獨(dú)立的模塊,JDBC,Proxy和Sidecar(計(jì)劃),但在部署時(shí)它們都混合在一起。Apache  Shardingsphere提供標(biāo)準(zhǔn)化的數(shù)據(jù)分片,分布式事務(wù)和數(shù)據(jù)庫(kù)治理功能,可以針對(duì)各種多樣化應(yīng)用方案,例如Java同義,異構(gòu)語(yǔ)言和云本機(jī)。

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

今天的電子商務(wù)主要依賴于關(guān)系數(shù)據(jù)庫(kù)和分布式環(huán)境,高效查詢的激增和數(shù)據(jù)快速轉(zhuǎn)移成為公司關(guān)系數(shù)據(jù)庫(kù)的主要目標(biāo)Apache  Shardingsphere是偉大的關(guān)系數(shù)據(jù)庫(kù)中間件生態(tài)系統(tǒng),它為其開(kāi)發(fā)人員提供了合理的計(jì)算和存儲(chǔ)功能關(guān)系數(shù)據(jù)庫(kù)。

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

Apache Iceberg

Apache Iceberg 最初由Netflix設(shè)計(jì)和開(kāi)發(fā)。關(guān)鍵的想法是組織目錄樹(shù)中的所有文件,如果您需要在2018年5月創(chuàng)建的文件在Apache  iceBerg中,您只需找出該文件并只讀該文件,也沒(méi)有必要閱讀您可以閱讀的其他文件忽略您對(duì)當(dāng)前情況不太重要的其他數(shù)據(jù)。核心思想是跟蹤時(shí)間表上表中的所有更改。

它是一種用于跟蹤非常大的表的數(shù)據(jù)湖解決方案,它是一個(gè)輕量級(jí)數(shù)據(jù)湖解決方案,旨在解決列出大量分區(qū)和耗時(shí)和不一致的元數(shù)據(jù)和HDFS數(shù)據(jù)的問(wèn)題。它包含三種類型的表格格式木質(zhì),Avro和Orc.in  Apache iceberg表格格式與文件集合和文件格式的集合執(zhí)行相同的東西,允許您在單個(gè)文件中跳過(guò)數(shù)據(jù)

它是一種用于在非常大型和比例表上跟蹤和控制的新技術(shù)格式。它專為對(duì)象存儲(chǔ)而設(shè)計(jì)(例如S3)。Iceberg  中更重要的概念是一個(gè)快照??煺毡硎疽唤M完整的表數(shù)據(jù)文件。為每個(gè)更新操作生成新快照。

Apache Iceberg 有以下特征:

  • ACID 事務(wù)能力,可以在不影響當(dāng)前運(yùn)行數(shù)據(jù)處理任務(wù)的情況下進(jìn)行上游數(shù)據(jù)寫(xiě)入,這大大簡(jiǎn)化了ETL; Iceberg  提供更好的合并能力,可以大大減少數(shù)據(jù)存儲(chǔ)延遲;

  • 支持更多的分析引擎優(yōu)異的內(nèi)核抽象使其不綁定到特定的計(jì)算引擎。目前,冰山支持的計(jì)算發(fā)動(dòng)機(jī)是Spark,F(xiàn)link,Presto和Hive。

  • Apache  Iceberg為文件存儲(chǔ),組織,基于流的增量計(jì)算模型和基于批處理的全尺度計(jì)算模型提供統(tǒng)一和靈活的數(shù)據(jù)。批處理和流式傳輸任務(wù)可以使用類似的存儲(chǔ)模型,并且不再隔離數(shù)據(jù)。iceberg支持隱藏的分區(qū)和分區(qū)演進(jìn),這促進(jìn)了業(yè)務(wù)更新數(shù)據(jù)分區(qū)策略。支持三個(gè)存儲(chǔ)格式木質(zhì),Avro和Orc。

  • 增量讀取處理能力iceBerg支持以流式方式讀取增量數(shù)據(jù),支持流和傳輸表源。

Apache Hudi

Apache  Hudi是一個(gè)大數(shù)據(jù)增量處理框架,它試圖解決攝取管道的效率問(wèn)題和在大數(shù)據(jù)中需要插入,更新和增量消耗基元的ETL管道。它是針對(duì)分析和掃描優(yōu)化的數(shù)據(jù)存儲(chǔ)抽象,其可以在幾分鐘內(nèi)將更改應(yīng)用于HDF中的數(shù)據(jù)集,并支持多個(gè)增量處理系統(tǒng)來(lái)處理數(shù)據(jù)。通過(guò)自定義InputFormat與當(dāng)前Hadoop生態(tài)系統(tǒng)(包括Apache  Hive,Apache Parquet,Presto和Apache Spark)的集成使框架無(wú)縫為最終用戶。

Hudi的設(shè)計(jì)目標(biāo)是快速且逐步更新HDFS上的數(shù)據(jù)集。有兩種更新數(shù)據(jù)的方法:讀寫(xiě)編寫(xiě)并合并讀取。寫(xiě)入模式上的副本是當(dāng)我們更新數(shù)據(jù)時(shí),我們需要通過(guò)索引獲取更新數(shù)據(jù)中涉及的文件,然后讀取數(shù)據(jù)并合并更新的數(shù)據(jù)。這種模式更易于更新數(shù)據(jù),但是當(dāng)涉及的數(shù)據(jù)更新時(shí)更新時(shí),效率非常低;并合并讀取是要將更新寫(xiě)入單獨(dú)的新文件,然后我們可以選擇與原始數(shù)據(jù)同步或異步地將更新的數(shù)據(jù)與原始數(shù)據(jù)合并(可以調(diào)用組合),因?yàn)楦碌膬H編寫(xiě)新文件,所以此模式將更新更快。

在Hudi系統(tǒng)的幫助下,很容易在MySQL,HBase和Cassandra中收集增量數(shù)據(jù),并將其保存到Hudi。然后,presto,spark和hive可以快速閱讀這些遞增更新的數(shù)據(jù)。

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么

Apache Iotdb

它是一種物聯(lián)網(wǎng)時(shí)間序列工業(yè)數(shù)據(jù)庫(kù),Apache IOTDB是一款集成,存儲(chǔ),管理和Anallyze Thge IoT時(shí)間序列數(shù)據(jù)的軟件系統(tǒng)。Apache  IOTDB采用具有高性能和豐富功能的輕量級(jí)架構(gòu),并與Apache  Hadoop,Spark和Flink等進(jìn)行深度集成,可以滿足工業(yè)中大規(guī)模數(shù)據(jù)存儲(chǔ),高速數(shù)據(jù)讀數(shù)和復(fù)雜數(shù)據(jù)分析的需求事物互聯(lián)網(wǎng)領(lǐng)域。

Apache IOTDB套件由多個(gè)組件組成,它們一起形成一系列功能,例如“數(shù)據(jù)收集 - 數(shù)據(jù)寫(xiě)入數(shù)據(jù)存儲(chǔ) - 數(shù)據(jù)查詢 -  數(shù)據(jù)可視化數(shù)據(jù)分析”。其結(jié)構(gòu)如下:

用戶可以導(dǎo)入從設(shè)備上的傳感器收集的時(shí)間序列數(shù)據(jù),服務(wù)器負(fù)載和CPU內(nèi)存等消息隊(duì)列中的時(shí)間序列數(shù)據(jù),時(shí)間序列數(shù)據(jù),應(yīng)用程序的時(shí)間序列數(shù)據(jù)或從其他數(shù)據(jù)庫(kù)到本地或遠(yuǎn)程IOTDB的時(shí)間序列數(shù)據(jù)JDBC。在。用戶還可以直接將上述數(shù)據(jù)寫(xiě)入本地(或在HDFS上)TSFile文件。TSFile文件可以寫(xiě)入HDF,以實(shí)現(xiàn)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)處理平臺(tái)等異常檢測(cè)和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理任務(wù)。對(duì)于寫(xiě)入HDFS或本地的TSFile文件,您可以使用TSFile-Hadoop或TSFile-Spark連接器來(lái)允許Hadoop或Spark處理數(shù)據(jù)。分析結(jié)果可以寫(xiě)回TSFile文件。IOTDB和TSFile還提供相應(yīng)的客戶端工具,以滿足用戶在SQL,腳本和圖形格式中查看數(shù)據(jù)的需求。

“Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

當(dāng)前名稱:Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)是什么
URL地址:http://www.muchs.cn/article30/jsodpo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開(kāi)發(fā)面包屑導(dǎo)航、品牌網(wǎng)站建設(shè)、定制開(kāi)發(fā)、自適應(yīng)網(wǎng)站、建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)