Java開發(fā)人員使用哪些大數(shù)據(jù)工具?

2021-03-08    分類: 網(wǎng)站建設(shè)

1、MongoDB——最受歡迎的,跨平臺的,面向文檔的數(shù)據(jù)庫。

MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫,使用C++語言編寫。旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案。應(yīng)用性能高低依賴于數(shù)據(jù)庫性能,MongoDB則是非關(guān)系數(shù)據(jù)庫中功能最豐富,最像關(guān)系數(shù)據(jù)庫的,隨著MongDB 3.4版本發(fā)布,其應(yīng)用場景適用能力得到了進(jìn)一步拓展。


3、Cassandra——開源分布式數(shù)據(jù)庫管理系統(tǒng)

最初是由Facebook開發(fā)的,旨在處理許多商品服務(wù)器上的大量數(shù)據(jù),提供高可用性,沒有單點故障。

Apache Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式架構(gòu)于一身。于2008開源,此后,由于Cassandra良好的可擴(kuò)展性,被Digg、Twitter等Web 2.0網(wǎng)站所采納,成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案。

因Cassandra是用Java編寫的,所以理論上在具有JDK6及以上版本的機(jī)器中都可以運行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令,類似于我們平時操作的關(guān)系數(shù)據(jù)庫,對于熟悉MySQL的朋友來說,操作會很容易上手。

4、Redis ——開源(BSD許可)內(nèi)存數(shù)據(jù)結(jié)構(gòu)存儲,用作數(shù)據(jù)庫,緩存和消息代理。


Redis是一個開源的使用ANSI C語言編寫的、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫,并提供多種語言的API。Redis 有三個主要使其有別于其它很多競爭對手的特點:Redis是完全在內(nèi)存中保存數(shù)據(jù)的數(shù)據(jù)庫,使用磁盤只是為了持久性目的; Redis相比許多鍵值數(shù)據(jù)存儲系統(tǒng)有相對豐富的數(shù)據(jù)類型; Redis可以將數(shù)據(jù)復(fù)制到任意數(shù)量的從服務(wù)器中。


Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


10、Memcached ——通用分布式內(nèi)存緩存系統(tǒng)。

Memcached是一套分布式快取系統(tǒng),當(dāng)初是Danga Interactive為了LiveJournal所發(fā)展的,但被許多軟件(如MediaWiki)所使用。Memcached作為高速運行的分布式緩存服務(wù)器,具有以下的特點:協(xié)議簡單,基于libevent的事件處理,內(nèi)置內(nèi)存存儲方式。

11、Apache Hive ——在Hadoop之上提供類似SQL的層。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Hive是一個基于Hadoop的數(shù)據(jù)倉庫平臺。通過hive,可以方便地進(jìn)行ETL工作。hive定義了一個類似于SQL的查詢語言,能夠?qū)⒂脩艟帉懙腟QL轉(zhuǎn)化為相應(yīng)的Mapreduce程序基于Hadoop執(zhí)行。目前,已經(jīng)發(fā)布了Apache Hive 2.1.1 版本。

12、Apache Kafka ——最初是由LinkedIn開發(fā)的高吞吐量,分布式訂閱消息系統(tǒng)。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Apache Kafka是一個開源消息系統(tǒng)項目,由Scala寫成。該項目的目標(biāo)是為處理實時數(shù)據(jù)提供一個統(tǒng)一、高通量、低等待的平臺。Kafka維護(hù)按類區(qū)分的消息,稱為主題(topic)。生產(chǎn)者(producer)向kafka的主題發(fā)布消息,消費者(consumer)向主題注冊,并且接收發(fā)布到這些主題的消息。kafka以一個擁有一臺或多臺服務(wù)器的集群運行著,每一臺服務(wù)器稱為broker。

13、Akka ——用于在JVM上構(gòu)建高并發(fā),分布式和彈性消息驅(qū)動應(yīng)用程序的工具包。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Akka 是一個用 Scala 編寫的庫,用于簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應(yīng)用。它已經(jīng)成功運用在電信行業(yè),系統(tǒng)幾乎不會宕機(jī)。

14、HBase ——開放源代碼,非關(guān)系型,分布式數(shù)據(jù)庫,采用Google的BigTable建模,用Java編寫,并在HDFS上運行。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


與FUJITSU Cliq等商用大數(shù)據(jù)產(chǎn)品不同,HBase是Google Bigtable的開源實現(xiàn),類似Google Bigtable利用GFS作為其文件存儲系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù);Google Bigtable利用 Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對應(yīng)。

15、Neo4j ——在Java中實現(xiàn)的開源圖形數(shù)據(jù)庫。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Neo4j是一個高性能的NOSQL圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)上而不是表中。它是一個嵌入式的、基于磁盤的、具備完全事務(wù)特性的Java持久化引擎。

16、CouchBase ——開源分布式的NoSQL面向文檔數(shù)據(jù)庫,針對交互式應(yīng)用程序進(jìn)行了優(yōu)化。

如果以前沒有NoSQL的使用經(jīng)驗,那么理解couchbase的時候關(guān)鍵有兩點:延后寫入和松散存儲。該產(chǎn)品基于Apache CouchDB,并整合了GeoCouch(一個基于Erlang、緊密集成的地理空間索引系統(tǒng),可支持LBS應(yīng)用)。

17、Apache Storm——開源分布式實時計算系統(tǒng)。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Apache Storm 是一個能近實時地在數(shù)據(jù)之上運行用戶代碼片段的流式數(shù)據(jù)處理框架。它實際上是一系列連在一起的管道。通常用于簡單的分析任務(wù) ,諸如計算,以及清洗,使其常規(guī)化,并且準(zhǔn)備攝入用于長期存儲的數(shù)據(jù)。

18、CouchDB——開源的面向文檔的NoSQL數(shù)據(jù)庫,使用JSON存儲數(shù)據(jù)。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


CouchDB 是一個開源的面向文檔的數(shù)據(jù)庫管理系統(tǒng),可以通過 RESTful JavaScript Object Notation (JSON) API 訪問。CouchDB落實到最底層的數(shù)據(jù)結(jié)構(gòu)就是兩類B+Tree 。

19、Oracle Coherence——內(nèi)存數(shù)據(jù)網(wǎng)格解決方案,通過提供對常用數(shù)據(jù)的快速訪問,使企業(yè)能夠可預(yù)測地擴(kuò)展關(guān)鍵任務(wù)應(yīng)用程序。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


簡單來說,Coherence僅支持Java,.NET和C++ API三個版本,這三個都是面向?qū)ο蟮恼Z言,這也說明Coherence和應(yīng)用開發(fā)的親和性。

20、Titan——可擴(kuò)展的圖形數(shù)據(jù)庫,優(yōu)化用于存儲和查詢包含分布在多機(jī)集群上的數(shù)百億個頂點和邊的圖形。

支持不同的分布式存儲層:Cassandra 1.1和HBase 0.92。原生實現(xiàn) Blueprints graph API,Gremlin graph traversal language,F(xiàn)rames graph-to-object mapper,Rexster graph server。

21、Amazon DynamoDB——快速,靈活的全面管理NoSQL的數(shù)據(jù)庫服務(wù),適用于任何規(guī)模的要求一致性,單位毫秒延遲的應(yīng)用程序。

Amazon DynamoDB 是一種完全托管的 NoSQL 數(shù)據(jù)庫服務(wù),提供快速而可預(yù)測的性能,能夠?qū)崿F(xiàn)無縫擴(kuò)展。

22、Amazon Kinesis——AWS上的實時流式傳輸數(shù)據(jù)平臺。

Web 應(yīng)用程序、移動設(shè)備、可穿戴設(shè)備、行業(yè)傳感器和許多軟件應(yīng)用程序和服務(wù)都可能生成大量的流數(shù)據(jù)(有時達(dá)到每小時數(shù) TB),需要對其進(jìn)行連續(xù)地收集、存儲和處理。Amazon Kinesis 就是針對這種需求產(chǎn)生的。

23、Datomic——完全事務(wù),云就緒,分布式數(shù)據(jù)庫,用Clojure編寫。

Java開發(fā)人員使用哪些大數(shù)據(jù)工具?


Datomic 是一個靈活的、基于時間因子的數(shù)據(jù)庫,支持聯(lián)合查詢,具有彈性的可擴(kuò)展性以及支持ACID事務(wù)性。Datomic 提供高可用的、分布式存儲服務(wù)

網(wǎng)站欄目:Java開發(fā)人員使用哪些大數(shù)據(jù)工具?
轉(zhuǎn)載注明:http://www.muchs.cn/news48/104798.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、全網(wǎng)營銷推廣、商城網(wǎng)站品牌網(wǎng)站設(shè)計、面包屑導(dǎo)航網(wǎng)頁設(shè)計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機(jī)網(wǎng)站建設(shè)