為正確的工作該如何選擇正確的SQL引擎

本篇文章給大家分享的是有關(guān)為正確的工作該如何選擇正確的SQL引擎，小編覺得挺實用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

在成都網(wǎng)站設(shè)計、成都做網(wǎng)站中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細微處著手，突出企業(yè)的產(chǎn)品/服務(wù)/品牌，幫助企業(yè)鎖定精準用戶，提高在線咨詢和轉(zhuǎn)化，使成都網(wǎng)站營銷成為有效果、有回報的無錫營銷推廣。創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)十年了，客戶滿意度97.8%，歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。

我們都渴望獲得數(shù)據(jù)。不僅是更多的數(shù)據(jù)……還有新的數(shù)據(jù)類型，以便我們能夠最好地了解我們的產(chǎn)品、客戶和市場。我們正在尋找有關(guān)各種形狀和大?。ńY(jié)構(gòu)化和非結(jié)構(gòu)化）的最新可用數(shù)據(jù)的實時洞察力。我們希望擁抱新一代的業(yè)務(wù)和技術(shù)專業(yè)人員，這些人員是對數(shù)據(jù)和能夠改變數(shù)據(jù)與我們生活息息相關(guān)的新一代技術(shù)有真正熱情。

我可以舉例說明我的意思。大約兩年前，數(shù)據(jù)挽救了我朋友女兒的性命。出生時，她被診斷出患有七個心臟缺陷。由于采用了3D交互式、虛擬建模和更智能的EKG分析，現(xiàn)代化的病床監(jiān)控解決方案以及其他以數(shù)據(jù)為依據(jù)的改進的醫(yī)療程序等新技術(shù)，她在兩次心臟直視手術(shù)中幸存下來，如今過著健康的生活。數(shù)據(jù)挽救了她的生命。這就是讓我每天都有動力去尋找新的創(chuàng)新和方法，以便盡快向最需要的人提供數(shù)據(jù)。

CDP從頭開始構(gòu)建為企業(yè)數(shù)據(jù)云（EDC）。EDC具有多種功能，能夠在一個平臺上實現(xiàn)許多用例。通過使用混合和多云部署，CDP可以存在于從裸機到公共云和私有云的任何地方。隨著我們在中央IT計劃中采用更多云解決方案，我們看到混合云和多云是新常態(tài)。但是，大多數(shù)混合匹配環(huán)境都會在管理方面造成差距，從而在安全性、可追溯性和合規(guī)性方面帶來新的風(fēng)險。為解決此問題，CDP具有先進的安全性和控制功能，可以使數(shù)據(jù)民主化，而不會冒未能遵守法規(guī)遵從性和安全性政策的風(fēng)險。

CDP上的CDW是一項新服務(wù)，使您能夠為商業(yè)智能（BI）分析師團隊創(chuàng)建自助數(shù)據(jù)倉庫。您可以快速配置新的數(shù)據(jù)倉庫，并與特定團隊或部門共享任何數(shù)據(jù)集。您還記得何時可以自行設(shè)置數(shù)據(jù)倉庫嗎？沒有基礎(chǔ)架構(gòu)和平臺團隊的參與？這是永遠不可能的。CDW完成了這一任務(wù)。

但是，CDW使幾個SQL引擎可用，帶來了更多的選擇同時帶來了更多的混亂。讓我們探索CDP上CDW中可用的SQL引擎，并討論哪種是針對正確用例的正確SQL選項。

如此多的選擇！Impala？Hive LLAP？Spark？什么時候使用？讓我們來探索。

Impala SQL引擎

Impala是Cloudera Distribution Hadoop（CDH）和CDP中流行的開源、可大規(guī)模擴展的MPP引擎。Impala在低延遲、高度交互的SQL查詢上贏得了市場信任。Impala具有非常好的可擴展性，不僅支持Parquet的Hadoop分布式文件系統(tǒng)（HDFS）、優(yōu)化行列（ORC）、JavaScript對象表示法（JSON）、Avro和文本格式，還提供對Kudu、Microsoft Azure Data Lake Storage的本地支持（ADLS）和Amazon Simple Storage Service（S3）。Impala對Sentry或Ranger都具有強大的安全性，并且已知能夠在1000 PB大小的數(shù)據(jù)集上支持1000多個用戶的群集。讓我們簡要看一下整個Impala架構(gòu)。

Impala使用StateStore檢查集群的運行狀況。如果Impala節(jié)點由于任何原因脫機，則StateStore會通知所有其他節(jié)點，并且避免了無法訪問的節(jié)點。Impala目錄服務(wù)管理到群集中所有節(jié)點的所有SQL語句的元數(shù)據(jù)。StateStore和目錄服務(wù)與Hive MetaStore進行通信以獲取塊和文件的位置，然后將元數(shù)據(jù)與工作節(jié)點進行通信。當查詢請求進入時，它轉(zhuǎn)到許多查詢協(xié)調(diào)器之一，在該查詢協(xié)調(diào)器中編譯請求并開始計劃。返回計劃片段，協(xié)調(diào)員安排執(zhí)行。中間結(jié)果在Impala服務(wù)之間進行流傳輸并返回。

該體系結(jié)構(gòu)非常適合當我們需要商業(yè)智能數(shù)據(jù)集市具有低延遲查詢響應(yīng)時（通常在探索性臨時，自助服務(wù)和發(fā)現(xiàn)用例類型中發(fā)現(xiàn)）。在這種情況下，我們讓客戶報告了對復(fù)雜查詢的亞秒級到五秒級的響應(yīng)時間。

對于物聯(lián)網(wǎng)（IoT）數(shù)據(jù)和相關(guān)用例，Impala與流解決方案（如NiFi，Kafka或Spark Streaming）以及適當?shù)臄?shù)據(jù)存儲（如Kudu）一起可以提供不到十秒的端到端管道延遲。Impala具有對S3，ADLS，HDFS，Hive，HBase等的原生的讀/寫功能，是運行低于1000個節(jié)點的集群（有100萬億行或更多的表，或者50PBB大小或者更大的數(shù)據(jù)集）時使用的出色SQL引擎。

Hive LLAP

“實時長期處理”或“長期延遲分析處理”（也稱為LLAP）是Hive下的執(zhí)行引擎，它通過利用相同的資源進行緩存和處理來支持長期運行的流程。該執(zhí)行引擎為我們提供了非常低的延遲SQL響應(yīng)，因為我們沒有資源的加速時間。

最重要的是，LLAP遵守并執(zhí)行了安全策略，因此對于用戶而言，它是完全透明的，從而幫助Hive工作負載的性能甚至可以與當今最流行的傳統(tǒng)數(shù)據(jù)倉庫環(huán)境匹敵。

Hive LLAP提供了大數(shù)據(jù)生態(tài)系統(tǒng)中最成熟的SQL引擎。Hive LLAP專為大數(shù)據(jù)而構(gòu)建，為用戶提供了高度可擴展的企業(yè)數(shù)據(jù)倉庫（EDW），該數(shù)據(jù)庫支持繁重的轉(zhuǎn)換，長期運行的查詢或蠻力風(fēng)格的SQL（具有數(shù)百個聯(lián)接）。Hive支持物化視圖、代理鍵和約束，以提供類似于傳統(tǒng)關(guān)系系統(tǒng)的SQL體驗，包括對查詢結(jié)果和查詢數(shù)據(jù)的內(nèi)置緩存。Hive LLAP可以減少重復(fù)查詢的負載，以提供亞秒級的響應(yīng)時間。通過與Kafka和Druid的合作，Hive LLAP可以支持對HDFS和對象存儲以及流和實時的聯(lián)合查詢。

因此，Hive LLAP非常適合作為企業(yè)數(shù)據(jù)倉庫（EDW）解決方案，在該解決方案中，我們將遇到許多需要長時間進行的長時間運行的查詢，這些查詢需要進行大量轉(zhuǎn)換，或者在海量數(shù)據(jù)集的表之間進行多次聯(lián)接。借助Hive LLAP中包含的緩存技術(shù)，我們的客戶能夠?qū)?,300億條記錄與920億條記錄（無論是否具有分區(qū)鍵）連接在一起，并在數(shù)秒內(nèi)返回結(jié)果。

Spark SQL

Spark是一種通用的高性能數(shù)據(jù)引擎，旨在支持分布式數(shù)據(jù)處理，并且適用于各種用例。有許多用于數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的Spark庫，它們支持更高級別的編程模型以加快開發(fā)速度。在Spark之上是Spark SQL，MLlib，Spark Streaming和GraphX。

Spark SQL是用于結(jié)構(gòu)化數(shù)據(jù)處理的模塊，與Hive，Avro，Parquet，ORC，JSON和JDBC固有的各種數(shù)據(jù)源兼容。Spark SQL在半結(jié)構(gòu)化數(shù)據(jù)集上非常有效，并與Hive MetaStore和NOSQL存儲（例如HBase）原生集成。Spark通常與我們喜歡的語言（例如Java，Python，R和Scala）中的編程API很好地結(jié)合在一起使用。

當您需要將SQL查詢和Spark程序一起嵌入數(shù)據(jù)工程工作負載中時，Spark非常有用。我們在運行Spark的全球100強企業(yè)中擁有許多用戶，以減少對流數(shù)據(jù)工作負載的整體處理。將其與MLlib結(jié)合使用，我們看到許多客戶都喜歡Spark來進行數(shù)據(jù)倉庫應(yīng)用程序的機器學(xué)習(xí)。憑借高性能、低延遲和出色的第三方工具集成，Spark SQL為在編程和SQL之間切換提供了最佳環(huán)境。

那么，什么是正確使用的SQL引擎？

由于您可以在CDP的CDW中混合和匹配相同的數(shù)據(jù)，因此您可以根據(jù)工作負載類型為每個工作負載選擇合適的引擎，例如數(shù)據(jù)工程，傳統(tǒng)EDW，臨時分析，BI儀表板，在線分析處理（OLAP）或在線交易處理（OLTP）。下面的圖表提供了一些指導(dǎo)原則，說明哪些引擎和技術(shù)適合每種目的。

如果您正在運行支持BI儀表板的EDW，則Hive LLAP將為您帶來最佳效果。當您需要臨時的、自助式和探索性數(shù)據(jù)集市時，請查看Impala的優(yōu)勢。如果您正在使用長時間運行的查詢而沒有高并發(fā)性的數(shù)據(jù)工程，Spark SQL是一個不錯的選擇。如果需要高并發(fā)支持，可以查看Hive on Tez。為了獲得對帶有時間序列數(shù)據(jù)的OLAP的支持，請考慮將Druid添加到混合中，如果您正在尋找需要低延遲和高并發(fā)性的OLTP，請考慮將Phoenix添加到混合中。

底線– CDP上的CDW中有很多SQL引擎，這是有目的的。提供選擇是在不折衷的情況下針對海量數(shù)據(jù)進行大規(guī)模高并發(fā)性優(yōu)化的最終方法。CDP上的CDW通過單一的安全性、治理、可追溯性和元數(shù)據(jù)層，可提供通用的數(shù)據(jù)上下文和共享的數(shù)據(jù)體驗，從而可在優(yōu)化的存儲上混合使用SQL引擎。這使您可以自由使用針對您的工作負載進行了優(yōu)化的最佳SQL引擎。

以上就是為正確的工作該如何選擇正確的SQL引擎，小編相信有部分知識點可能是我們?nèi)粘９ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

本文名稱：為正確的工作該如何選擇正確的SQL引擎
網(wǎng)頁網(wǎng)址：http://muchs.cn/article22/ijdjcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、面包屑導(dǎo)航、外貿(mào)網(wǎng)站建設(shè)、營銷型網(wǎng)站建設(shè)、做網(wǎng)站、網(wǎng)站設(shè)計公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容