為正確的工作該如何選擇正確的SQL引擎

本篇文章給大家分享的是有關(guān)為正確的工作該如何選擇正確的SQL引擎,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

在成都網(wǎng)站設(shè)計、成都做網(wǎng)站中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細微處著手,突出企業(yè)的產(chǎn)品/服務(wù)/品牌,幫助企業(yè)鎖定精準用戶,提高在線咨詢和轉(zhuǎn)化,使成都網(wǎng)站營銷成為有效果、有回報的無錫營銷推廣。創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)十年了,客戶滿意度97.8%,歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。

我們都渴望獲得數(shù)據(jù)。不僅是更多的數(shù)據(jù)……還有新的數(shù)據(jù)類型,以便我們能夠最好地了解我們的產(chǎn)品、客戶和市場。我們正在尋找有關(guān)各種形狀和大?。ńY(jié)構(gòu)化和非結(jié)構(gòu)化)的最新可用數(shù)據(jù)的實時洞察力。我們希望擁抱新一代的業(yè)務(wù)和技術(shù)專業(yè)人員,這些人員是對數(shù)據(jù)和能夠改變數(shù)據(jù)與我們生活息息相關(guān)的新一代技術(shù)有真正熱情。
我可以舉例說明我的意思。大約兩年前,數(shù)據(jù)挽救了我朋友女兒的性命。出生時,她被診斷出患有七個心臟缺陷。由于采用了3D交互式、虛擬建模和更智能的EKG分析,現(xiàn)代化的病床監(jiān)控解決方案以及其他以數(shù)據(jù)為依據(jù)的改進的醫(yī)療程序等新技術(shù),她在兩次心臟直視手術(shù)中幸存下來,如今過著健康的生活。數(shù)據(jù)挽救了她的生命。這就是讓我每天都有動力去尋找新的創(chuàng)新和方法,以便盡快向最需要的人提供數(shù)據(jù)。
CDP從頭開始構(gòu)建為企業(yè)數(shù)據(jù)云(EDC)。EDC具有多種功能,能夠在一個平臺上實現(xiàn)許多用例。通過使用混合和多云部署,CDP可以存在于從裸機到公共云和私有云的任何地方。隨著我們在中央IT計劃中采用更多云解決方案,我們看到混合云和多云是新常態(tài)。但是,大多數(shù)混合匹配環(huán)境都會在管理方面造成差距,從而在安全性、可追溯性和合規(guī)性方面帶來新的風(fēng)險。為解決此問題,CDP具有先進的安全性和控制功能,可以使數(shù)據(jù)民主化,而不會冒未能遵守法規(guī)遵從性和安全性政策的風(fēng)險。 
CDP上的CDW是一項新服務(wù),使您能夠為商業(yè)智能(BI)分析師團隊創(chuàng)建自助數(shù)據(jù)倉庫。您可以快速配置新的數(shù)據(jù)倉庫,并與特定團隊或部門共享任何數(shù)據(jù)集。您還記得何時可以自行設(shè)置數(shù)據(jù)倉庫嗎?沒有基礎(chǔ)架構(gòu)和平臺團隊的參與?這是  永遠不可能的。CDW完成了這一任務(wù)。  
但是,CDW使幾個SQL引擎可用,帶來了更多的選擇同時帶來了更多的混亂。讓我們探索CDP上CDW中可用的SQL引擎,并討論哪種是針對正確用例的正確SQL選項。
如此多的選擇!Impala?Hive LLAP?Spark?什么時候使用?讓我們來探索。
     
Impala SQL引擎
Impala是Cloudera Distribution Hadoop(CDH)和CDP中流行的開源、可大規(guī)模擴展的MPP引擎。Impala在低延遲、高度交互的SQL查詢上贏得了市場信任。Impala具有非常好的可擴展性,不僅支持Parquet的Hadoop分布式文件系統(tǒng)(HDFS)、優(yōu)化行列(ORC)、JavaScript對象表示法(JSON)、Avro和文本格式,還提供對Kudu、Microsoft Azure Data Lake Storage的本地支持(ADLS)和Amazon Simple Storage Service(S3)。Impala對Sentry或Ranger都具有強大的安全性,并且已知能夠在1000 PB大小的數(shù)據(jù)集上支持1000多個用戶的群集。讓我們簡要看一下整個Impala架構(gòu)。
為正確的工作該如何選擇正確的SQL引擎
Impala使用StateStore檢查集群的運行狀況。如果Impala節(jié)點由于任何原因脫機,則StateStore會通知所有其他節(jié)點,并且避免了無法訪問的節(jié)點。Impala目錄服務(wù)管理到群集中所有節(jié)點的所有SQL語句的元數(shù)據(jù)。StateStore和目錄服務(wù)與Hive MetaStore進行通信以獲取塊和文件的位置,然后將元數(shù)據(jù)與工作節(jié)點進行通信。當查詢請求進入時,它轉(zhuǎn)到許多查詢協(xié)調(diào)器之一,在該查詢協(xié)調(diào)器中編譯請求并開始計劃。返回計劃片段,協(xié)調(diào)員安排執(zhí)行。中間結(jié)果在Impala服務(wù)之間進行流傳輸并返回。
該體系結(jié)構(gòu)非常適合當我們需要商業(yè)智能數(shù)據(jù)集市具有低延遲查詢響應(yīng)時(通常在探索性臨時,自助服務(wù)和發(fā)現(xiàn)用例類型中發(fā)現(xiàn))。在這種情況下,我們讓客戶報告了對復(fù)雜查詢的亞秒級到五秒級的響應(yīng)時間。  
對于物聯(lián)網(wǎng)(IoT)數(shù)據(jù)和相關(guān)用例,Impala與流解決方案(如NiFi,Kafka或Spark Streaming)以及適當?shù)臄?shù)據(jù)存儲(如Kudu)一起可以提供不到十秒的端到端管道延遲。Impala具有對S3,ADLS,HDFS,Hive,HBase等的原生的讀/寫功能,是運行低于1000個節(jié)點的集群(有100萬億行或更多的表,或者50PBB大小或者更大的數(shù)據(jù)集)時使用的出色SQL引擎。
     
Hive LLAP
“實時長期處理”或“長期延遲分析處理”(也稱為LLAP)是Hive下的執(zhí)行引擎,它通過利用相同的資源進行緩存和處理來支持長期運行的流程。該執(zhí)行引擎為我們提供了非常低的延遲SQL響應(yīng),因為我們沒有資源的加速時間。
為正確的工作該如何選擇正確的SQL引擎
最重要的是,LLAP遵守并執(zhí)行了安全策略,因此對于用戶而言,它是完全透明的,從而幫助Hive工作負載的性能甚至可以與當今最流行的傳統(tǒng)數(shù)據(jù)倉庫環(huán)境匹敵。  
Hive LLAP提供了大數(shù)據(jù)生態(tài)系統(tǒng)中最成熟的SQL引擎。Hive LLAP專為大數(shù)據(jù)而構(gòu)建,為用戶提供了高度可擴展的企業(yè)數(shù)據(jù)倉庫(EDW),該數(shù)據(jù)庫支持繁重的轉(zhuǎn)換,長期運行的查詢或蠻力風(fēng)格的SQL(具有數(shù)百個聯(lián)接)。Hive支持物化視圖、代理鍵和約束,以提供類似于傳統(tǒng)關(guān)系系統(tǒng)的SQL體驗,包括對查詢結(jié)果和查詢數(shù)據(jù)的內(nèi)置緩存。Hive LLAP可以減少重復(fù)查詢的負載,以提供亞秒級的響應(yīng)時間。通過與Kafka和Druid的合作,Hive LLAP可以支持對HDFS和對象存儲以及流和實時的聯(lián)合查詢。   
因此,Hive LLAP非常適合作為企業(yè)數(shù)據(jù)倉庫(EDW)解決方案,在該解決方案中,我們將遇到許多需要長時間進行的長時間運行的查詢,這些查詢需要進行大量轉(zhuǎn)換,或者在海量數(shù)據(jù)集的表之間進行多次聯(lián)接。借助Hive LLAP中包含的緩存技術(shù),我們的客戶能夠?qū)?,300億條記錄與920億條記錄(無論是否具有分區(qū)鍵)連接在一起,并在數(shù)秒內(nèi)返回結(jié)果。 
     
Spark SQL
Spark是一種通用的高性能數(shù)據(jù)引擎,旨在支持分布式數(shù)據(jù)處理,并且適用于各種用例。有許多用于數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的Spark庫,它們支持更高級別的編程模型以加快開發(fā)速度。在Spark之上是Spark SQL,MLlib,Spark Streaming和GraphX。  
為正確的工作該如何選擇正確的SQL引擎
Spark SQL是用于結(jié)構(gòu)化數(shù)據(jù)處理的模塊,與Hive,Avro,Parquet,ORC,JSON和JDBC固有的各種數(shù)據(jù)源兼容。Spark SQL在半結(jié)構(gòu)化數(shù)據(jù)集上非常有效,并與Hive MetaStore和NOSQL存儲(例如HBase)原生集成。Spark通常與我們喜歡的語言(例如Java,Python,R和Scala)中的編程API很好地結(jié)合在一起使用。 
當您需要將SQL查詢和Spark程序一起嵌入數(shù)據(jù)工程工作負載中時,Spark非常有用。我們在運行Spark的全球100強企業(yè)中擁有許多用戶,以減少對流數(shù)據(jù)工作負載的整體處理。將其與MLlib結(jié)合使用,我們看到許多客戶都喜歡Spark來進行數(shù)據(jù)倉庫應(yīng)用程序的機器學(xué)習(xí)。憑借高性能、低延遲和出色的第三方工具集成,Spark SQL為在編程和SQL之間切換提供了最佳環(huán)境。
那么,什么是正確使用的SQL引擎?
由于您可以在CDP的CDW中混合和匹配相同的數(shù)據(jù),因此您可以根據(jù)工作負載類型為每個工作負載選擇合適的引擎,例如數(shù)據(jù)工程,傳統(tǒng)EDW,臨時分析,BI儀表板,在線分析處理(OLAP)或在線交易處理(OLTP)。下面的圖表提供了一些指導(dǎo)原則,說明哪些引擎和技術(shù)適合每種目的。
為正確的工作該如何選擇正確的SQL引擎

如果您正在運行支持BI儀表板的EDW,則Hive LLAP將為您帶來最佳效果。當您需要臨時的、自助式和探索性數(shù)據(jù)集市時,請查看Impala的優(yōu)勢。如果您正在使用長時間運行的查詢而沒有高并發(fā)性的數(shù)據(jù)工程,Spark SQL是一個不錯的選擇。如果需要高并發(fā)支持,可以查看Hive on Tez。為了獲得對帶有時間序列數(shù)據(jù)的OLAP的支持,請考慮將Druid添加到混合中,如果您正在尋找需要低延遲和高并發(fā)性的OLTP,請考慮將Phoenix添加到混合中。  
底線– CDP上的CDW中有很多SQL引擎,這是有目的的。提供選擇是在不折衷的情況下針對海量數(shù)據(jù)進行大規(guī)模高并發(fā)性優(yōu)化的最終方法。CDP上的CDW通過單一的安全性、治理、可追溯性和元數(shù)據(jù)層,可提供通用的數(shù)據(jù)上下文和共享的數(shù)據(jù)體驗,從而可在優(yōu)化的存儲上混合使用SQL引擎。這使您可以自由使用針對您的工作負載進行了優(yōu)化的最佳SQL引擎。

以上就是為正確的工作該如何選擇正確的SQL引擎,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

本文名稱:為正確的工作該如何選擇正確的SQL引擎
網(wǎng)頁網(wǎng)址:http://muchs.cn/article22/ijdjcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、面包屑導(dǎo)航外貿(mào)網(wǎng)站建設(shè)、營銷型網(wǎng)站建設(shè)做網(wǎng)站、網(wǎng)站設(shè)計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計公司