Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

Hive架構(gòu)

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題
hive架構(gòu)如圖所示，client跟driver交互，通過parser、planner、optimizer，最后轉(zhuǎn)為mapreduce運行，具體步驟如下

創(chuàng)新互聯(lián)公司專注于越秀企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),購物商城網(wǎng)站建設(shè)。越秀網(wǎng)站建設(shè)公司,為越秀等地區(qū)提供建站服務(wù)。全流程按需制作網(wǎng)站，專業(yè)設(shè)計，全程項目跟蹤，創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)

driver輸入一條sql，會由parser轉(zhuǎn)為抽象語法樹AST，這個是沒有任務(wù)元數(shù)據(jù)信息的語法樹；
語法分析器再把AST轉(zhuǎn)為一個一個的QueryBlock，一個QueryBlock包含輸入、輸出、計算邏輯，也就是說一個子程序就是QueryBlock
planner遍歷所有的QueryBlock，轉(zhuǎn)為一個個的Operator（算子，比如tablescanOperator），最后形成OperatorTree；
優(yōu)化器對OperatorTree進行優(yōu)化，包含謂詞下推、剪枝等；
然后遍歷OperatorTree，分割成多個mapreduce作業(yè)，形成物理計劃
之后進行物理優(yōu)化，比如是否進行map join等

Hive 數(shù)據(jù)傾斜優(yōu)化

對于group by可以有兩個優(yōu)化點
map聚合：set hive.map.aggr=true，會在map端對相同key先聚合一下；
分發(fā)為兩道作業(yè)：set hive.groupby.skewindata=true，會對原來的一道作業(yè)分為兩道作業(yè)，第一道隨機分配key，第二道再按key分配
注意：對于部分聚合函數(shù)有用，比如sum和count，但是完全聚合函數(shù)無用，比如avg
對于join也有兩個優(yōu)化點
map join：新版hive中默認開啟set hive.auto.convert.join=true ，join的左表如果足夠小，會直接把左表內(nèi)容加載到內(nèi)存中
兩道作業(yè)：set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold （default = 100000）這個兩道作業(yè)跟groupby不一樣，這個是說把超過10萬行的數(shù)據(jù)單獨啟一道m(xù)ap join，最后再把結(jié)果聚合

hive常見問題

hive不支持非等值join
錯誤:select from a inner join b on a.id<>b.id
替代方法:select from a inner join b on a.id=b.id and a.id is null;
hive不支持非join連接
錯誤：select from dual a,dual b where a.key = b.key;
正確：select from dual a join dual b on a.key = b.key;
hive不支持or
錯誤:select from a inner join b on a.id=b.id or a.name=b.name
替代方法:select from a inner join b on a.id=b.id union all select * from a inner join b on a.name=b.name
hive內(nèi)部表和外部表的區(qū)別
創(chuàng)建表時：創(chuàng)建內(nèi)部表時，會將數(shù)據(jù)移動到數(shù)據(jù)倉庫指向的路徑；若創(chuàng)建外部表，僅記錄數(shù)據(jù)所在的路徑，不對數(shù)據(jù)的位置做任何改變。
刪除表時：在刪除表的時候，內(nèi)部表的元數(shù)據(jù)和數(shù)據(jù)會被一起刪除，而外部表只刪除元數(shù)據(jù)，不刪除數(shù)據(jù)。這樣外部表相對來說更加安全些，數(shù)據(jù)組織也更加靈活，方便共享源數(shù)據(jù)
sortby、orderby、distributeby
order by會引發(fā)全局排序；會導(dǎo)致所有的數(shù)據(jù)集中在一臺reducer節(jié)點上，然后進行排序，這樣很可能會超過單個節(jié)點的磁盤和內(nèi)存存儲能力導(dǎo)致任務(wù)失敗。
distribute by + sort by就是該替代方案，被distribute by設(shè)定的字段為KEY，數(shù)據(jù)會被HASH分發(fā)到不同的reducer機器上，然后sort by會對同一個reducer機器上的每組數(shù)據(jù)進行局部排序。

分享文章：Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題
本文網(wǎng)址：http://muchs.cn/article12/pppegc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站策劃、云服務(wù)器、網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)、網(wǎng)站營銷、品牌網(wǎng)站設(shè)計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

Hive架構(gòu)

Hive 數(shù)據(jù)傾斜優(yōu)化

hive常見問題

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題