Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

Hive架構(gòu)

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題
hive架構(gòu)如圖所示,client跟driver交互,通過parser、planner、optimizer,最后轉(zhuǎn)為mapreduce運行,具體步驟如下
Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

創(chuàng)新互聯(lián)公司專注于越秀企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),購物商城網(wǎng)站建設(shè)。越秀網(wǎng)站建設(shè)公司,為越秀等地區(qū)提供建站服務(wù)。全流程按需制作網(wǎng)站,專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)

  1. driver輸入一條sql,會由parser轉(zhuǎn)為抽象語法樹AST,這個是沒有任務(wù)元數(shù)據(jù)信息的語法樹;
  2. 語法分析器再把AST轉(zhuǎn)為一個一個的QueryBlock,一個QueryBlock包含輸入、輸出、計算邏輯,也就是說一個子程序就是QueryBlock
  3. planner遍歷所有的QueryBlock,轉(zhuǎn)為一個個的Operator(算子,比如tablescanOperator),最后形成OperatorTree;
  4. 優(yōu)化器對OperatorTree進行優(yōu)化,包含謂詞下推、剪枝等;
  5. 然后遍歷OperatorTree,分割成多個mapreduce作業(yè),形成物理計劃
  6. 之后進行物理優(yōu)化,比如是否進行map join等

Hive 數(shù)據(jù)傾斜優(yōu)化

  1. 對于group by可以有兩個優(yōu)化點
    map聚合:set hive.map.aggr=true,會在map端對相同key先聚合一下;
    分發(fā)為兩道作業(yè):set hive.groupby.skewindata=true,會對原來的一道作業(yè)分為兩道作業(yè),第一道隨機分配key,第二道再按key分配
    注意:對于部分聚合函數(shù)有用,比如sum和count,但是完全聚合函數(shù)無用,比如avg
  2. 對于join也有兩個優(yōu)化點
    map join:新版hive中默認開啟set hive.auto.convert.join=true ,join的左表如果足夠小,會直接把左表內(nèi)容加載到內(nèi)存中
    兩道作業(yè):set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold (default = 100000)這個兩道作業(yè)跟groupby不一樣,這個是說把超過10萬行的數(shù)據(jù)單獨啟一道m(xù)ap join,最后再把結(jié)果聚合

hive常見問題

  1. hive不支持非等值join
    錯誤:select from a inner join b on a.id<>b.id
    替代方法:select
    from a inner join b on a.id=b.id and a.id is null;
  2. hive不支持非join連接
    錯誤:select from dual a,dual b where a.key = b.key;
    正確:select
    from dual a join dual b on a.key = b.key;
  3. hive不支持or
    錯誤:select from a inner join b on a.id=b.id or a.name=b.name
    替代方法:select
    from a inner join b on a.id=b.id union all select * from a inner join b on a.name=b.name
  4. hive內(nèi)部表和外部表的區(qū)別
    創(chuàng)建表時:創(chuàng)建內(nèi)部表時,會將數(shù)據(jù)移動到數(shù)據(jù)倉庫指向的路徑;若創(chuàng)建外部表,僅記錄數(shù)據(jù)所在的路徑, 不對數(shù)據(jù)的位置做任何改變。
    刪除表時:在刪除表的時候,內(nèi)部表的元數(shù)據(jù)和數(shù)據(jù)會被一起刪除, 而外部表只刪除元數(shù)據(jù),不刪除數(shù)據(jù)。這樣外部表相對來說更加安全些,數(shù)據(jù)組織也更加靈活,方便共享源數(shù)據(jù)
  5. sortby、orderby、distributeby
    order by會引發(fā)全局排序;會導(dǎo)致所有的數(shù)據(jù)集中在一臺reducer節(jié)點上,然后進行排序,這樣很可能會超過單個節(jié)點的磁盤和內(nèi)存存儲能力導(dǎo)致任務(wù)失敗。
    distribute by + sort by就是該替代方案,被distribute by設(shè)定的字段為KEY,數(shù)據(jù)會被HASH分發(fā)到不同的reducer機器上,然后sort by會對同一個reducer機器上的每組數(shù)據(jù)進行局部排序。

分享文章:Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題
本文網(wǎng)址:http://muchs.cn/article12/pppegc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃云服務(wù)器、網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)、網(wǎng)站營銷、品牌網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)