自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法

這篇文章主要介紹“自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法”,在日常操作中,相信很多人在自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

這篇文章主要介紹“自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法”,在日常操作中,相信很多人在自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

創(chuàng)新互聯(lián)主營高陽網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,重慶APP開發(fā)公司,高陽h5小程序制作搭建,高陽網(wǎng)站營銷推廣歡迎高陽等地區(qū)企業(yè)咨詢

在本章的前半部分,我們研究了兩種可以將半結(jié)構(gòu)化和二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為HDFS的機(jī)制:開源HDFS File Slurper項(xiàng)目和Oozie,它們觸發(fā)了數(shù)據(jù)入口工作流程。使用本地文件系統(tǒng)進(jìn)行輸入(以及輸出)的挑戰(zhàn)是,在集群上運(yùn)行的map和reduce任務(wù)將無法訪問特定上的文件系統(tǒng),將數(shù)據(jù)從HDFS移動(dòng)到文件系統(tǒng)有三個(gè)廣泛的選擇:

在服務(wù)器(例如Web服務(wù)器)上托管agent,然后使用MapReduce將其寫入。

在MapReduce中寫入本地文件系統(tǒng),然后在后處理步驟中觸發(fā)遠(yuǎn)程服務(wù)器上的腳本以移動(dòng)該數(shù)據(jù)。

在遠(yuǎn)程服務(wù)器上運(yùn)行進(jìn)程以直接從HDFS提取數(shù)據(jù)。

第三種選擇是首選方法,因?yàn)樽詈唵吻易钣行В虼诉@是本節(jié)的重點(diǎn)。我們將了解如何使用HDFS File Slurper自動(dòng)將文件從HDFS移出到本地文件系統(tǒng)。

從HDFS導(dǎo)出文件的自動(dòng)機(jī)制

假設(shè)有MapReduce用HDFS編寫的文件,你想要將它們自動(dòng)提取到本地文件系統(tǒng)。任何Hadoop工具都不支持此類功能,因此必須查看其他方法。

問題

自動(dòng)將文件從HDFS移動(dòng)到本地文件系統(tǒng)。

解決方案

HDFS文件Slurper可用于將文件從HDFS復(fù)制到本地文件系統(tǒng)。

討論

這里的目標(biāo)是使用HDFS File Slurper項(xiàng)目(https://github.com/alexholmes/ hdfs-file-slurper)來協(xié)助自動(dòng)化。我們在前文詳細(xì)介紹了HDFS File Slurper,請?jiān)诶^續(xù)使用此技術(shù)之前閱讀該部分。

HDFS Slurper支持將數(shù)據(jù)從HDFS移動(dòng)到本地目錄,我們需要做的就是翻轉(zhuǎn)源目錄和目標(biāo)目錄,如Slurper配置文件以下所示:

你會(huì)注意到,HDFS中不僅有源目錄,而且還有工作,完成和錯(cuò)誤目錄。這是因?yàn)樾枰軌蛟谀夸浿g自動(dòng)移動(dòng)文件,而不會(huì)產(chǎn)生跨文件系統(tǒng)復(fù)制的昂貴開銷。

總結(jié)

此時(shí),你可能想知道如何觸發(fā)Slurper來復(fù)制剛剛使用MapReduce作業(yè)編寫的目錄。當(dāng)MapReduce作業(yè)成功完成時(shí),它會(huì)在作業(yè)輸出目錄中創(chuàng)建一個(gè)名為_SUCCESS的文件。這似乎是啟動(dòng)輸出進(jìn)程將該內(nèi)容復(fù)制到本地文件系統(tǒng)的完美觸發(fā)器。事實(shí)證明,Oozie有一種機(jī)制可以在檢測到這些Hadoop文件“成功”時(shí)觸發(fā)工作流程,但這里的挑戰(zhàn)是Oozie執(zhí)行的任何工作都是在MapReduce中執(zhí)行的,所以它不能用于執(zhí)行直接轉(zhuǎn)移??梢跃帉懽约旱哪_本,輪詢HDFS以查找已完成的目錄,然后觸發(fā)文件復(fù)制過程。如果源文件需要保持不變,那么文件復(fù)制過程可以是Slurper或簡單的hadoop fs -get命令。

當(dāng)前題目:自動(dòng)化HDFS數(shù)據(jù)復(fù)制機(jī)制的簡單用法
標(biāo)題來源:http://www.muchs.cn/article32/dcddpc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、定制網(wǎng)站、電子商務(wù)、面包屑導(dǎo)航、ChatGPT虛擬主機(jī)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化