上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景-創(chuàng)新互聯(lián)

上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景

創(chuàng)新互聯(lián)公司專注于確山網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供確山營銷型網(wǎng)站建設(shè),確山網(wǎng)站制作、確山網(wǎng)頁設(shè)計、確山網(wǎng)站官網(wǎng)定制、微信平臺小程序開發(fā)服務(wù),打造確山網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供確山網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

在過去的一年里DataPipeline經(jīng)歷了幾次產(chǎn)品迭代。就最新的2.6版本而言,你知道都有哪些使用場景嗎?接下來將分為上下篇為大家一 一解讀,希望這些場景中能出現(xiàn)你關(guān)心的那一款。

場景一:應(yīng)對生產(chǎn)數(shù)據(jù)結(jié)構(gòu)的頻繁變更場景

  1. 場景說明

在同步生產(chǎn)數(shù)據(jù)時,因為業(yè)務(wù)關(guān)系,源端經(jīng)常會有刪除表,增減字段情況。希望在該情況下任務(wù)可以繼續(xù)同步。并且當(dāng)源端增減字段時,目的地可以根據(jù)設(shè)置選擇是否同源端一起增減字段。

  1. 場景適用說明

源/目的地:關(guān)系型數(shù)據(jù)庫

讀取模式:不限制

  1. 操作步驟
  • 不限制DataPipeline版本

  • 在DataPipeline的任務(wù)設(shè)置,數(shù)據(jù)目的地設(shè)置下的高級選項下有【數(shù)據(jù)源變化設(shè)置】選項,可根據(jù)提示自行選擇

上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景

場景二:數(shù)據(jù)任務(wù)結(jié)束后調(diào)用Jenkins任務(wù)

  1. 場景說明

數(shù)據(jù)任務(wù)同步結(jié)束,立即啟動已定義的Jenkins任務(wù)。保證執(zhí)行的順序性,以及依賴性。

  1. 場景適用說明

源/目的地:傳統(tǒng)性數(shù)據(jù)庫(其它需要腳本)

讀取模式:批量全量或增量識別字段

  1. 操作步驟
  • 在DataPipeline任務(wù)流中創(chuàng)建任務(wù)流

  • 創(chuàng)建定時數(shù)據(jù)同步任務(wù)

  • 添加【遠程命令執(zhí)行】,添加服務(wù)器IP,編寫python腳本并放置在服務(wù)器指定目錄

詳細操作細節(jié)請與DataPipeline人員溝通

上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景

場景三:生產(chǎn)數(shù)據(jù)同步給測試使用

  1. 場景說明

MySQL->MySQL實時同步,在同步時,可能測試組想要對任務(wù)中的幾張表目的地進行測試,在測試過程中,目的地會有INSERT/UPDATE/DELETE操作。希望在測試前,能以自動化方式執(zhí)行腳本暫停某幾張表的同步。測試結(jié)束后以自動化方式執(zhí)行腳本重新同步這幾張表,并且目的地數(shù)據(jù)需要與線上數(shù)據(jù)保持一致(即測試所產(chǎn)生的臟數(shù)據(jù)需要被全部清理掉)。

  1. 場景適用說明

源/目的地:關(guān)系型數(shù)據(jù)庫目的地

讀取模式:不限制(全量/增量識別字段模式可能需要開啟【每次定時執(zhí)行批量同步前,允許清除目標(biāo)表數(shù)據(jù)】功能)

  1. 操作步驟
  • 要求DataPipeline版本>=2.6.0

  • 在對目的地表進行測試前,執(zhí)行DataPipeline所提供的腳本

  • 目的地結(jié)束測試后,再執(zhí)行腳本添加測試表

  • 啟動腳本,對測試的幾張表進行重新同步,保證測試后的數(shù)據(jù)可以和線上數(shù)據(jù)繼續(xù)保持一致

  • 參考DataPipeline swagger接口列表,目前已有腳本模板可供參考

場景四:Hive->GP列存儲同步速率提高方案

  1. 場景說明

Hive->GP,如果GP目的地表為手動創(chuàng)建的列存儲表,那么在DataPipeline上同步時速率會非常慢。這是因為GP列存儲本身存在的限制。而目的地若為DataPipeline創(chuàng)建的行表,再通過腳本將行表轉(zhuǎn)換為列表,則效率提高幾十倍。

  1. 場景適用說明

源/目的地:Hive源/GP目的地

讀取模式:增量/全量

  1. 操作步驟
  • 目的地表為DataPipeline自動創(chuàng)建的行表

  • 編寫腳本將行表轉(zhuǎn)換為列表

  • 數(shù)據(jù)任務(wù)同步完成后,通過DataPipeline任務(wù)流調(diào)用行轉(zhuǎn)列腳本

  • 再將列表數(shù)據(jù)提供給下游使用

場景五:對數(shù)據(jù)進行加密脫敏處理場景

  1. 場景說明

因為涉及用戶隱私或其它安全原因,需要對數(shù)據(jù)部分字段進行脫敏或加密處理。通過DataPipeline的高級清洗功能可以完全滿足此類場景。

  1. 場景適用說明

源/目的地:不限制

讀取模式:不限制

  1. 操作步驟
  • 不限制DataPipeline版本

  • 正常配置任務(wù)即可,只需開啟高級清洗功能

  • 將已寫好的加密代碼或脫敏代碼打成jar包,上傳到服務(wù)器執(zhí)行目錄下,直接調(diào)用即可

  • 高級清洗代碼可聯(lián)系DataPipeline提供模板

注意事項:所寫的jar包需要分別上傳webservice、sink、manager所在容器的服務(wù)器的/root/datapipeline/code_engine_lib(一般默認)目錄。

場景六:通過錯誤隊列,明確上下游數(shù)據(jù)問題責(zé)任及原因

  1. 場景說明

作為數(shù)據(jù)部門,需要接收上游數(shù)據(jù),并根據(jù)下游部門需求將數(shù)據(jù)傳輸給對應(yīng)部門。因此當(dāng)存在臟數(shù)據(jù)或者數(shù)據(jù)問題時,有時很難定位問題原因,劃分責(zé)任。

并且大多時候都是將臟數(shù)據(jù)直接丟棄,上游無法追蹤臟數(shù)據(jù)產(chǎn)生的原因。通過DP的高級清洗功能可自定義將不符合的數(shù)據(jù)放入錯誤隊列中。

  1. 場景適用說明

源/目的地:不限制

讀取模式:不限制

  1. 操作步驟
  • 不限制DataPipeline版本

  • 正常配置任務(wù)即可,只需開啟高級清洗功能

  • 在高級清洗中對對應(yīng)字段根據(jù)業(yè)務(wù)進行邏輯判斷,將不想要的數(shù)據(jù)扔到DP錯誤隊列中

高級清洗代碼可聯(lián)系DataPipeline提供模板

場景七:更便捷地支持目的地手動增加字段

  1. 場景說明

由Oracle->SQLServer,想在目的地手動添加一列TIMESTAMP類型,自動賦予默認值,記錄數(shù)據(jù)INSERT時間。

  1. 場景適用說明

源/目的地:關(guān)系型數(shù)據(jù)庫目的地

讀取模式:不限制

  1. 操作步驟
  • 要求DataPipeline版本>=2.6.0

  • 在DataPipeline映射頁面配置時,添加一列,字段名稱和目的地手動添加名稱一致(標(biāo)度類型任意給,無需一致)

  • 勾選該字段藍色按鈕(開啟表示同步該字段數(shù)據(jù),關(guān)閉表示該字段不傳任何數(shù)據(jù)),點擊保存。如下圖所示:

上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景

  • 手動在目的地添加該列

本篇將集中介紹以上7種場景,如果你在工作中遇到了同樣的問題,歡迎與我們交流。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁名稱:上篇丨數(shù)據(jù)融合平臺DataPipeline的應(yīng)用場景-創(chuàng)新互聯(lián)
瀏覽路徑:http://www.muchs.cn/article10/dsoigo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計、用戶體驗、關(guān)鍵詞優(yōu)化、微信公眾號、標(biāo)簽優(yōu)化、ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)