【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐-創(chuàng)新互聯(lián)

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

站在用戶的角度思考問題,與客戶深入溝通,找到隨縣網(wǎng)站設計與隨縣網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設計與互聯(lián)網(wǎng)技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站設計、成都網(wǎng)站建設、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、國際域名空間、雅安服務器托管、企業(yè)郵箱。業(yè)務覆蓋隨縣地區(qū)。

郝大為

近期,巨杉數(shù)據(jù)庫的技術總監(jiān)郝大為受邀在第七屆數(shù)據(jù)技術嘉年華中做了“銀行PB級別海量非結構化數(shù)據(jù)管理實踐”為主題的演講,分享了巨杉數(shù)據(jù)庫有關金融行業(yè)數(shù)據(jù)庫管理以及金融級數(shù)據(jù)庫技術與應用的一些實踐及思考。

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

數(shù)據(jù)爆炸:數(shù)據(jù)呈現(xiàn)急劇增長,對數(shù)據(jù)存儲的數(shù)據(jù)量,并發(fā)性和響應速度都提出了更高要求。以大型商業(yè)銀行為例,通常它們擁有成百上千個業(yè)務系統(tǒng)以及上億用戶的海量數(shù)據(jù),且數(shù)量呈現(xiàn)指數(shù)級增長,從TB級別增加到PB級別,未來很快就會增加至EB級別,這些都需要有效的管理以及實現(xiàn)實時訪問。

數(shù)據(jù)融合:不僅是金融行業(yè),在過去,各個業(yè)務的數(shù)據(jù)都是以孤島的形式獨立存在,而我們需要的是跨業(yè)務、跨業(yè)務系統(tǒng)的數(shù)據(jù)統(tǒng)一管理和維護,甚至需要統(tǒng)一架構支撐下的數(shù)據(jù)溝通交流。打破數(shù)據(jù)孤島就成為金融行業(yè)的切實需求。

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

非結構化數(shù)據(jù):非結構數(shù)據(jù)在金融行業(yè)數(shù)據(jù)量上的占比逐漸占絕對優(yōu)勢的一種數(shù)據(jù)存在的形式。圖像、圖片、語音、有格式的文檔都是非結構化數(shù)據(jù),非結構化數(shù)據(jù)量每年增長80%左右。數(shù)據(jù)量的快速增加,再加上對銀行業(yè)兩地三中心數(shù)據(jù)安全的要求,對非結構化數(shù)據(jù)的存儲和管理的要求就提高了。這也是金融業(yè)的行業(yè)需求。

隨著銀行遠程開戶、柜面無紙化、雙錄、會計檔案管理等系統(tǒng)的建立和升級,影像系統(tǒng)除了滿足商業(yè)銀行在線業(yè)務系統(tǒng)不斷提升的訪問性能需求外,還需要提供作為在線系統(tǒng)的高可用、災備甚至“雙活”能力,以保證系統(tǒng)數(shù)據(jù)絕對安全。

金融級數(shù)據(jù)庫核心能力

面對金融行業(yè)的新需求,新一代金融級數(shù)據(jù)庫需要在分布式架構、非結構化數(shù)據(jù)管理、多模式數(shù)據(jù)處理、標準化數(shù)據(jù)訪問、數(shù)據(jù)可靠性、與混合負載等幾個角度對傳統(tǒng)數(shù)據(jù)庫架構進行重新定義。

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

1)分布式架構

由于傳統(tǒng)數(shù)據(jù)庫的單點架構無法滿足新型金融科技應用對數(shù)據(jù)量與并發(fā)能力的需求,新一代金融級數(shù)據(jù)庫必須采用分布式架構來應對該類挑戰(zhàn)。分布式架構,將海量數(shù)據(jù)均勻存儲在多臺物理設備中,以避免單一設備所造成的瓶頸。同時,分布式數(shù)據(jù)庫的靈活擴展能力,為金融業(yè)務增長提供了彈性的容量與性能支持,在大規(guī)模數(shù)據(jù)應用中具有明顯的技術優(yōu)勢。

我們以巨杉分布式架構為例,無論是數(shù)據(jù)還是文件系統(tǒng)等元數(shù)據(jù)都要進行分布式存儲,同時元數(shù)據(jù)的管理也應該是分布式、高可用、沒有單點故障的。分布式架構必須具備彈性拓展和性能線性增長,同事分布式架構可以有效降低TCO、總體應用成本。分布式架構有很好的管理能力,可以降低開發(fā)運維的成本。

2)多模式數(shù)據(jù)管理---非結構化數(shù)據(jù)管理

如今,在金融業(yè)務“互聯(lián)網(wǎng)化”和“零售化”的趨勢下,金融機構開始向用戶提供更多個性化、定制化的產(chǎn)品與服務。特別是非結構化數(shù)據(jù),增長最為迅猛。

通常來說,結構化數(shù)據(jù)特指表單類型的數(shù)據(jù)存儲結構,典型應用包括銀行核心交易等傳統(tǒng)業(yè)務;而半結構化數(shù)據(jù)則在用戶畫像、物聯(lián)網(wǎng)設備日志采集、應用點擊流分析等場景中得到大規(guī)模使用;非結構化數(shù)據(jù)則對應著海量的的圖片、視頻、和文檔處理等業(yè)務,在金融科技的發(fā)展下增長迅速。

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

為了實現(xiàn)金融業(yè)務數(shù)據(jù)的統(tǒng)一管理和數(shù)據(jù)融合,新型數(shù)據(jù)庫需要具備多模式(Multi-Model)數(shù)據(jù)管理和存儲的能力,以滿足應用程序對于結構化、半結構化、非結構化數(shù)據(jù)的管理需求。

多模式數(shù)據(jù)管理能力,使得金融級數(shù)據(jù)庫能夠進行跨部門、跨業(yè)務的數(shù)據(jù)統(tǒng)一存儲與管理,實現(xiàn)多業(yè)務數(shù)據(jù)融合,支撐多樣化的金融服務。

3)標準數(shù)據(jù)訪問與混合負載

根據(jù)Gartner的最新定義,混合負載(HTAP Hybrid Transactional/Analytical Processing)在保留原有在線交易功能的同時,也強調了數(shù)據(jù)庫原生計算分析的能力。支持混合負載的數(shù)據(jù)庫能夠避免在傳統(tǒng)架構中,在線與離線數(shù)據(jù)庫之間大量的數(shù)據(jù)交互,同時也能夠針對最新的業(yè)務數(shù)據(jù)進行實時統(tǒng)計分析。

【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐

為了避免在線實時讀寫與批處理作業(yè)之間的資源干擾,混合負載型數(shù)據(jù)庫通常使用讀寫分離或內存處理技術實現(xiàn)。一般來說,分布式數(shù)據(jù)庫的多副本架構天然支持讀寫分離技術,而基于傳統(tǒng)架構的數(shù)據(jù)庫往往采用內存處理技術進行實現(xiàn)。

4)數(shù)據(jù)安全

伴隨著在企業(yè)內部價值的不斷提升,數(shù)據(jù)已經(jīng)成為了金融企業(yè)的生命線與核心資產(chǎn)。作為承載著企業(yè)關鍵數(shù)據(jù)的數(shù)據(jù)庫,其安全性、可靠性、穩(wěn)定性一直是金融級數(shù)據(jù)庫的核心價值。

數(shù)據(jù)安全領域重要的一個概念是容災能力,銀監(jiān)會就要求銀行業(yè)要符合兩地三中心的要求。這其實是一個數(shù)據(jù)多副本的思想,任何一個副本丟失我們還有其他副本可以支撐數(shù)據(jù)管理的需求,數(shù)據(jù)服務的需求。這對于金融企業(yè)顯得尤其重要。

金融級數(shù)據(jù)庫應用案例

1)銀行業(yè)分布式影像平臺

銀行業(yè)影像平臺案例,是在某大型股份制銀行實施的,該平臺底層基于巨杉數(shù)據(jù)庫,目前已經(jīng)投入生產(chǎn)。

巨杉數(shù)據(jù)庫適合于結構化、非結構化、半結構化數(shù)據(jù)存儲。在應用層面提供對外的影像文件管理服務能力,有兩臺或者更多臺具備負載均衡和高可用能力的應用服務器,服務器上對接的是銀行內部業(yè)務系統(tǒng),當需要查非結構化數(shù)據(jù)時就可以接入影像管理平臺,巨杉數(shù)據(jù)庫支撐的是PB級的數(shù)據(jù)存儲,同時支持了高可用。

此外,巨杉數(shù)據(jù)庫支持多索引,毫秒級別實時數(shù)據(jù)訪問,這么大數(shù)據(jù)量下依然提供這么大的訪問性能,總體應用成本跟過去影像平臺對比可以降低三分之一,這是整個巨杉數(shù)據(jù)庫分布式的架構決定的。

2)證券超高并發(fā)數(shù)據(jù)訪問

證券交易主要特點是頻度高,每天可能有上億條交易數(shù)據(jù)。證券交易場景一般都是結構化數(shù)據(jù),大量結構化數(shù)據(jù)進入系統(tǒng)提高高并發(fā)的結構能力。

這個系統(tǒng)可以幫助用戶查詢證券交易的所有歷史交易明細,并且查詢的返回速度依然很高,在海量數(shù)據(jù)情況下可能做到百毫秒以內的查詢范圍。

實現(xiàn)結果:

·         平均每日超過2億條記錄寫入

·         高峰時段,同時有超過百億級別的數(shù)據(jù)需要被檢索、調用

·         系統(tǒng)保存3年內所有交易和持有數(shù)據(jù)

·         峰值并發(fā)量超過10000

·         高峰時段,查詢返回時間小于100ms

3)銀行海量數(shù)據(jù)管理

關于銀行海量數(shù)據(jù)的管理平臺,實際上是銀行多業(yè)務系統(tǒng)的結構化數(shù)據(jù)組成一個統(tǒng)一的查詢平臺,用戶可以通過這個平臺去查詢業(yè)務,而不再需要查詢原有業(yè)務系統(tǒng),這樣原有業(yè)務系統(tǒng)數(shù)據(jù)庫的負載就降下來了。原有業(yè)務系統(tǒng)數(shù)據(jù)庫只保存需要在線交易的那部分數(shù)據(jù),其他的數(shù)據(jù)全部儲存在巨杉數(shù)據(jù)庫。

SequoiaDB利用其橫向擴展、支持標準SQL以及雙引擎的機制,能夠在存儲海量歷史數(shù)據(jù)的同時對外提供在線查詢與分析能力,這就使得銀行能將傳統(tǒng)的離線數(shù)據(jù)做到近線化,將冷數(shù)據(jù)有效地使用起來。

巨杉數(shù)據(jù)庫的多家銀行客戶使用SequoiaDB提供高并發(fā)的數(shù)據(jù)查詢和訪問功能,使銀行客戶能夠在柜臺、網(wǎng)銀、手機銀行上隨時隨地查詢開戶以來所有的交易歷史。同時,該平臺可以提供司法查詢的能力,使銀行IT部門不需要為了復雜多變的查詢請求,在歷史帶庫與數(shù)據(jù)庫之間疲于奔命。

4)其他案例

在政府行業(yè),巨杉數(shù)據(jù)庫可以對電子證件進行集中存儲和查詢,可以幫助行政服務大廳或者其他政府部門查詢信息,提升工作的效率。

在交通領域,大量攝像頭實時采集的圖片和視頻數(shù)據(jù)需要存儲,并且現(xiàn)在還增加了實時處理分析套牌違規(guī)等行為,這背后也需要強大的數(shù)據(jù)存儲管理查詢或者存儲引擎支撐海量的數(shù)據(jù),巨杉數(shù)據(jù)庫能夠有效滿足這種需求。


網(wǎng)頁名稱:【演講實錄】銀行PB級別海量非結構化數(shù)據(jù)管理實踐-創(chuàng)新互聯(lián)
文章起源:http://www.muchs.cn/article28/dpjjcp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供Google移動網(wǎng)站建設、網(wǎng)站制作、網(wǎng)站改版動態(tài)網(wǎng)站、網(wǎng)站內鏈

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

h5響應式網(wǎng)站建設