數(shù)據(jù)庫中數(shù)倉是什么

這篇文章主要講解了“數(shù)據(jù)庫中數(shù)倉是什么”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“數(shù)據(jù)庫中數(shù)倉是什么”吧!

成都創(chuàng)新互聯(lián)專注于企業(yè)全網(wǎng)營銷推廣、網(wǎng)站重做改版、新野網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、成都h5網(wǎng)站建設(shè)成都商城網(wǎng)站開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為新野等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

數(shù)據(jù)庫中數(shù)倉是什么

1. 什么是數(shù)據(jù)倉庫

數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DWDWH。數(shù)據(jù)倉庫,是為企業(yè)所有級(jí)別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它出于分析性報(bào)告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。

2. 數(shù)據(jù)倉庫能干什么?

  1. 年度銷售目標(biāo)的指定,需要根據(jù)以往的歷史報(bào)表進(jìn)行決策,不能拍腦袋。

  2. 如何優(yōu)化業(yè)務(wù)流程

例如:一個(gè)電商網(wǎng)站訂單的完成包括:瀏覽、下單、支付、物流,其中物流環(huán)節(jié)可能和中通、申通、韻達(dá)等快遞公司合作??爝f公司每派送一個(gè)訂單,都會(huì)有訂單派送的確認(rèn)時(shí)間,可以根據(jù)訂單派送時(shí)間來分析哪個(gè)快遞公司比較快捷高效,從而選擇與哪些快遞公司合作,剔除哪些快遞公司,增加用戶友好型。

  1. 簡而言之就是匯總八方數(shù)據(jù),清洗后提供對(duì)外服務(wù)。

3. 數(shù)據(jù)倉庫的特點(diǎn)

1. 數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的

與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對(duì)應(yīng),數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的。什么是主題呢?首先,主題是一個(gè)抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻劃各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級(jí)別。說白了就個(gè)寫作文一樣,寫什么你總的有個(gè)主題思想啊!

2. 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的

數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散的數(shù)據(jù)庫數(shù)據(jù)抽取來的。操作型數(shù)據(jù)與分析型數(shù)據(jù)之間差別甚大。

  1. 數(shù)據(jù)倉庫的每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在原有的各分散數(shù)據(jù)庫中有許多重復(fù)不一致的地方,且來源于不同的聯(lián)機(jī)系統(tǒng)的數(shù)據(jù)都和不同的應(yīng)用邏輯捆綁在一起;

  2. 數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到。因此在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,這一步是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵最復(fù)雜的一步,所要完成的工作有:

    1、要統(tǒng)一解決源數(shù)據(jù)中所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等。
    2、進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫抽取數(shù)據(jù)時(shí)生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成的,即進(jìn)入數(shù)據(jù)倉庫以后進(jìn)行綜合生成的。
    3、大部分情況下一般數(shù)倉的建立是由大數(shù)據(jù)部門負(fù)責(zé)構(gòu)建,而別的分析業(yè)務(wù)部門是無權(quán)直接用線上的table的。

3. 數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的

數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作。數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當(dāng)長的時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫快照的集合,以及基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。數(shù)據(jù)庫中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過集成輸入到數(shù)據(jù)倉庫中,一旦數(shù)據(jù)倉庫存放的數(shù)據(jù)已經(jīng)超過數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)期限,這些數(shù)據(jù)將從當(dāng)前的數(shù)據(jù)倉庫中刪去。因?yàn)閿?shù)據(jù)倉庫只進(jìn)行數(shù)據(jù)查詢操作,所以數(shù)據(jù)倉庫管理系統(tǒng)相比數(shù)據(jù)庫管理系統(tǒng)而言要簡單得多。

數(shù)據(jù)庫管理系統(tǒng)中許多技術(shù)難點(diǎn),如完整性保護(hù)、并發(fā)控制等等,在數(shù)據(jù)倉庫的管理中幾乎可以省去。但是由于數(shù)據(jù)倉庫的查詢數(shù)據(jù)量往往很大,所以就對(duì)數(shù)據(jù)查詢提出了更高的要求,它要求采用各種復(fù)雜的索引技術(shù);同時(shí)由于數(shù)據(jù)倉庫面向的是商業(yè)企業(yè)的高層管理者,他們會(huì)對(duì)數(shù)據(jù)查詢的界面友好性數(shù)據(jù)表示提出更高的要求。

4. 數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變化的

數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對(duì)應(yīng)用來說的,也就是說,數(shù)據(jù)倉庫的用戶進(jìn)行分析處理時(shí)是不進(jìn)行數(shù)據(jù)更新操作的。但并不是說,在從數(shù)據(jù)集成輸入數(shù)據(jù)倉庫開始到最終被刪除的整個(gè)數(shù)據(jù)生存周期中,所有的數(shù)據(jù)倉庫數(shù)據(jù)都是永遠(yuǎn)不變的。

數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間的變化而不斷變化的,這是數(shù)據(jù)倉庫數(shù)據(jù)的第四個(gè)特征。這一特征表現(xiàn)在以下3方面:

1、數(shù)據(jù)倉庫隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉OLTP數(shù)據(jù)庫中變化的數(shù)據(jù),追加到數(shù)據(jù)倉庫中去,也就是要不斷地生成OLTP數(shù)據(jù)庫的快照,經(jīng)統(tǒng)一集成后增加到數(shù)據(jù)倉庫中去;但對(duì)于確實(shí)不再變化的數(shù)據(jù)庫快照,如果捕捉到新的變化數(shù)據(jù),則只生成一個(gè)新的數(shù)據(jù)庫快照增加進(jìn)去,而不會(huì)對(duì)原有的數(shù)據(jù)庫快照進(jìn)行修改。形象來說就是對(duì)數(shù)據(jù)進(jìn)每日全量數(shù)據(jù)的收集。

2、數(shù)據(jù)倉庫隨時(shí)間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫的數(shù)據(jù)也有存儲(chǔ)期限,一旦超過了這一期限,過期數(shù)據(jù)就要被刪除。只是數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限要遠(yuǎn)遠(yuǎn)長于操作型環(huán)境中的數(shù)據(jù)時(shí)限。在操作型環(huán)境中一般只保存有60到90天的數(shù)據(jù),而在數(shù)據(jù)倉庫中則需要保存較長時(shí)限的數(shù)據(jù)(如5~10年),以適應(yīng)DSS(Decision Support System)進(jìn)行趨勢分析的要求。

3、數(shù)據(jù)倉庫中包含有大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)中很多跟時(shí)間有關(guān),如數(shù)據(jù)經(jīng)常按照時(shí)間段進(jìn)行綜合,或隔一定的時(shí)間片進(jìn)行抽樣等等。這些數(shù)據(jù)要隨著時(shí)間的變化不斷地進(jìn)行重新綜合。因此,數(shù)據(jù)倉庫的數(shù)據(jù)特征都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期。

4. 數(shù)據(jù)倉庫發(fā)展歷程

數(shù)據(jù)倉庫的發(fā)展大致經(jīng)歷了這樣的三個(gè)過程:

  1. 簡單報(bào)表階段:

這個(gè)階段,系統(tǒng)的主要目標(biāo)是解決一些日常的工作中業(yè)務(wù)人員需要的報(bào)表,以及生成一些簡單的能夠幫助領(lǐng)導(dǎo)進(jìn)行決策所需要的匯總數(shù)據(jù)。這個(gè)階段的大部分表現(xiàn)形式為數(shù)據(jù)庫和前端報(bào)表工具。

  1. 數(shù)據(jù)集市階段:

這個(gè)階段,主要是根據(jù)某個(gè)業(yè)務(wù)部門的需要,進(jìn)行一定的數(shù)據(jù)的采集,整理,按照業(yè)務(wù)人員的需要,進(jìn)行多維報(bào)表的展現(xiàn),能夠提供對(duì)特定業(yè)務(wù)指導(dǎo)的數(shù)據(jù),并且能夠提供特定的領(lǐng)導(dǎo)決策數(shù)據(jù)。

  1. 數(shù)據(jù)倉庫階段:

這個(gè)階段,主要是按照一定的數(shù)據(jù)模型,對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行采集,整理,并且能夠按照各個(gè)業(yè)務(wù)部門的需要,提供跨部門的,完全一致的業(yè)務(wù)報(bào)表數(shù)據(jù),能夠通過數(shù)據(jù)倉庫生成對(duì)對(duì)業(yè)務(wù)具有指導(dǎo)性的數(shù)據(jù),同時(shí),為領(lǐng)導(dǎo)決策提供全面的數(shù)據(jù)支持。

通過數(shù)據(jù)倉庫建設(shè)的發(fā)展階段,我們能夠看出,數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)集市的建設(shè)的重要區(qū)別就在于數(shù)據(jù)模型的支持。因此數(shù)據(jù)模型的建設(shè)對(duì)于我們數(shù)據(jù)倉庫的建設(shè)有著決定性的意義。

5. 數(shù)據(jù)庫 VS 數(shù)據(jù)倉庫

了解數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別之前,首先掌握三個(gè)概念。數(shù)據(jù)庫軟件數(shù)據(jù)庫、數(shù)據(jù)倉庫。
數(shù)據(jù)庫軟件:是一種軟件,可以看得見,可以操作。用來實(shí)現(xiàn)數(shù)據(jù)庫邏輯功能。屬于物理層。Oracle、MySQL、redis、MongoDB、Neo4j、JanusGraph等等。還有若干的可視化界面Navicat、dbeaver、Hue等。

數(shù)據(jù)庫:是一種邏輯概念,用來存放數(shù)據(jù)的倉庫。通過數(shù)據(jù)庫軟件來實(shí)現(xiàn)。數(shù)據(jù)庫由很多表組成,表是二維的,一張表里可以有很多字段。字段一字排開,對(duì)應(yīng)的數(shù)據(jù)就一行一行寫入表中。數(shù)據(jù)庫的表,在于能夠用二維表現(xiàn)多維關(guān)系。目前市面上流行的數(shù)據(jù)庫都是二維數(shù)據(jù)庫。如:Oracle、DB2、MySQL等。

數(shù)據(jù)倉庫:是數(shù)據(jù)庫概念的升級(jí)。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都是通過數(shù)據(jù)庫軟件實(shí)現(xiàn)的存放數(shù)據(jù)的地方,只不過從數(shù)據(jù)量來說,數(shù)據(jù)倉庫要比數(shù)據(jù)庫更龐大得多。數(shù)據(jù)倉庫主要用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,輔助領(lǐng)導(dǎo)做決策。

在IT的架構(gòu)體系中,數(shù)據(jù)庫是必須存在的。必須要有地方存放數(shù)據(jù)。比如現(xiàn)在的網(wǎng)購,淘寶,京東等等。物品的存貨數(shù)量,貨品的價(jià)格,用戶的賬戶余額之類的。這些數(shù)據(jù)都是存放在后臺(tái)數(shù)據(jù)庫中?;蛘咦詈唵卫斫猓覀儸F(xiàn)在微博,QQ等賬戶的用戶名和密碼。在后臺(tái)數(shù)據(jù)庫必然有一張user表,字段起碼有兩個(gè),即用戶名和密碼,然后我們的數(shù)據(jù)就一行一行的存在表上面。當(dāng)我們登錄的時(shí)候,我們填寫了用戶名和密碼,這些數(shù)據(jù)就會(huì)被傳回到后臺(tái)去,去跟表上面的數(shù)據(jù)匹配,匹配成功了,你就能登錄了。匹配不成功就會(huì)報(bào)錯(cuò)說密碼錯(cuò)誤或者沒有此用戶名等。這個(gè)就是數(shù)據(jù)庫,數(shù)據(jù)庫在生產(chǎn)環(huán)境就是用來干活的。凡是跟業(yè)務(wù)應(yīng)用掛鉤的,我們都使用數(shù)據(jù)庫。

數(shù)據(jù)倉庫則是商業(yè)智能(Business Intelligence,簡稱:BI)下的其中一種技術(shù)。由于數(shù)據(jù)庫是跟業(yè)務(wù)應(yīng)用掛鉤的,所以一個(gè)數(shù)據(jù)庫不可能裝下一家公司的所有數(shù)據(jù)。數(shù)據(jù)庫的表設(shè)計(jì)往往是針對(duì)某一個(gè)應(yīng)用進(jìn)行設(shè)計(jì)的。比如剛才那個(gè)登錄的功能,這張user表上就只有這兩個(gè)字段,沒有別的字段了。但是這張表符合應(yīng)用,沒有問題。但是這張表不符合分析。比如我想知道在哪個(gè)時(shí)間段,用戶登錄的量最多?哪個(gè)用戶一年購物最多?諸如此類的指標(biāo)。那就要重新設(shè)計(jì)數(shù)據(jù)庫的表結(jié)構(gòu)了。對(duì)于數(shù)據(jù)分析和數(shù)據(jù)挖掘,我們引入數(shù)據(jù)倉庫概念。數(shù)據(jù)倉庫的表結(jié)構(gòu)是依照分析需求分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)的。

5. OLTP跟OLAP

數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實(shí)際講的是OLTPOLAP的區(qū)別。

操作型處理:叫聯(lián)機(jī)事務(wù)處理OLTP(On-Line Transaction Processing),也可以稱面向交易的處理系統(tǒng),它是針對(duì)具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常對(duì)少數(shù)記錄進(jìn)行查詢、修改。用戶較為關(guān)心操作的響應(yīng)時(shí)間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理的主要手段,主要用于操作型處理。

分析型處理:叫聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)一般針對(duì)某些主題的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策,ETL。

操作型處理(OLTP)分析型處理(OLAP)
細(xì)節(jié)的綜合的或提煉的
實(shí)體——關(guān)系(E-R)模型星型模型或雪花模型
存取瞬間數(shù)據(jù)存儲(chǔ)歷史數(shù)據(jù),不包含最近的數(shù)據(jù)
可更新的只讀、只追加
一次操作一個(gè)單元一次操作一個(gè)集合
性能要求高,響應(yīng)時(shí)間短性能要求寬松
面向事務(wù)面向分析
一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大
支持日常操作支持決策需求
數(shù)據(jù)量小數(shù)據(jù)量大
客戶訂單、庫存水平和銀行賬戶查詢等客戶收益分析、市場細(xì)分等

6. 數(shù)據(jù)倉庫架構(gòu)分層(重點(diǎn))

1. 數(shù)據(jù)倉庫架構(gòu)

數(shù)據(jù)倉庫標(biāo)準(zhǔn)上可以分為四層:ODS(臨時(shí)存儲(chǔ)層)、PDW(數(shù)據(jù)倉庫層)、DM(數(shù)據(jù)集市層)、APP(應(yīng)用層)。
數(shù)據(jù)庫中數(shù)倉是什么
各個(gè)系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS中,對(duì)ODS數(shù)據(jù)進(jìn)行面向主題域建模形成DW(數(shù)據(jù)倉庫),DM是針對(duì)某一個(gè)業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報(bào)表。

  1. 臨時(shí)存儲(chǔ)數(shù)據(jù)運(yùn)營層:ODS(Operational Data Store)
    ODS層是這樣一種數(shù)據(jù)存儲(chǔ)系統(tǒng),它將來自不同數(shù)據(jù)源的數(shù)據(jù)(各種操作型數(shù)據(jù)庫、外部數(shù)據(jù)源等)通過ETL(Extract-Transform-Load)過程匯聚整合成面向主題的、集成的、企業(yè)全局的、一致的數(shù)據(jù)集合(主要是最新的或者最近的細(xì)節(jié)數(shù)據(jù)以及可能需要的匯總數(shù)據(jù))。從數(shù)據(jù)粒度上來說ODS層的數(shù)據(jù)粒度是最細(xì)的。ODS層的表通常包括兩類,一個(gè)用于存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù),一個(gè)用于存儲(chǔ)處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個(gè)月后需要清除,以節(jié)省空間。但不同的項(xiàng)目要區(qū)別對(duì)待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長的時(shí)間,甚至全量保存。

  2. 數(shù)據(jù)倉庫層:DW(Data Warehouse)
    為數(shù)據(jù)倉庫層,DW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在DW層會(huì)保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。

DW : Data Warehouse 翻譯成數(shù)據(jù)倉庫,DW由下到上分為 DWDDWB、DWS
DWD:Warehouse Detail 細(xì)節(jié)數(shù)據(jù)層,有的也稱為 ODS層,是業(yè)務(wù)層與數(shù)據(jù)倉庫的隔離層
DWB:Data Warehouse Base 基礎(chǔ)數(shù)據(jù)層,存儲(chǔ)的是客觀數(shù)據(jù),一般用作中間層,可以認(rèn)為是大量指標(biāo)的數(shù)據(jù)層。
DWS:Data Warehouse Service 服務(wù)數(shù)據(jù)層,基于DWB上的基礎(chǔ)數(shù)據(jù),整合匯總成分析某一個(gè)主題域的服務(wù)數(shù)據(jù),一般是寬表。

  1. 數(shù)據(jù)集市層:DM(Data Mart)
    為數(shù)據(jù)集市層,這層數(shù)據(jù)是面向主題來組織數(shù)據(jù)的,通常是星形雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說,這層的數(shù)據(jù)是輕度匯總級(jí)的數(shù)據(jù),已經(jīng)不存在明細(xì)數(shù)據(jù)了。從數(shù)據(jù)的時(shí)間跨度來說,通常是DW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來說,用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來說,仍然覆蓋了所有業(yè)務(wù)數(shù)據(jù)。

  2. 應(yīng)用層:Application層
    這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說是高度匯總的數(shù)據(jù)。從數(shù)據(jù)的廣度來說,則并不一定會(huì)覆蓋所有業(yè)務(wù)數(shù)據(jù),而是DM層數(shù)據(jù)的一個(gè)真子集,從某種意義上來說是DM層數(shù)據(jù)的一個(gè)重復(fù)。從極端情況來說,可以為每一張報(bào)表在APP層構(gòu)建一個(gè)模型來支持,達(dá)到以空間換時(shí)間的目的數(shù)據(jù)倉庫的標(biāo)準(zhǔn)分層只是一個(gè)建議性質(zhì)的標(biāo)準(zhǔn),實(shí)際實(shí)施時(shí)需要根據(jù)實(shí)際情況確定數(shù)據(jù)倉庫的分層,不同類型的數(shù)據(jù)也可能采取不同的分層方法。

2. 為什么要對(duì)數(shù)據(jù)倉庫分層?
  1. 用空間換時(shí)間,通過大量的預(yù)處理來提升應(yīng)用系統(tǒng)的用戶體驗(yàn)(效率),因此數(shù)據(jù)倉庫會(huì)存在大量冗余的數(shù)據(jù)。

  2. 解耦,如果不分層的話,如果源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化將會(huì)影響整個(gè)數(shù)據(jù)清洗過程,工作量巨大。

  3. 簡化,通過數(shù)據(jù)分層管理可以簡化數(shù)據(jù)清洗的過程,因?yàn)榘言瓉硪徊降墓ぷ鞣值搅硕鄠€(gè)步驟去完成,相當(dāng)于把一個(gè)復(fù)雜的工作拆成了多個(gè)簡單的工作,把一個(gè)大的黑盒變成了一個(gè)白盒,每一層的處理邏輯都相對(duì)簡單和容易理解,這樣我們比較容易保證每一個(gè)步驟的正確性,當(dāng)數(shù)據(jù)發(fā)生錯(cuò)誤的時(shí)候,往往我們只需要局部調(diào)整某個(gè)步驟即可。

7. 元數(shù)據(jù)介紹

當(dāng)需要了解某地企業(yè)及其提供的服務(wù)時(shí),電話黃頁的重要性就體現(xiàn)出來了。元數(shù)據(jù)(Metadata)類似于這樣的電話黃頁。

1. 元數(shù)據(jù)的定義

數(shù)據(jù)倉庫的元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉庫中數(shù)據(jù)的數(shù)據(jù)。它的作用類似于數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)字典,可以簡答理解為一本書的目錄,保存了邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息。廣義上講,在數(shù)據(jù)倉庫中,元數(shù)據(jù)描述了數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。

元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理器是企業(yè)級(jí)數(shù)據(jù)倉庫中的關(guān)鍵組件,貫穿數(shù)據(jù)倉庫構(gòu)建的整個(gè)過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護(hù)

  1. 構(gòu)建數(shù)據(jù)倉庫的主要步驟之一是ETL。這時(shí)元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系統(tǒng)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導(dǎo)入歷史記錄以及裝載周期等相關(guān)內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉庫管理員正是通過元數(shù)據(jù)高效地構(gòu)建數(shù)據(jù)倉庫。

  2. 用戶在使用數(shù)據(jù)倉庫時(shí),通過元數(shù)據(jù)訪問數(shù)據(jù),明確數(shù)據(jù)項(xiàng)的含義以及定制報(bào)表。

  3. 數(shù)據(jù)倉庫的規(guī)模及其復(fù)雜性離不開正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改變數(shù)據(jù)清洗方法,控制出錯(cuò)的查詢以及安排備份等。

元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)。

  • 技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。

  • 業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。

由上可見,元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個(gè)數(shù)據(jù)倉庫系統(tǒng)運(yùn)行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個(gè)松散的組件聯(lián)系起來,組成了一個(gè)有機(jī)的整體,如圖所示數(shù)據(jù)庫中數(shù)倉是什么

2. 元數(shù)據(jù)的存儲(chǔ)方式

元數(shù)據(jù)有兩種常見存儲(chǔ)方式:

  • 一種是以數(shù)據(jù)集為基礎(chǔ),每一個(gè)數(shù)據(jù)集有對(duì)應(yīng)的元數(shù)據(jù)文件,每一個(gè)元數(shù)據(jù)文件包含對(duì)應(yīng)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。第一種存儲(chǔ)方式的優(yōu)點(diǎn)是調(diào)用數(shù)據(jù)時(shí)相應(yīng)的元數(shù)據(jù)也作為一個(gè)獨(dú)立的文件被傳輸,相對(duì)數(shù)據(jù)庫有較強(qiáng)的獨(dú)立性,在對(duì)元數(shù)據(jù)進(jìn)行檢索時(shí)可以利用數(shù)據(jù)庫的功能實(shí)現(xiàn),也可以把元數(shù)據(jù)文件調(diào)到其他數(shù)據(jù)庫系統(tǒng)中操作;不足是如果每一數(shù)據(jù)集都對(duì)應(yīng)一個(gè)元數(shù)據(jù)文檔,在規(guī)模巨大的數(shù)據(jù)庫中則會(huì)有大量的元數(shù)據(jù)文件,管理不方便。

  • 一種存儲(chǔ)方式是以數(shù)據(jù)庫為基礎(chǔ),即元數(shù)據(jù)庫。其中元數(shù)據(jù)文件由若干項(xiàng)組成,每一項(xiàng)表示元數(shù)據(jù)的一個(gè)要素,每條記錄為數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。此種存儲(chǔ)方式下,元數(shù)據(jù)庫中只有一個(gè)元數(shù)據(jù)文件,管理比較方便,添加或刪除數(shù)據(jù)集,只要在該文件中添加或刪除相應(yīng)的記錄項(xiàng)即可。在獲取某數(shù)據(jù)集的元數(shù)據(jù)時(shí),因?yàn)閷?shí)際得到的只是關(guān)系表格數(shù)據(jù)的一條記錄,所以要求用戶系統(tǒng)可以接受這種特定形式的數(shù)據(jù)。因此推薦使用元數(shù)據(jù)庫的方式。

    元數(shù)據(jù)庫用于存儲(chǔ)元數(shù)據(jù),因此元數(shù)據(jù)庫最好選用主流的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。元數(shù)據(jù)庫還包含用于操作和查詢?cè)獢?shù)據(jù)的機(jī)制。建立元數(shù)據(jù)庫的主要好處是提供統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和業(yè)務(wù)規(guī)則,易于把企業(yè)內(nèi)部的多個(gè)數(shù)據(jù)集市有機(jī)地集成起來。目前,一些企業(yè)傾向建立多個(gè)數(shù)據(jù)集市,而不是一個(gè)集中的數(shù)據(jù)倉庫,這時(shí)可以考慮在建立數(shù)據(jù)倉庫(或數(shù)據(jù)集市)之前,先建立一個(gè)用于描述數(shù)據(jù)、服務(wù)應(yīng)用集成的元數(shù)據(jù)庫,做好數(shù)據(jù)倉庫實(shí)施的初期支持工作,對(duì)后續(xù)開發(fā)和維護(hù)有很大的幫助。元數(shù)據(jù)庫保證了數(shù)據(jù)倉庫數(shù)據(jù)的一致性和準(zhǔn)確性,為企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理提供基礎(chǔ)。

3. 元數(shù)據(jù)的作用

在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要作用如下。

  1. 描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中,幫助決策分析者對(duì)數(shù)據(jù)倉庫的內(nèi)容定位。

  2. 定義數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的方式,作為數(shù)據(jù)匯總、映射和清洗的指南。

  3. 記錄業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排。

  4. 記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。

  5. 評(píng)估數(shù)據(jù)質(zhì)量。

  6. 相當(dāng)于寫了一部數(shù)據(jù)用戶指南手冊(cè)

8. 星型模型和雪花模型

在多維分析的商業(yè)智能解決方案中,根據(jù)事實(shí)表維度表的關(guān)系,又可將常見的模型分為星型模型雪花型模型。在設(shè)計(jì)邏輯型數(shù)據(jù)的模型的時(shí)候,就應(yīng)考慮數(shù)據(jù)是按照星型模型還是雪花型模型進(jìn)行組織。

1. 星型模型

當(dāng)所有維表都直接連接到事實(shí)表上時(shí),整個(gè)圖解就像星星一樣,故將該模型稱為星型模型。
數(shù)據(jù)庫中數(shù)倉是什么
星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,如在地域維度表中,存在國家A 省B的城市C以及國家A省B的城市D兩條記錄,那么國家A和省B的信息分別存儲(chǔ)了兩次,即存在冗余。

2. 雪花模型

當(dāng)有一個(gè)或多個(gè)維表沒有直接連接到事實(shí)表上,而是通過其他維表連接到事實(shí)表上時(shí),其圖解就像多個(gè)雪花連接在一起,故稱雪花模型。雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的層次 區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。如圖所示,將地域維表又分解為國家,省份,城市等維表。它的優(yōu)點(diǎn)是:通過最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來改善查詢性能。雪花型結(jié)構(gòu)去除了數(shù)據(jù)冗余。數(shù)據(jù)庫中數(shù)倉是什么
星型模型因?yàn)閿?shù)據(jù)的冗余所以很多統(tǒng)計(jì)查詢不需要做外部的連接,因此一般情況下效率比雪花型模型要高。星型結(jié)構(gòu)不用考慮很多正規(guī)化的因素,設(shè)計(jì)與實(shí)現(xiàn)都比較簡單。雪花型模型由于去除了冗余,有些統(tǒng)計(jì)就需要通過表的聯(lián)接才能產(chǎn)生,所以效率不一定有星型模型高。正規(guī)化也是一種比較復(fù)雜的過程,相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)的 ETL、以及后期的維護(hù)都要復(fù)雜一些。因此在冗余可以接受的前提下,實(shí)際運(yùn)用中星型模型使用更多,也更有效率

3. 星型模型和雪花模型對(duì)比

星形模型和雪花模型是數(shù)據(jù)倉庫中常用到的兩種方式,而它們之間的對(duì)比要從四個(gè)角度來進(jìn)行討論。

  1. 數(shù)據(jù)優(yōu)化
    雪花模型使用的是規(guī)范化數(shù)據(jù),也就是說數(shù)據(jù)在數(shù)據(jù)庫內(nèi)部是組織好的,以便消除冗余,因此它能夠有效地減少數(shù)據(jù)量。通過引用完整性,其業(yè)務(wù)層級(jí)和維度都將存儲(chǔ)在數(shù)據(jù)模型之中。
    相比較而言,星形模型使用的是反規(guī)范化數(shù)據(jù)。在星形模型中,維度直接指的是事實(shí)表,業(yè)務(wù)層級(jí)不會(huì)通過維度之間的參照完整性來部署。

  2. 業(yè)務(wù)模型
    在雪花模型中,數(shù)據(jù)模型的業(yè)務(wù)層級(jí)是由一個(gè)不同維度表主鍵-外鍵的關(guān)系來代表的。而在星形模型中,所有必要的維度表在事實(shí)表中都只擁有外鍵。

  3. 性能
    第三個(gè)區(qū)別在于性能的不同。雪花模型在維度表、事實(shí)表之間的連接很多,因此性能方面會(huì)比較低。舉個(gè)例子,如果你想要知道一個(gè)用戶的詳細(xì)信息,雪花模型就會(huì)進(jìn)行若干表的join最終匯總結(jié)果。
    而星形模型的連接就少的多,在這個(gè)模型中,如果你需要對(duì)應(yīng)信息,你只要將維度表和事實(shí)表連接即可。

  4. ETL
    雪花模型加載數(shù)據(jù)集市,因此ETL操作在設(shè)計(jì)上更加復(fù)雜,而且由于附屬模型的限制,不能并行化。
    星形模型加載維度表,不需要再維度之間添加附屬模型,因此ETL就相對(duì)簡單,而且可以實(shí)現(xiàn)高度的并行化。

感謝各位的閱讀,以上就是“數(shù)據(jù)庫中數(shù)倉是什么”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)數(shù)據(jù)庫中數(shù)倉是什么這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

名稱欄目:數(shù)據(jù)庫中數(shù)倉是什么
瀏覽路徑:http://muchs.cn/article28/ipjdjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化、域名注冊(cè)手機(jī)網(wǎng)站建設(shè)、商城網(wǎng)站動(dòng)態(tài)網(wǎng)站、品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司