基礎理論:數(shù)據(jù)倉庫DW的辯識

提起數(shù)據(jù)倉庫,現(xiàn)在對很多人來說并不陌生,但大多數(shù)人并未系統(tǒng)地讀過數(shù)據(jù)倉庫的經(jīng)典論著,更沒有經(jīng)歷過成熟的數(shù)據(jù)倉庫項目,因此無論他們僅僅限于探討有關數(shù)據(jù)倉庫的話題,還是嘗試數(shù)據(jù)倉庫的項目,往往不解數(shù)據(jù)倉庫的真諦,嘗試的項目很可能是無疾而終,甚至連數(shù)據(jù)倉庫的基本概念都沒有真正理解。

創(chuàng)新互聯(lián)于2013年開始,先為蘇尼特左等服務建站,蘇尼特左等地企業(yè),進行企業(yè)商務咨詢服務。為蘇尼特左企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務解決您的所有建站問題。

數(shù)據(jù)倉庫是現(xiàn)在越來越熱的話題,但大多數(shù)人,無論是客戶還是開發(fā)商,往往在不明確、不成熟的數(shù)據(jù)倉庫需求與不清晰、不深刻的數(shù)據(jù)倉庫知識間徘徊。一方面,很多客戶積累了大量的業(yè)務數(shù)據(jù),總想從中得到些什么,甚至有了一些具體的想法,另一方面,一些軟件開發(fā)商在潮流的推動下,找來一些有關數(shù)據(jù)倉庫的書,也學用一些有關數(shù)據(jù)倉庫的軟件工具,在數(shù)據(jù)倉庫項目上躍躍欲試。學費總是要花的,數(shù)據(jù)倉庫的項目也是這樣。但與一些IT技術項目不同的是,這次學費是花了,但怎么不見迅速長進?近些年, 我們在國內(nèi)遇到不少這樣的事,客戶與開發(fā)商開始是熱情高漲,雙方不僅投入了不菲的金錢和人力,但結果與期望相差甚遠。因此,有些人甚至開始懷疑數(shù)據(jù)倉庫的技術的可行性及有效性了。確實,從樸素意義上講,做好哪一件也不容易,往往需要對真理的不斷追求與對實踐的不斷嘗試,做好數(shù)據(jù)倉庫是在啃一塊硬骨頭。我們的體會是,首先以源頭開始,扎扎實實地走每一步。急功近利的做法,跨越式地發(fā)展,尤其在數(shù)據(jù)倉庫方面是終究要跌跟頭的,因為這些想法與做法不符合客觀事物發(fā)展的規(guī)律!科學的數(shù)據(jù)倉庫技術發(fā)展的步驟是,首先學習數(shù)據(jù)倉庫的經(jīng)典知識,然后盡可能地學習數(shù)據(jù)倉庫項目的成熟的技術和經(jīng)驗,甚至不惜到其發(fā)源地和技術領先的國家去求經(jīng)驗,然后不斷地自我實踐,不斷地總結與提高。

我們首先來看看大家在數(shù)據(jù)倉庫概念上有哪些誤區(qū)吧。

1. 數(shù)據(jù)倉庫是個非常大的數(shù)據(jù)庫。

很多人望文生義,數(shù)據(jù)既然到了倉庫的量級,那肯定是非常大的數(shù)據(jù)。不錯,數(shù)據(jù)倉庫往往是個海量的數(shù)據(jù)集,但它不是必要條件。在數(shù)據(jù)倉庫經(jīng)典定義中,也沒有數(shù)據(jù)倉庫是大數(shù)據(jù)的概念。實際上,很多好的數(shù)據(jù)倉庫項目,從當今的社會信息規(guī)模來看,并不是數(shù)據(jù)量很大,但它們確實給業(yè)務分析帶來了很好的效益。因此評價一個數(shù)據(jù)倉庫,從來沒有用大小來衡量的。

2. 數(shù)據(jù)倉庫是將所有的業(yè)務數(shù)據(jù)存在一起的。

數(shù)據(jù)倉庫的一個目標是將分散的業(yè)務整合在一起的,但它往往是有目的地按分析需去實施的,并不是將全部的業(yè)務數(shù)據(jù)統(tǒng)統(tǒng)都集成在一起,更不是像有些人完全地將所有的業(yè)務數(shù)據(jù)集中地存儲在一起的,在這里既沒有有效地數(shù)據(jù)整合,也沒有按分析需要去集成數(shù)據(jù),只是一個集中式的龐大數(shù)據(jù)堆。

3. 數(shù)據(jù)倉庫是一次性的工程

我們曾經(jīng)見過這樣一個單位,他們驕傲地告訴我,他們做一個大的數(shù)據(jù)倉庫,這項工程已經(jīng)完成了,他們會在需要的時候,到倉庫中分析一些數(shù)據(jù)。開始我們產(chǎn)生了一個疑問,這些需求不是日常的和周期性的嗎?后來我們才知道,他們只是將歷史的數(shù)據(jù)截止到每一個時間,弄到了一個專用的數(shù)據(jù)庫中了,而且數(shù)據(jù)流就到此結束了,不再有增量數(shù)據(jù)規(guī)律或不規(guī)律地流進數(shù)據(jù)倉庫中了。我們說這不是真正的數(shù)據(jù)倉庫。

其次我們再從數(shù)據(jù)倉庫項目上看看有哪些誤解。

1. 數(shù)據(jù)模型為什么這么簡單

由于許多經(jīng)歷過IT項目的人,往往是技術不錯的人,對交互型的數(shù)據(jù)操作系統(tǒng)的概念太深,往往用OLTP的思維方式去看待數(shù)據(jù)倉庫。我們曾經(jīng)為一個單位設計數(shù)據(jù)倉庫數(shù)據(jù)模型,他們的IT主管看了很吃驚,“我們這么復雜的業(yè)務,分析起來當然也很復雜,你們設計的數(shù)據(jù)模型怎么這么簡單?”我們不得不解釋原因,給他們講,數(shù)據(jù)倉庫的目的是什么,什么叫數(shù)據(jù)倉庫的Star schema(星型轉換),Snowflake schema(雪花模式)。他們還是似懂非懂。其實,相對于復雜的面向業(yè)務和流程的交互型系統(tǒng)來說,數(shù)據(jù)倉庫則主要面向分析,將復雜數(shù)據(jù)模型轉變簡單結構的多維數(shù)據(jù)模型。

2. 為什么占用這么多的資源存儲,太浪費存儲空間了。

我們遇到這樣一個故事,一位愛找錯的IT組長報告他的上司,發(fā)現(xiàn)了我們將看似相同的數(shù)據(jù)存儲在多個不同的表中,從而浪費了他們的很多寶貴的存儲空間,一時間他們的經(jīng)理反問我們,為什么犯這樣低級的錯誤。我們只得解釋,數(shù)據(jù)倉庫是面向分析,通常是以存儲空間為代價來換取查詢上的性能,而是這些數(shù)據(jù)雖然存在不同的表中,但它們是不同的,它們是以不同的數(shù)據(jù)模型形式和不同的數(shù)據(jù)顆粒度存在的,這樣查詢不同量級的數(shù)據(jù),節(jié)省了大量的計算時間,可以獲得很好的查詢性能。于是他們無語,面部露出驚奇的表情。

經(jīng)典的數(shù)據(jù)倉庫

好了,現(xiàn)在我們開始追溯經(jīng)典,看看經(jīng)典的數(shù)據(jù)倉庫是什么樣子的。

按照經(jīng)典定義,數(shù)據(jù)倉庫是一個基于歷史數(shù)據(jù)的,邏輯數(shù)據(jù)整合的,不斷增長的,滿足特定目標的數(shù)據(jù)集合。什么是成熟的數(shù)據(jù)倉庫和數(shù)據(jù)倉庫項目?成熟表現(xiàn)在哪些方面?我們說,首先數(shù)據(jù)倉庫項目開發(fā)商要成熟,其次數(shù)據(jù)倉庫項目的客戶要成熟,最后是開發(fā)數(shù)據(jù)倉庫項目的時機要成熟。

1. 數(shù)據(jù)倉庫項目開發(fā)商成熟

1.1數(shù)據(jù)倉庫項目開發(fā)商對數(shù)據(jù)倉庫的核心知識和理論認識要成熟。

這時開展數(shù)據(jù)倉庫項目最基本的要求了。如果開發(fā)商對數(shù)據(jù)倉庫的經(jīng)典概念搞不透徹,那將是太可怕了。首先大家要從數(shù)據(jù)倉庫的論著開始讀起,如美國的Kimballl的數(shù)據(jù)倉庫,Innon的數(shù)據(jù)倉庫等等。讀了還不行,還要寫作業(yè),有條件的到美國或加拿大來一趟,多看看成功的數(shù)據(jù)倉庫項目,找找資深人士取取經(jīng)。同時也不斷博覽群書,看看不同的書的區(qū)別是什么,哪些人講的有道理??偠灾?,要像唐僧那樣去追求真理。

1.2數(shù)據(jù)倉庫項目開發(fā)商運用的數(shù)據(jù)倉庫的技術手段要成熟

這是比較難了。初學者就是要從數(shù)據(jù)倉庫論著的第一節(jié)開始實踐了。這里談的主要是技術層面。開發(fā)數(shù)據(jù)倉庫項目有很多專用工具,但我們不能拘泥于某些工具。我們認為工具不是最重要的,人才才是最重要的。哪怕有再多的不同的專用工具,只要我們合理安排數(shù)據(jù)倉庫所需的軟硬件,只需精通某一個或少數(shù)的專用工具,都可以做好數(shù)據(jù)倉庫項目,因此大家不要過多的把精力投入到不同的工具和技術的學習中,而且將經(jīng)典的理論與實際情況結合起來,將理論轉化到可行的實踐技術中。

1.3數(shù)據(jù)倉庫項目開發(fā)商需要有成熟的數(shù)據(jù)倉庫項目經(jīng)驗

這里談得主要是如何成功地將數(shù)據(jù)倉庫技術應用于大量不同的實際項目中,這一方面需要開發(fā)商要對有關行業(yè)的業(yè)務和相關專業(yè)的概念有深刻的理解,還要運用適當?shù)募夹g進行設計、開發(fā)。拿來主義是個不錯的方案,不妨到有成熟數(shù)據(jù)倉庫項目經(jīng)驗的國內(nèi)、外單位去學習,或將這些專家請來做顧問。

1.4數(shù)據(jù)倉庫項目開發(fā)商對客戶的培訓與教育要有成熟的方法

對于大多數(shù)客戶來說,數(shù)據(jù)倉庫項目是個新鮮事。對剛要吃螃蟹的人要做心理輔導和知識輔導。數(shù)據(jù)倉庫開發(fā)商要給客戶作必要的數(shù)據(jù)倉庫知識培訓,當然是講者自己首先要將數(shù)據(jù)倉庫知識搞通。我們曾經(jīng)看過這樣一個項目,開發(fā)商與客戶對他們的項目還均較滿意,但我們發(fā)現(xiàn)那其實不是一個真正定義上的數(shù)據(jù)倉庫項目。

2. 數(shù)據(jù)倉庫項目的客戶要成熟

2.1數(shù)據(jù)倉庫項目的客戶對數(shù)據(jù)倉庫的認識與知識要成熟

首先客戶對數(shù)據(jù)倉庫的基本概念和知識要有一定了解,最好客戶派出精干的信息人員和專業(yè)人員搞一個數(shù)據(jù)倉庫短期學習,再到有成功案例的單位重點地參觀考察一下,然后將有關流程向領導講明白,因為領導認識的層次與水平將對今后的項目有很大的影響。

2.2數(shù)據(jù)倉庫項目的客戶對自己的需求要成熟

進一步講,客戶要下來好好分析,既然數(shù)據(jù)倉庫能做這些事,我們究竟需 要什么,我們最急需的是什么,我們的分期規(guī)劃是什么,我們哪些需求 是可操作性比較強的,哪些是有困難的,哪些是異想天開的。

2.3數(shù)據(jù)倉庫項目的客戶對項目投入、產(chǎn)出、風險的認識要成熟

數(shù)據(jù)倉庫項目往往是看起來容易做起來難。看似不太復雜的數(shù)據(jù),整起來還真不容易。因此科學設計與規(guī)劃決定著項目的成敗。數(shù)據(jù)倉庫項目的初學客戶與初學開發(fā)商由于經(jīng)驗不足,對數(shù)據(jù)倉庫理解不透,對困難準備不足,常常規(guī)劃了不合理的人力和開發(fā)應用周期,結果導致了種種問題,最終的結果就是表現(xiàn)各異地達不到預期結果與目標。需要的沒做到,因此對于初學們來說,首先將目標放低一些,多規(guī)劃一些分期投入,在以后的項目中再逐漸改進,良性循環(huán)。

3. 數(shù)據(jù)倉庫項目開發(fā)時機要成熟

3.1分析需求是否足夠的健全

正如之前的例子,如果是想分析時就要全部分析一下,這不算成熟的需求。我們說健全的需求應是指業(yè)務需求,通常是定期需要的,基本是業(yè)務依賴的。

3.2業(yè)務系統(tǒng)的數(shù)據(jù)能涵蓋分析需求嗎?

對于通常的數(shù)據(jù)倉庫項目進行需求分析,首先看看我們的業(yè)務系統(tǒng)的數(shù)據(jù)全不全,這事做起來不難,但我們需要細化和量化,確實做到量力(數(shù)據(jù))而行,不要等到開發(fā)時,才看清現(xiàn)在的數(shù)據(jù)并不滿足需求。

3.3業(yè)務系統(tǒng)足夠健壯么?

數(shù)據(jù)倉庫所有的數(shù)據(jù)技術源于業(yè)務系統(tǒng),而且數(shù)據(jù)是短暫地由業(yè)務系統(tǒng)流向數(shù)據(jù)倉庫。盡管,通常數(shù)據(jù)倉庫的ETL操作對業(yè)務系統(tǒng)影響較小,有的并不從生產(chǎn)庫中取數(shù)據(jù),但還是對業(yè)務系統(tǒng)的穩(wěn)定性和可靠性有一定要求的。

3.4軟硬件是否具備

中國有句俗語,叫既來之則安之。如果前面的條件都成熟了,那最后就需要有相應的軟硬件配套。這里說的軟件是指客戶的人力資源,即業(yè)務分析人員、IT支持人員,數(shù)據(jù)分析應用人員等,硬件是指數(shù)據(jù)倉庫項目所需的服務器,網(wǎng)絡設備,終端設備,以及系統(tǒng)軟件、數(shù)據(jù)庫軟件、應用軟件等。如果確保這些軟硬件都能滿足,那就可以開始實施了。

數(shù)據(jù)倉庫需要考慮的幾個方面

1. 首先整個項目的設計與目標要基本符合經(jīng)典的數(shù)據(jù)倉庫概念和理論。不要做一個四不像的東西,數(shù)據(jù)倉庫是一個基于歷史數(shù)據(jù)的,邏輯數(shù)據(jù)整合的,不斷增長的,滿足特定目標的數(shù)據(jù)集合。

2. 項目的結果應該達到了預期的目標。

評價項目的建設目標是否達到了預期的目標,不是項目建成驗收的結果,而是交付使用一段時間以后,通常是半年以上,對應用結果的評價。

3. 項目具有可靠的穩(wěn)定性。數(shù)據(jù)倉庫系統(tǒng)可靠地與業(yè)務系統(tǒng)相銜接,數(shù)據(jù)倉庫項目評價是考驗它對數(shù)據(jù)的駕馭能力,可以以駕馭數(shù)據(jù)流程的能力為標準。數(shù)據(jù)倉庫的實質是數(shù)據(jù)計算技術。數(shù)據(jù)源源不斷地從業(yè)務系統(tǒng)流向數(shù)據(jù)倉庫中,歷史數(shù)據(jù)能否始終健康成長?即保證它的完整、準確、不重復、不缺失,隨著數(shù)據(jù)量不斷地增長,系統(tǒng)的性能依然良好可用。

4. 項目是可維護的。

我們曾經(jīng)見過這樣的數(shù)據(jù)倉庫項目,它的數(shù)據(jù)模型設計得很巧妙,但忽視了數(shù)據(jù)倉庫在增長到一定數(shù)據(jù)量時的的性能,結果系統(tǒng)運行第一年效果不錯,第二年就性能大大降低了,而且隨著數(shù)據(jù)不斷地增長,系統(tǒng)越來越慢,除了對數(shù)據(jù)模型推翻重組別外幾乎是沒有有效的辦法了。還有其他方面設計和開發(fā)不當?shù)?,?shù)據(jù)越來越不準確,導致結果最后不可用。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系

最后,我們再簡單提一下數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系。什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘就是采用一定技術和方法發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)律和知識的工作。數(shù)據(jù)挖掘需要應用一定的數(shù)學和計算技術對較大數(shù)據(jù)集做深層次的分析,它通常需要與項目的業(yè)務流程和專業(yè)知識深入相結合,工作流程須基本符合數(shù)據(jù)挖掘業(yè)界標準- CRISP。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系就像是一對戰(zhàn)略合作伙伴,彼此合作是共贏的,但雙方又是獨立自主的,并不以對方為前提條件。數(shù)據(jù)挖掘并不是依賴于數(shù)據(jù)倉庫, ,實際上的商業(yè)應用項目當中數(shù)據(jù)挖掘往往是相對獨立的,數(shù)據(jù)挖掘要的數(shù)據(jù)是有它特殊的需求,數(shù)據(jù)可以來源于數(shù)據(jù)倉庫,也可以直接從數(shù)據(jù)源里來取,并不是說是數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有必然的關系,也不是先有數(shù)據(jù)倉庫后有數(shù)據(jù)挖掘,所有的數(shù)據(jù)挖掘一定基于數(shù)據(jù)倉庫,不是這個概念。

那么,沒有數(shù)據(jù)挖掘應用的數(shù)據(jù)倉庫的應用是什么?沒有數(shù)據(jù)倉庫的數(shù)據(jù)挖掘是怎樣工作的?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是怎樣結合的?好處是什么?我們以后再講。

作者:

Hong Song Lin(洪松林) 福安易數(shù)據(jù)技術(天津)有限公司(F&E DATA TECHNOLOGY CORP. )創(chuàng)始人,外國專家局引智技術專家,加拿大OCP認證專家,有20年智能計算(數(shù)據(jù)倉庫、商務智能及數(shù)據(jù)挖掘)方面的研究、設計、開發(fā)和培訓經(jīng)驗。掌握北美先進的項目經(jīng)驗,曾在加拿大安大略省衛(wèi)生部(OMH)、蒙特利爾銀行(BMO)、加拿大研科電訊公司(TELUS )、安省高教委(OCAS)等大型機構參與多個大型智能計算項目。近年來在國內(nèi)主持多個智能計算產(chǎn)品的總體設計和研發(fā)工作,將北美的智能計算技術及業(yè)務經(jīng)驗與中國的專業(yè)需求和數(shù)據(jù)環(huán)境有效地結合起來,開發(fā)了以數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和數(shù)據(jù)統(tǒng)計為技術核心的智能數(shù)據(jù)分析產(chǎn)品,國內(nèi)首創(chuàng),并在北京、天津等地得到成功應用。

當前題目:基礎理論:數(shù)據(jù)倉庫DW的辯識
網(wǎng)站路徑:http://muchs.cn/article44/soidee.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、營銷型網(wǎng)站建設、網(wǎng)站導航、網(wǎng)站策劃網(wǎng)站設計公司、全網(wǎng)營銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設