第一篇:數據倉庫建設方案
1.數據倉庫概述
經過多年IT的建設,信息對于XXX的日常管理已經日益重要,并逐漸成為重要的信息資產,信息資產的管理已經成為日常管理中一個非常重要的環(huán)節(jié)。如何管理和利用好XXX內部紛繁的數據也越來越成為信息管理的一項重要工作。
在過去相當一段時間內,XXX業(yè)務系統(tǒng)的構建主要圍繞著業(yè)務的數據展開,應用的構建多是自下而上構建,主要以滿足某個部門的業(yè)務功能為主,我們稱之為業(yè)務處理的時代。這樣的構建方式造成了一個個分立的應用,分立的應用導致了一個個的靜態(tài)豎井。由于數據從屬于應用,缺乏XXX全局的單一視圖,形成了一個個信息孤島,分立的系統(tǒng)之間缺乏溝通,同樣數據的孤島導致只能獲得片面的信息,而不是全局的單一視圖。存儲這些信息的載體可能是各種異構或同構的關系型數據庫,也有可能是XML、EXCEL等文件。因此,構建新一代的一體化平臺提上了日程并最終促成全域數據的管理方式,目的是覆蓋XXX各個環(huán)節(jié)的關鍵業(yè)務數據,完善元數據管理,形成全局的數據字典、業(yè)務數據規(guī)范和統(tǒng)一的業(yè)務指標含義,能夠靈活的獲取XXX業(yè)務數據的單一視圖(需要保證數據的一致性、完整性、準確性和及時性)。數據的交換和共享主要發(fā)生在上下級組織機構之間或同級的不同部門之間。最終,這些數據可以為部隊分析、決策支持(多維分析、即席查詢、數據挖掘)等應用提供更及時、準確、有效的支持。
數據倉庫的目標是實現(xiàn)跨系統(tǒng)數據共享,解決信息孤島,提升數據質量,輔助決策分析,提供統(tǒng)一的數據服務。同時,數據倉庫的構建也面臨著各種挑戰(zhàn),比如信息整合在技術上的復雜度、信息整合的管理成本、數據資源的獲取、信息整合的實施周期以及整合項目的風險等。
Page 2 of 7 2.全域數據庫總體架構
展示層應用層多維分析門戶統(tǒng)一授權服務手機平板電腦單點登錄PC即席查詢報表統(tǒng)計統(tǒng)計分析預測分析分析型管理流程整合數據整合空間數據其他應用基礎服務層應用服務器服務總線工作流引擎消息中間件OLAP引擎數據挖掘引擎事件驅動規(guī)則引擎協(xié)同工作主數據管理引擎大數據分析引擎知識內容管理引擎空間地理數據引擎數據存儲區(qū)OSD數據倉庫數據集市特征庫模型庫預測數據地理數據MDMHUB共享數據庫大數據流媒體數據信息治理、元數據管理IT安全運維管理IT綜合監(jiān)控交換服務體系數據聯(lián)邦數據復制數據清洗數據轉換大數據流消息隊列流程服務信息服務交互服務消息服務數據層(ISB)應用層關系型數據源非關系型數據源傳感器/監(jiān)控數據源核心業(yè)務邊防一體化其他XMLExcelWeb服務消息隊列文本數據攝像頭虛擬傳感器智能傳感器基礎設施層(網絡、存儲、硬件、系統(tǒng)軟件)全域數據庫總體架構
全域數據庫總體的層次,最下面是基礎架構層,主要包括支撐這一架構運行的主機系統(tǒng)、存儲備份系統(tǒng)、網絡系統(tǒng)等內容。從下往上看,再上面是數據源層,既包括各個業(yè)務的關系型數據源、內容管理數據源也包括半結構化數據源比如XML、EXCEL等,也包括各個總隊、支隊的業(yè)務數據源。
數據源層之上是“交換服務體系”,主要包括信息服務總線和服務總線兩部分。信息服務總線主要實現(xiàn)數據層的信息整合和數據轉換,而服務總線主要實現(xiàn)應用層的信息交換和整合。信息服務總線主要依托聯(lián)邦、復制、清洗、轉換等技術實現(xiàn),其主要包括信息整合服務和清洗轉換加載服務兩部分。通過信息服務總線的信息整合服務(數據聯(lián)邦、復制),可以透明、實時的訪問分布在總隊和支隊的各個業(yè)務系統(tǒng)中的各種同構、異構數據(前提是擁有足夠的權限)。信息整合服務在整個XXX層面保證
Page 3 of 7 了數據的完整性和及時性。信息服務主要使用兩種技術來完成這一功能:聯(lián)邦和復制。通過聯(lián)邦功能可以把關系數據、半結構化數據(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查詢和內容源)組成一個邏輯數據庫,對這些數據源中的表可以像操作本地數據庫表一樣進行操作,而不必關心我們操作的這些數據底層是什么數據源,物理在什么位置。而針對大數據量的數據訪問或高并發(fā)的訪問,通常將源數據增量實時復制到本地,復制的實現(xiàn)是基于對源數據庫的日志進行捕獲,獲取增量數據,并基于消息的機制將其復制到目的數據庫,復制的過程中可以實現(xiàn)數據的合并、拆分、轉換等操作。
信息服務總線主要完成數據的分析、清洗(標準化)、轉換、加載等工作。數據清洗,主要是去除冗余數據,將零散字段合并成全局記錄,并解決重疊和矛盾的數據,然后通過添加關系和層次結構完善豐富信息。首先面臨的挑戰(zhàn)就是如何更有效的識別現(xiàn)有的業(yè)務系統(tǒng),包括業(yè)務系統(tǒng)使用的分類方法、層次結構、數據分布、數據字典等。如果數據字典不完整或缺失,就要通過方法找出其數據的存儲結構以及各個表之間的主外鍵關聯(lián)、各表之間的轉換關系等,同樣,數據的分布情況同樣可以使用分析功能來完成。在對現(xiàn)有數據足夠了解的基礎上(完成了數據的分析),接下來就要制定數據的清洗規(guī)則以及轉換規(guī)則,其中,清洗規(guī)則又分為兩種情況,一種清洗規(guī)則是明確的,另一種清洗規(guī)則是模糊的,比如不同系統(tǒng)中存儲的地址信息,“南京市定淮門大街9號”和“江蘇省南京市下關區(qū)定淮門大街9號”實際上是一個地址,但計算機會當成兩個地址來處理。概率匹配功能和動態(tài)權重策略可以匹配創(chuàng)建高質量、準確的數據,并在整個數據域中一致地識別核心業(yè)務信息,如人名、位置、和時間。
數據清洗、轉換、加載服務對保障數據的準確性和一致性非常重要。在不同的系統(tǒng)中,對同一業(yè)務會使用不同的分類方法,同樣,數據的類別和層次結構也會不同。需要通過數據清洗、轉換、加載層實現(xiàn)對這些信息格式的轉換,匹配成通用的信息格式和分類方法,以便提供整個XXX業(yè)務層面聚合的業(yè)務視圖。實際證明一體化平臺(一期)的全域數據梳理中,手工統(tǒng)計可以完成這項工作但不夠好,不夠直觀和沒有擴展延續(xù)能力。數據清洗、轉換、加載工作對未來數據的使用非常重要,即使有工具幫助,工作量依然很大。雖然,開始的時候,這項工作看起來費時費力,但從長遠來看,它使得基于這些數據的業(yè)務流程和統(tǒng)一數據視圖實現(xiàn)自動化,并減少了人為干預不準確或不一致數據的努力,從而節(jié)省了大量成本。XXX層面的單一視圖一經建立,其維護必將是一個持續(xù)進行的過程。
Page 4 of 7 數據的管理通常需要一個管理組織來對沖突或缺失的數據進行決策,組織會通常需要各個業(yè)務部門的人參與,而不僅僅局限于通技處或信息中心的人。XXX單一數據視圖的維護,很多業(yè)務部門都做的不夠好,時間一久,很多業(yè)務部門就變得厭倦,數據清洗轉換的工作沒有堅持下去。一旦數據的準確性出現(xiàn)問題,業(yè)務系統(tǒng)的全局共享就無法再從中獲益。
交換服務體系中的服務總線主要基于流程服務、傳輸服務、交換服務等實現(xiàn)。通過使用總線,可以支持各種協(xié)議以及數據格式的數據交互。通過搭建一個基于標準的、開發(fā)的、易于集成的、總線方式的服務總線,通過今后對現(xiàn)有系統(tǒng)的逐步升級改造,系統(tǒng)之間以一種成為“服務”的接口方式統(tǒng)一通過總線方式進行交互,通過對服務的管理,系統(tǒng)之間交互的信息格式的差異、傳輸協(xié)議的差異、采用技術的差異、物理位置的不同等等這些問題都由這個總線來進行屏蔽。進一步通過流程管理,將模塊和系統(tǒng)之間的服務按照業(yè)務流程的需要進行編排,做到了“隨需而變”。
數據存儲區(qū)包括ODS、數據倉庫/數據集市、共享數據庫、特征庫、模型庫等,主要提供各種數據的存儲服務。其中,邏輯視圖中ODS部分存放了整個XXX單位全局級的明細數據,而數據倉庫數據集市中存儲了不同級別的匯總數據。特征庫主要存放各種數據分群特征、業(yè)務分類特征等業(yè)務信息,模型庫存放構建的各種業(yè)務模型信息等。
基礎服務層主要包括“應用服務器”,“服務總線”,“工作流引擎”,“消息中間件”,“OLAP引擎”,“數據挖掘引擎”,“事件驅動”,“規(guī)則引擎”,“協(xié)同工作”和“空間地理數據引擎”。
應用層包括各種應用,其中多維分析、即席查詢、報表統(tǒng)計、圖形展現(xiàn)等。右邊的信息治理層主要是為了保證數據的完整性、一致性、準確性、及時性,保證歷史數據正確歸檔并在需要的時候可以和現(xiàn)有數據一起被聯(lián)合訪問,提供數據庫安全、審計、監(jiān)控和合規(guī)服務,從而防止內部人員偷竊,防范欺詐作假,保護數據隱私,強制執(zhí)行安全規(guī)范,強制滿足合規(guī)的要求,防止外部攻擊對數據的破壞。
而元數據管理會貫穿數據業(yè)務層面、業(yè)務系統(tǒng)、信息整合服務總線、ETL層、數據存儲區(qū)、信息服務層、展現(xiàn)層等各個層面,當數據口徑出現(xiàn)問題時,能夠提供數據在各個層面的正向/逆向追蹤功能。元數據的管理涉及業(yè)務元數據和技術元數據兩種。
Page 5 of 7 3.數據倉庫架構
離線報表多維分析即席查詢報表統(tǒng)計數據挖掘決策管理預測分析ODS數據倉庫邏輯數據倉庫層數據集市共享數據視圖信息治理數據清洗、轉換、加載 信息整合服務(聯(lián)邦、復制)元數據管理基礎數據干部數據梅沙數據空間數據警務數據其他數據庫交換數據庫數據交換相關業(yè)務單位數據倉庫總體架構
1)多維分析
從數據的全方位了解現(xiàn)狀,管理人員往往希望從不同的角度來審視業(yè)務數值,比如從時間、地域、類別、功能來看同一類數據的總和。每一個分析的角度可以叫做一個維,因此,把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張報表。由此產生了在線多維分析功能,根據用戶常用的多種分析角度,事先計算好一些輔助結構,以便在查詢時能盡快抽取到所要的記錄,并快速地從一維轉變到另一維,將不同角度的信息以數字、直方圖、餅圖、曲線等等方式展現(xiàn)在您面前。
2)即席查詢
可以將數據進行查詢分組,進行資源的管理,可以設置查詢優(yōu)先級,可以自動控制,調度復雜查詢和進行跟蹤分析查詢??梢园凑找韵轮匾椒ㄟM行使用,主動和動態(tài)地控制 數據庫的查詢流程,為不同大小的查詢定義不同的查詢類別,從而改善查詢之間的系統(tǒng)資源共享,避免較小的查詢被較大的查詢阻塞等。
Page 6 of 7 3)數據挖掘
數據挖掘正如在礦井中可以開采出珍貴的礦石,在數據倉庫的數據里也常??梢蚤_采出業(yè)務人員意想不到的信息。它比多維分析更進一步。例如,如果管理人員要求比較各個區(qū)域某類出入境特征數量在過去一年的情況,可以從多維分析中找答案。但是,如果管理人員要問為何一個地區(qū)的出入境特征情況突然變得特別好或是不好,或者問該出入境特征在另一地區(qū)將會怎么樣,這時數據挖掘知識可以作出解答。
4)數據倉庫層
數據倉庫用于抽取、整合、分布、存儲有用的信息,數據信息往往分布在不同的部門和下級單位,管理者要綜觀全局、運籌帷幄,必須能迅速地找到能反映真實情況的數據,這些數據也許是當前的現(xiàn)實數據,也可能是過去的歷史數據。因此,有必要把各個區(qū)域的數據集合起來,去其糟粕、取其精華,將真實的、對決策有用的數據保留下來,隨時準備管理人員使用。因此,數據倉庫不僅僅是個數據的儲存?zhèn)}庫,更重要的是它提供了豐富的工具來清洗、轉換和從各地提取數據,使得放在倉庫里的數據有條有理,易于使用。
Page 7 of 7
第二篇:關于數據倉庫建設的發(fā)言稿
尊敬的各位專家、各位領導:很榮幸能有這個發(fā)言機會,我的發(fā)言包括3部分內容即“充分利用數據庫與中間件技術構建健壯與可伸縮性的系統(tǒng)”、“按照科學的原則構建數據倉庫模型”、“關于數據倉庫建設的一些思考”,其中前2個問題在我的項目介紹與應用創(chuàng)新已經有所描述,由于時間的限制下面僅對第3點進行一下介紹。
1、充分利用數據庫與中間件技術構建健壯與可伸縮性的系統(tǒng):
就軟件工程的發(fā)展來看,大致經歷了從過程-面向對象-面向服務(群體)的階段,雖然需求分析以及軟件開發(fā)過程的質量控制對項目的結果的重要性不言而喻,但就本人多年的經驗看客戶的需求是時刻處于變化中的,這里有客戶與開發(fā)者當時認識上的問題而更重要的的市場變化的要求,因此我們開發(fā)的系統(tǒng)要具有很強的伸縮性與高擴展性就顯的尤其重要,而構建一個應用的基礎架構則是降低應用開發(fā)難度、提高開發(fā)效率、縮短開發(fā)周期、快速適應市場與客戶需求變化的基石,那麼它有是怎樣保證上述目標的呢?本人在此總結如下2點:
1)通過在基礎層對通訊、認證、加密、數據庫與業(yè)務處理的封裝實現(xiàn)
系統(tǒng)邏輯與業(yè)務邏輯的分離,使業(yè)務人員與應用工程師只注重業(yè)務
邏輯的實現(xiàn)而不必關心具體的技術細節(jié),這種專業(yè)化的分工能很好的保證系統(tǒng)的質量,它使系統(tǒng)更健壯。
2)通過業(yè)務處理模塊的構件化提高系統(tǒng)的靈活性,我們將實現(xiàn)某個業(yè)
務邏輯的最小單元稱之為“業(yè)務構件”,而這些業(yè)務構件是通過基礎
架構平臺管理與調度來完成具體的應用,因此當以后業(yè)務發(fā)生變化
或出現(xiàn)新的需求,我們只需編寫新的業(yè)務構件并部署到基礎框架中
就OK了。
2、按照科學的原則構建數據倉庫模型
構建數據庫倉庫模型是數據倉庫建設中的非常重要的一環(huán),而數據模型的建立當然依賴于設計人員的經驗與對業(yè)務與相關技術的掌握,但按一套科學的原則來指導則會起到事半功倍的目的,通過我們對華夏基金管理公司數據中心建設,從中摸索了一些經驗供同仁參考:
1)從業(yè)務角度出發(fā),而不是從技術角度出發(fā)
數據中心是一個為領導層和業(yè)務部門提供數據分析的平臺,其最終用戶是業(yè)務部門,而不是開發(fā)系統(tǒng)的技術人員,所以毫無疑問主題的劃分要從業(yè)務工作流程的角度出發(fā),比如分為基金投資人、基金管理人、基金銷售人等,這樣才能真正方便業(yè)務人員的理解和使用,因此我們的模型的建立是從業(yè)務分析建立業(yè)務模型開始。
2)主題相互獨立,關聯(lián)度達到最低
主題劃分也就是分類的原則,很重要的一點就是分出的類別要獨立性好,自耦合性高,相互之間關聯(lián)度低。
3)能多地涵蓋公司的業(yè)務
本項目的目標是為全司構建一個完整的數據倉庫平臺,為了達到這個目標,在需求分析時要盡可能多地涵蓋公司業(yè)務,制訂出具有前瞻性的需求分析報告。在此基礎上設計出的模型,才是一個完整的數據倉庫模型。
4)數據倉庫與數據集市采用不同的建模方式:
關于數據倉庫建模方式的爭論好象從來沒有停止過,一派為E-R模型的代表者,而另一派則主張FD(緯度事實/緯度指標)的建模方式,而我本人以為這兩者
各有各的優(yōu)點,一般說來數據倉庫應該是一個企業(yè)級的數據庫,而數據集市是面向主題與分析的,就粒度而言前者應該是細粒度的而后者一般較前者高,就構建方法而言本人以為前者用E-R模型較好,而后者則比較適合用FD(緯度事實)構建多維模型,我們在實際應用中綜合使用的這2中方法取得了較好的效果。
3、關于數據倉庫建設的一些思考
公司的數據倉庫建設是一個非常復雜的系統(tǒng)工程,其中要有公司主要領導牽頭和各個業(yè)務部門與技術部門的密切配合這些重要性不言而喻,但我這里想要強調的是如下問題的解決:(可選)
由于數據倉庫建設是一個非常復雜的系統(tǒng)工程,這種復雜性帶來的結果往往是開發(fā)周期很長,不容易快速見到效果,這樣一來會引起業(yè)務部門的不滿,而開發(fā)者也由于沒有很快得到成就感的滿足而喪失信心而導致項目的失??;或者由于急功近利快速先搭建一個系統(tǒng),由于當時的基礎不牢而造成以后大量的返工甚至重建,那怎樣有效地規(guī)避上述問題呢?
本人認為雖然這不是1+1就=2這樣簡單而明確的命題,但還是有一些方法與原則來控制的,總的說來就是在數據倉庫的建設上將長期基礎建設與短期見效很好的結合到一起,具體來說就是整體規(guī)劃而分步實施,所謂整體規(guī)劃就是要將數據倉庫建設的基礎打牢,我們從公司的業(yè)務分析入手,通過構建業(yè)務模型來建立公司級的標準/基礎數據模型,然后在此基礎上構筑面向各個主題的數據集市,按照我個人的經驗,建議數據模型在邏輯上根據企業(yè)的實際情況劃分3層-4層,即原始數據映像層-標準/基礎數據層-初步匯總層-數據集市層,如果從標準/基礎層生成數據集市的算法較復雜或需要一些中間統(tǒng)計匯總報表則需要初步匯總層,該層是可選的,而3層-4層結構中重點是標準/基礎數據層模型的建立;而所謂分步實施則是指在公司的標準/基礎數據層搭建好以后,按系統(tǒng)的重要性和業(yè)務要求的輕重緩急,按每個主題單獨立項分步實施。如:華夏基金分成投資人分析、營銷、投資與風險等而第一期先上投資人分析使相關業(yè)務部門很快的見到數據倉庫的建設成果,達到了比較好的效果。
以上是我個人在實際項目中的幾點總結,請各位專家領導指正,再次感謝!
附件1:前幾天我看到國務院發(fā)展研究中心原副主任陳清泰先生的撰文“技術可以購買,技術能力是買不來的”,撰文說,有關資料表明,日本引進技術的時期,平均花一美元引進技術,要花約7美元進行消化吸收和創(chuàng)新。韓國也大體相似。改革開放以來,中國引進技術的項目數和總支出可能比日本與韓國之和還要多,但用于消化吸收的費用只相當引進費用的7%,與日本差了100倍。
而我們的數據庫與軟件的應用又何嘗不是這樣呢,這里有各方面的原因,但不容否認這與我們很多數據庫研究人員、應用開發(fā)人員與管理人員的內心浮躁不無關系的,這種浮躁容易走上2個極端,一是盲目自大認為我們數據庫產業(yè)與國外并無差距我們很快就會有世界頂級的數據庫,這種遠大的理想與抱負當然非常值得提倡,但問題是往往對國外的現(xiàn)有技術與技術發(fā)展趨勢沒有下工夫研究吃透就想打造自己的宏偉藍圖,這是不可取的,我們要學會站到巨人的肩膀上思考問題;而另一個極端是盲目悲觀,墨守陳規(guī)思想就認為人家不可逾越,從而不甘越雷池一不步。
因此我們要丟棄浮躁的心態(tài),踏踏實實地做事真正作到對先進知識的引進然后到消化吸收,最后到創(chuàng)新的飛躍。
第三篇:幾大數據倉庫方案特性比較
幾大數據倉庫方案特性比較
減小字體 增大字體 作者:無從考證來源:源碼之村發(fā)布時間:2005-11-15 9:57:45
IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有實力的公司相繼(通過收購或研發(fā)的途徑)推出了自己的數據倉庫解決方案,BO和Brio等專業(yè)軟件公司也在前端在線分析處理工具市場上占有一席之地。下面針對這些數據倉庫解決方案的性能和特點做分析和比較。
IBM公司提供了一套基于可視數據倉庫的商業(yè)智能(BI)解決方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及來自第三方的前端數據展現(xiàn)工具(如BO)和數據挖掘工具(如SAS)。其中,VW是一個功能很強的集成環(huán)境,既可用于數據倉庫建模和元數據管理,又可用于數據抽取、轉換、裝載和調度。
Essbase/DB2 OLAP Server支持“維”的定義和數據裝載。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服務器,而是一個(ROLAP和MOLAP)混合的HOLAP服務器,在Essbase完成數據裝載后,數據存放在系統(tǒng)指定的DB2 UDB數據庫中。嚴格說來,IBM自己并沒有提供完整的數據倉庫解決方案,該公司采取的是合作伙伴戰(zhàn)略。例如,它的前端數據展現(xiàn)工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多維分析工具支持Arbor Software的Essbase和IBM(與Arbor聯(lián)合開發(fā))的DB2 OLAP服務器;統(tǒng)計分析工具采用SAS系統(tǒng)。
Oracle數據倉庫解決方案主要包括Oracle Express和Oracle Discoverer兩個部分。
Oracle Express由四個工具組成:Oracle Express Server是一個MOLAP(多維OLAP)服務器,它利用多維模型,存儲和管理多維數據庫或多維高速緩存,同時也能夠訪問多種關系數據庫;Oracle Express Web Agent通過CGI或Web插件支持基于Web的動態(tài)多維數據展現(xiàn);
Oracle Express Objects前端數據分析工具(目前僅支持Windows平臺)提供了圖形化建模和假設分析功能,支持可視化開發(fā)和事件驅動編程技術,提供了兼容 Visual Basic語法的語言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最終用戶的報告和分析工具(目前僅支持Windows平臺)。Oracle Discoverer即席查詢工具是專門為最終用戶設計的,分為最終用戶版和管理員版。在Oracle數據倉庫解決方案實施過程中,通常把匯總數據存儲在Express多維數據庫中,而將詳細數據存儲在Oracle關系數據庫中,當需要詳細數據時,Express Server通過構造SQL語句訪問關系數據庫。但目前的Express還不夠靈活,數據倉庫設計的一個變化往往導致數據庫的重構。另外,目前的 Oracle 8i和Express 之間集成度還不夠高,Oracle 8i和Express之間需要復制元數據,如果Oracle Discoverer(或BO)需要訪問匯總數據,則需要將匯總數據同時存放在Oracle和Express中,系統(tǒng)維護比較困難。值得注意的是,剛剛問世的Oracle 9i把OLAP和數據挖掘作為重要特點。
Sybase提供的數據倉庫解決方案稱為Warehouse Studio,包括數據倉庫的建模、數據抽取與轉換、數據存儲與管理、元數據管理以及可視化數據分析等工具。其中,Warehouse Architect是PowerDesigner中的一個設計模塊,它支持星形模型、雪花模型和ER模型;數據抽取與轉換工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可視化數據遷移工具。Adaptive Server Enterprise是Sybase企業(yè)級關系數據庫,Adaptive Server IQ是Sybase公司專為數據倉庫設計的關系數據庫,它為高性能決策支持系統(tǒng)和數據倉庫的建立作了優(yōu)化處理,Sybase IQ支持各種流行的前端展現(xiàn)工具(如Cognos Impromptu、Business Objects、Brio Query等);數據分析與展現(xiàn)工具包括
PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是圖形化的OLAP分析工具,它支持SMP和多維緩存技術,能夠集成異構的關系型數據倉庫和分布式數據集市,從而形成單一的、新型的多維模式;數據倉庫的維護與管理工具包括
Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是為數據倉庫開發(fā)人員提供的元數據管理工具。Sybase提供了完整的數據倉庫解決方案Quick Start DataMart,具有良好的性能,并支持第三方數據展現(xiàn)工具。從Quick Start DataMart的名稱不難看出,它尤其適合于數據集市應用。另外,Sybase可以提供面向電信、金融、保險、醫(yī)療保健這4個行業(yè)的客戶關系管理(CRM)產品,在這4個產品中,有80%的功能是共性的,有20%的功能需要Sybase與合作伙伴針對不同需求共同開發(fā)。
Informix于1998和1999年相繼收購了國際上享有盛譽的數據倉庫供應商Red Brick System和數據管理軟件供應商Ardent,并提供了完整、集成的數據倉庫解決方案。該解決方案還包括一個“快速啟動”咨詢服務,能夠幫助用戶快速完成數據倉庫或數據集市的開發(fā)。Informix產品能夠集成Microsoft IIS或Netscape Enterprise/FastTrack服務器,從而支持基于Web的數據倉庫應用。Informix沒有提供自己的報表和數據挖掘工具,但他們與Brio和SAS公司建立了戰(zhàn)略聯(lián)盟,并推出了“Informix商務智能聯(lián)盟計劃”。該計劃以Informix為主,結合Brio的前端數據分析和報表功能,以及SAS的數據挖掘功能,形成了一個“BI中心”打包方案。(今年4月Informix Software已被IBM公司收購,此舉將給IBM公司數據庫及數據倉庫產品,從技術和市場占有率上帶來極大的提升。)
CA于1999年收購了Platinum Technology公司后,得到了完整的數據倉庫解決方案,包括:Erwin數據倉庫設計工具、InfoPump數據轉換與抽取工具、InfoBeacon ROLAP服務器、Forest&Trees前端數據展現(xiàn)工具、Provision系統(tǒng)監(jiān)視與作業(yè)調度工具和DecisionBase元數據管理工具等。與Informix 解決方案相似,CA解決方案也提供了數據倉庫建模、元數據管理、數據抽取與轉換、基于關系數據庫的在線分析服務器、系統(tǒng)監(jiān)視與作業(yè)調度、前端數據展現(xiàn)等功能,同時還支持Web應用。不同之處是Informix提供了專門為數據倉庫設計的高性能目標數據庫(Red Birck),而CA解決方案則提供ODBC接口,并將數據存儲在第三方關系數據庫(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能要打一些折扣,但開放性要好些。另外,CA的OLAP服務器目前只能與Microsoft的IIS Web服務器集成。
NCR Teradata是高端數據倉庫市場最有力的競爭者,主要運行在NCR WorldMark SMP硬件的Unix操作系統(tǒng)平臺上。1998年,該公司也提供了基于
Windows NT的Teradata,試圖開拓數據集市(Data Mart)市場??偟膩砜?,NCR的產品性能很好,Teradata數據倉庫在100GB、300GB、1TB和3TB級的TPCD指標測試中均創(chuàng)世界紀錄。但是,NCR產品的價格相對較高,中小企業(yè)用戶難以接受。
Microsoft將OLAP功能集成到Microsoft SQL Server 7.0中,提供可擴充的基于COM的OLAP接口。它通過一系列服務程序支持數據倉庫應用。數據傳輸服務DTS
(Data Transformation Services)提供數據輸入/輸出和自動調度功能,在數據傳輸過程中可以完成數據的驗證、清洗和轉換等操作,通過與Microsoft Repository集成,共享有關的元數據;Microsoft Repository存儲包括元數據在內的所有中間數據;SQL Server OLAP Services支持在線分析處理;PivotTable Services提供客戶端OLAP數據訪問功能,通過這一服務,開發(fā)人員可以用VB或其他語言開發(fā)用戶前端數據展現(xiàn)程序,PivotTable Services還允許在本地客戶機上存儲數據;MMC(Microsoft Management Console)提供日程安排、存儲管理、性能監(jiān)測、報警和通知的核心管理服務;Microsoft Office 2000套件中的Access和Excel可以作為數據展現(xiàn)工具,另外SQL Server還支持第三方數據展現(xiàn)工具。
SAS公司在20世紀70年代以“統(tǒng)計分析”和“線性數學模型”而享譽業(yè)界,90年代以后,SAS公司也加入了數據倉庫市場的競爭,并提供了特點鮮明的數據倉庫解決方案,包括30多個專用模塊。其中,SAS/WA(Warehouse Administrator)是建立數據倉庫的集成管理工具,包括定義主題、數據轉換與匯總、更新匯總數據、元數據管理、數據集市的實現(xiàn)
等; SAS/MDDB是SAS用于在線分析的多維數據庫服務器;SAS/AF提供了屏幕設計功能和用于開發(fā)的SCL(屏幕控制語言);SAS/ITSV(IT Service Vision)是IT服務的性能評估和管理的軟件,這些IT服務包括計算機系統(tǒng)、網絡系統(tǒng)、Web服務器和電話系統(tǒng)等。SAS系統(tǒng)的優(yōu)點是功能強、性能高、特長突出,缺點是系統(tǒng)比較復雜。
Business Objects(BO)是集查詢、報表和OLAP技術為一身的智能決策支持系統(tǒng)。它使用
獨特的“語義層”技術和“動態(tài)微立方”技術來表示數據庫中的多維數據,具有較好的查詢和報表功能,提供鉆取(Drill)等多維分析技術,支持多種數據庫,同時它還支持基于Web瀏覽器的查詢、報表和分析決策。雖然BO 在不斷增加新的功能,但從嚴格意義上說,BO只能算是一個前端工具。也許正因為如此,幾乎所有的數據倉庫解決方案都把BO作為可選的數據展現(xiàn)工具。雖然國內有很多大學和研究機構從事數據倉庫技術的研究,但到目前為止,國內基本上沒有成熟的數據倉庫解決方案。
第四篇:浦發(fā)銀行數據倉庫建設
浦發(fā)銀行數據倉庫建設
項目背景
整個 CDL 項目組總整合前 CIM,梳理現(xiàn)有集市,包括 1104 等數據和業(yè)務的涵蓋范圍,以:避免各個應用獨自建設基礎的重復數據,如客戶、賬戶基礎信息等;整合各個應用的共性,提供大的數據集市(CDL 名稱由來);提供基于倉庫的,邏輯清晰的業(yè)務數據,供總分行各業(yè)務窗口使用;減輕倉庫運行負擔,縮短倉庫運行時間窗口;
解決以下問題:
● PDM 層的數據都是技術架構的描述,并且組織結構非常復雜
● 決策人員、業(yè)務分析人員知道業(yè)務需求,但是不知道數據在哪里?● 不同模塊或者系統(tǒng)之間的表達方式也不一致
● 沒有統(tǒng)一的數據管理平臺,經常會產生各系統(tǒng)數據口徑不一致的現(xiàn)象
2.系統(tǒng)的核心價值
● 建設以業(yè)務視角為中心的數據層
● 為業(yè)務人員提供一致的統(tǒng)計口徑
● 把 PDM 的復雜結構用簡單的方式呈現(xiàn)在業(yè)務人員面前
● 減少大量的、重復的、復雜的運算
● 業(yè)務人員能集中精力的根據自己的需求來挖掘和統(tǒng)計各類信息● 技術人員可以節(jié)省大量的時間來應付業(yè)務人員的各種需求
3.項目目標
浦發(fā)銀行要求該項目的基礎數據由數據倉庫提供,為適應 CCRM 項目的需求,從業(yè)務角度出發(fā),需要整合所有對公數據,分別從客戶、賬戶、業(yè)務產品為視角,進行對公數據的提升整合。基于數據倉庫,成立一個數據集市項目(CDL 組),為適應 CCRM 項目提供數據。
4.系統(tǒng)技術架構
5.實現(xiàn)的功能
● 構建在數據倉庫 PDM 與應用數據集市之間
● 從業(yè)務的角度,具有共性、可被多個應用復用的基礎數據
● 把技術的語言轉換成業(yè)務語言來描述各項指標
● 提供統(tǒng)一的、規(guī)范的業(yè)務口徑供業(yè)務人員使用
6.實現(xiàn)CDL內容
● 客戶信息部分:客戶基礎信息、客戶的衍生信息、客戶的匯總信息、客戶的分析信息
● 客戶賬戶部分:賬戶基礎信息、貸款賬戶部分,借據層賬戶信息、合同層借據信息、分期付款信息。
● 表外賬戶信息:銀行承兌匯票、國際、國內信用證(包括進口承兌,出口交單等)、國際和國內保函、保理、委托貸款、結售匯等業(yè)務信息。
● 業(yè)績分配 · 績效考核納入統(tǒng)一的 CDL
◇員工的業(yè)績分配信息,新增來源表業(yè)績分配關系歷史,記錄賬戶對應員工的分配比例;
◇所有的對公賬戶核算業(yè)績分配情況,賬戶能對應到員工上的分配比例給員工,否則給機構;
◇根據賬戶中的產品號對應 CCRM 產品樹,關聯(lián)出模擬利率,核算基本模擬利率;
◇業(yè)務部門提供業(yè)務口徑的核算方法,最終業(yè)績分配需要減去資產成本和風險成本等;
◇提供賬戶分配到員工后的存貸款規(guī)模、中間業(yè)務手續(xù)費收入等,計算出按賬戶、客戶、產品為粒度的模擬利潤、風險成本、資本成本等信息
● 表內、表外賬戶信息匯總到客戶、產品粒度
◇匯總到客戶粒度的信息,大類分為三類,存款、貸款和中間業(yè)務手續(xù)費;◇匯總到業(yè)務產品粒度的信息,同一客戶下所有以產品分類的信息匯總到一起,以產品樹為依據,產品樹分幣種,分期限;
◇匯總了一些常用的業(yè)務指標信息,如貸款累放、累收,特有中間業(yè)務手續(xù)費等信息;
◇表內匯總信息關心當前余額、上日月年余額、積數、日均等余額類信息,并且匯總折人民幣,折美元后的余額
◇表外匯總信息關心各類票面金額、余額、保證金、敞口信息以及由表外業(yè)務產生的各種手續(xù)費。
第五篇:數據倉庫總結
數據倉庫系統(tǒng)與傳統(tǒng)數據庫系統(tǒng)的區(qū)別
數據庫是面向事務的設計,數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。數據庫設計是盡量避免冗余,一般采用符合范式的規(guī)則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的“大型數據庫”。
數據挖掘與傳統(tǒng)分析工具不同的是數據挖掘使用的是基于發(fā)現(xiàn)的方法,運用模式匹配和其它算法決定數據之間的重要聯(lián)系。
數據挖掘的步驟
1.描述數據---計算統(tǒng)計變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來,進而可以看出一些變量之間的相關性。
2.歷史數據建立一個預言模型,然后再用另外一些數據對這個模型進行測試。
3.驗證你的模型
數據挖掘與傳統(tǒng)數據分析方法區(qū)別
(1)數據挖掘的數據源與以前相比有了顯著的改變;數據是海量的;數據有噪聲;數據可能是非結構化的;(2)傳統(tǒng)的數據分析方法一般都是先給出一個假設然后通過數據驗證,在一定意義上是假設驅動的;與之相反,數據挖掘在一定意義上是發(fā)現(xiàn)驅動的,模式都是通過大量的搜索工作從數據中自動提取出來。即數據挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
在缺乏強有力的數據分析工具而不能分析這些資源的情況下,歷史數據庫也就變成了“數據墳墓”-里面的數據幾乎不再被訪問。也就是說,極有價值的信息被“淹沒”在海量數據堆中,領導者決策時還只能憑自己的經驗和直覺。因此改進原有的數據分析方法,使之能夠智能地處理海量數據,即演化為數據挖掘。
數據挖掘方法與過程
? ? ? 方法:決策樹 關聯(lián)規(guī)則 人工神經網絡
粗糙集理論
遺傳算法
過程:1.對數據庫數據整理,抽取出用來完成特定挖掘目標的數據集。2.選擇合適的挖掘方法和工具,在領域專家指導下進行知識獲取研究3.對事物的發(fā)展進行預測
數據采集與處理:從數據倉庫中選取相關的數據集合。知識庫:指導數據挖掘和評價挖掘結果。
數據挖掘:對數據倉庫中提取的數據進行分析處理。
知識評價:是以興趣度作為衡量標準來查找和選擇對最終決策活動友有益的的知識。
OLAP與數據挖掘(DM)的比較 相同之處:OLAP與DM都是數據庫(數據倉庫)上的分析工具;不同之處:(1)前者是驗證型的,后者是挖掘型的;(2)前者建立在多維視圖的基礎之上,強調執(zhí)行效率和對用戶請求命令的及時響應,而且其直接數據源一般是數據倉庫;后者建立在各種數據源的基礎上,重在發(fā)現(xiàn)隱藏在數據深層次的對人們有用的模式,一般并不過多考慮執(zhí)行效率和響應速度。
(3)數據挖掘與OLAP不同,主要體現(xiàn)在它分析數據的深入和分析過程的自動化,自動化的含義是其分析過程不需要客戶的參與,這是它的優(yōu)點,也正是其不足。因為在實際中,客戶也希望參與到挖掘中來,例如只想對數據的某一子集進行挖掘,對不同抽取、集成水平的數據進行挖掘,或是根據自己的需要動態(tài)選擇挖掘算法等等。因此,OLAP與數據挖掘各有所長。
OLAP與OLTP的區(qū)別(1)OLTP主要面向公司職員;OLAP則主要面向公司領導者。(2)OLTP應用主要是用來完成客戶的事務處理,其數據基礎是操作型數據庫,如民航訂票系統(tǒng)、銀行儲蓄系統(tǒng)等等,通常需要進行大量的更新操作,同時對響應時間要求較高;而OLAP是以數據倉庫或數據多維視圖為基礎的數據分析處理,是針對特定問題的聯(lián)機數據訪問和分析,它一般不對倉庫數據作修改處理,而只是查詢,其應用主要是對客戶當前及歷史數據進行分析,輔助領導決策,其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
OLTP
OLAP 面向人群
業(yè)務系統(tǒng)的操作、維護人員
管理、決策者 功能
日常操作處理
分析、決策輔助 實現(xiàn)方式
基于交易的處理系統(tǒng)
基于查詢的分析系統(tǒng) 應用場合 面向生產應用
面向特定主題 數據庫設計
實體-聯(lián)系模型
星形或雪花模型 數據
當前的、最新的細節(jié)數據
歷史的、聚合的數據 響應時間
對響應時間要求非常高
查詢時間長
數據倉庫與數據集市的差別
(1)范圍不同:數據倉庫面向的是整個企業(yè),為整個企業(yè)提供所需的數據;數據集市則面向各個部門。
(2)粒度不同:數據倉庫中的數據粒度非常小;數據集市中的數據主要是概括級的數據。
(3)數據組織方式不同
數據集市中數據的結構通常被描述為星型結構或雪花結構。一個星型結構包含兩個基本部分—一個事實表和各種支持維表。事實表描述數據集市中最密集的數據。在電話公司中,用于呼叫的數據是典型的最密集數據;在銀行中,與賬目核對和自動柜員機有關的數據是典型的最密集數據。對于零售業(yè)而言,銷售和庫存數據是最密集的數據等等。
數據倉庫:是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策。數據倉庫的根本任務:把信息加以整理歸納并及時提供給管理決策人員。主要作用:提供報表和圖表、支持多維分析、數據挖掘的基礎。
數據挖掘:(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
聚類分析:聚類(clustering)就是將數據對象集合進行分析,將數據集劃分為多個類或簇,使得同一類中的數據對象之間具有較高的相似度,而不同類之間的數據對象具有較大的差異度。將上述分析過程稱為??
粒度是指數據倉庫中記錄數據或對數據進行綜合時所使用的時間參數,它決定了數據倉庫中所存儲的數據單元在時間上的詳細程度和級別。分割是指將數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率。
數據分割后的數據單元稱為分片。
元數據:元數據是數據倉庫數據本身信息的數據。不僅包括在數據倉庫建設過程中所產生的有關數據源定義、目標定義、轉換規(guī)則等相關的關鍵數據,而且還包括關于數據含義的商業(yè)信息。
OLTP:是傳統(tǒng)的關系型數據庫的主要應用,主要面對基本的、日常的事務處理。
OLAP:是數據倉庫上的分析展示工具,它建立在數據多維視圖的基礎上。聯(lián)機分析處理。OLAM:OLAP與數據挖掘結合起來,發(fā)展出一種為數據挖掘服務的具有新型OLAP的數據倉庫,將更能適應實際的需要。數據倉庫系統(tǒng)的四個層次體系結構:數據源 數據的存儲與管理 聯(lián)機分析處理
前端工具 數據倉庫設計需考慮的四種視圖:自頂向下視圖 數據源視圖 數據倉庫視圖 商務查詢視圖 數據倉庫設計
自上而下 自底而上
混合的方法
數據倉庫建模
數據倉庫通常采三層結構:底層:數據倉庫服務器 中間層:OLAP服務器 頂層:前端工具 ETL:是數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。是構建數據倉庫的重要一環(huán),用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
神經網絡:神經網絡是由許許多多的被稱為神經元或網絡節(jié)點的基本單元構成,而這些基本單元則模仿了人腦中的神經元。將多個基本單元以某種適當的方式連接起來,就構成了神經網絡。
決策樹:又稱為判定樹,是一個類似于流程圖的樹型結構。決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。在決策樹的圖形表示中,矩形表示內部結點,橢圓表示葉子結點,短線表示分枝,分枝上的標注表示一次測試的輸出結果。
關聯(lián)規(guī)則:是數據挖掘的一個重要內容,它反映了一個變量與其他變量之間的相互依存性和關聯(lián)性;其中,關聯(lián)是指在兩個或兩個以上變量取值之間所存在的某種規(guī)律性。關聯(lián)規(guī)則挖掘:是為了發(fā)現(xiàn)變量之間的這種依存性和關聯(lián)性的規(guī)則,并利用令人感興趣的規(guī)則來預測多個變量之間潛在的關聯(lián)或是通過其他變量來預測一個變量的存在。
文本數據挖掘:也稱文本挖掘,它是將文本信息源作為分析對象,利用智能算法,并結合文字處理技術,分析大量非結構化文本源,從中尋找信息的結構、模型、模式等各種隱含的知識。
遺傳算法:是一種基于生物進化過程中自然選擇與遺傳機制的模擬算法,該算法是模擬達爾文主義“適者生存”思想的一種全局優(yōu)化方法,實質是一種繁衍、檢測和評價的迭代算法。
? 數據分類的基本技術有:判定樹歸納、貝葉斯分類、貝葉斯網絡、神經網絡等; ? 預測的方法主要有:線性的、非線性的、廣義線性回歸。
數據倉庫中的不同綜合級別,稱為“粒度”。粒度越大,表示細節(jié)程度越低,綜合程度越高。元數據(metadata):關于數據的數據。粗糙集:能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。
用于從數據庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。
對數據立方體的典型操作包括:切片、切塊以及旋轉等。多維數據模型:是為了滿足用戶從多角度多層次進行數據查詢和分析的需要而建立起來的基于事實和維的數據庫模型,其基本的應用是為了實現(xiàn)OLAP(Online Analytical Processing)維(Dimension):是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。
維的層次(Level):人們觀察數據的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member):維的一個取值,是數據項在某維中位置的描述。度量(Measure):多維數組的取值。
星型模式:是最常見的模型范式。這種模式的數據倉庫包含:一個大的事實表和一組小的維表。事實表:包含大批數據和不含冗余的中心表
維表:附屬表,每維一個表
雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數據被進一步分解到附加的表中。
多維數據模型上的OLAP操作:有鉆取、切片和切塊、以及旋轉等。
鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細節(jié)數據概括到高層次的匯總數據,或者減少維數;而Drill-down則相反,它從匯總數據深入到細節(jié)數據進行觀察或增加新維。
切片和切塊:是在一部分維上選定值后,關心度量數據在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個或以上,則是切塊。
旋轉:是變換維的方向,即在表格中重新安排維的放置。
OLAM產生的原因
一方面,分析工具OLAP功能雖強大,能為客戶端應用程序提供完善的查詢和分析,但它也存在以下不足:
1)OLAP是一種驗證型分析工具,是由用戶驅動的。即在某個假設的前提下通過數據查詢和分析來驗證或否定這個假設,這很大程度上受到用戶假設能力的限制。
2)OLAP分析事先需要對用戶的需求有全面而深入的了解,然而用戶的需求并不是確定的,難以把握。所以OLAP分析常常采用試湊法在大型數據庫或倉庫中搜索,不僅花時間,而且可能產生一些無用的結果。
3)即使搜索到了有用的信息,由于缺乏應有的維度,從不同的視圖得到的結果可能并不相同,容易產生誤導。
另一方面,數據挖掘雖然可以使用復雜算法來分析數據和創(chuàng)建模型表示有關數據的信息,用戶也不必提出確切的要求,系統(tǒng)就能夠根據數據本身的規(guī)律性,自動地挖掘數據潛在的模式,或通過聯(lián)想,建立新的業(yè)務模型以輔助決策。但它也存在一些缺點:
1)DM是挖掘型分析工具,是由數據驅動的。用戶需要事先提出挖掘任務。但對于用戶來講,很多時候預先是不知道想挖掘什么樣的知識的。
2)由于數據庫或數據倉庫中存有大量數據和信息,用戶僅僅指出挖掘任務,而不提供其他搜索線索,這樣DM工具就會遍歷整個數據庫,導致搜索空間太大。計算機將處于長時間的工作,而且結果中可能會生成很多無用信息。
3)即使挖掘出了潛在有價值的信息,但它究竟用來做什么分析用,用戶也可能不清楚。
兩種技術各存在不足,但同時也可以相輔相成。如果將OLAP同DM配合集成,一方面OLAP的分析結果給DM提供挖掘的依據,引導DM的進行;另一方面,在數據挖掘的結果中進行OLAP分析,則OLAP分析的深度就可拓展。這樣用戶就可以靈活選擇所需的數據挖掘功能,并動態(tài)交換挖掘任務,在數據倉庫的基礎上提供更有效的決策支持。鑒于OLAP與DM技術在決策分析中的這種互補性,促成了OLAM技術的形成。
數據倉庫、數據挖掘在電子商務中的應用
1.控制商品庫存
對于零售業(yè),庫存銷量比是一個重要的效率指標。通過使用數據倉庫,企業(yè)可以隨時跟蹤庫存,及時通過網上供貨商補充,實現(xiàn)了庫存商品的有效控制。比如美國沃瑪特連鎖店,數據倉庫規(guī)模從最初的6 萬億字節(jié)增加到現(xiàn)在的100 萬億字節(jié),實現(xiàn)了存貨少效益高的良性循環(huán),始終保持著行業(yè)領先。2.減少跳線率
對于航空、銀行等服務性行業(yè),由于行業(yè)競爭激烈,存在“跳線”的現(xiàn)象,即客戶從A 公司跳到B 公司,幾個月后又重新回到A 公司,導致企業(yè)資金浪費。采用數據倉庫后,進行數據挖掘,預測客戶跳線機率,在客戶跳線之前盡可能挽留,減少跳線率。3.客戶跟蹤
目前在電子商務網站中,84%的在線交易沒有跟蹤客戶;96%的在線交易不能提供符合客戶的個性化服務;75%的在線交易無法辨別重復客戶;導致電子商務企業(yè)不能抓住已有的客戶,更不用談潛在客戶的發(fā)展,喪失了該部分重要的資源。隨著客戶個性化需求的逐步增加,電子商務企業(yè)更是無從招架。當啟用數據倉庫后,網站能夠對客戶的信息以及瀏覽頁面進行整理并存儲,當客戶再次訪問后,數據倉庫就會為客戶提出相應的擴展服務,使顧客能夠更加信任該網站,進而提升了該企業(yè)的效益。4.聚類客戶
在電子商務中,通過客戶相似瀏覽行為和客戶的共同特征進行分析,深層次挖掘和分析企業(yè)的客戶、市場、銷售、服務與支信息,可以幫助電子商務的組織者及時了解客戶,盡可能滿足客戶需求,向客戶提供更適合的服務。
5.提供優(yōu)質個性化服務,提高客戶忠誠度在電子商務活動中,網站的內容、標題、獎勵方案、服務等方面都可能吸引客戶。由于電子商務網站的眾多,客戶可以很方便的在網站間切換,因此電子商務網站應該能夠對客戶訪問信息進行挖掘,通過客戶的瀏覽行為,從而了解客戶的忠誠度、喜好及需求,快速調整WEB 頁面滿足客戶的需求。比如京東網,通過分析客戶瀏覽的頁面,運用數據挖掘中的序列模式發(fā)現(xiàn)技術進行挖掘,可以把客戶需求的相關物品呈現(xiàn)出來,方便客戶挑選,6.提高點擊率,完善電子商務網站設計通過數據挖掘技術,分析客戶的行為記錄和反饋行為,電子商務企業(yè)可以更加有效地優(yōu)化網站結構,提高網站的點擊率。例如通過關聯(lián)規(guī)則,針對客戶需求,調整站點結構,把客戶訪問過的有關聯(lián)的文件進行直接鏈接,從而使客戶很容易訪問想要的頁面,增加客戶再次訪問的概率。
7.決策信息服務
數據倉庫用于實現(xiàn)對決策主體數據的存儲和綜合,通過從源數據庫中抽取、清理、集成和轉換,提供標準的報表和圖表;通過從多種角度構建多維數據模型,采用聯(lián)機分析處理實現(xiàn)多維數據分析;進而挖掘出隱藏在數據背后的模式和信息,可以針對整個企業(yè)的狀況和未來發(fā)展做出比較完整、合理、準確的分析和預測,從而為企業(yè)提供了多方位的決策支持。
結論:由于電子商務領域擁有豐富的信息資源,為企業(yè)實施數據倉庫和數據挖掘技術提供了良好的基礎;同時,數據倉庫和數據挖掘技術又為電子商務提供了有力的技術支持,加快了電子商務的發(fā)展和普及。在電子商務活動中,數據倉庫、數據挖掘技術已成為數據管理、信息處理領域最熱門的技術之一。通過對源數據的整理、歸納,它可以幫助決策者查找數據間的潛在關聯(lián),發(fā)現(xiàn)隱藏在數據背后的信息,不僅可以預測客戶的消費趨勢以及進一步的市場走向,而且可以指導電子商務企業(yè)提高網站運行效率,進一步改善企業(yè)客戶關系,提高銷售額,具有良好的發(fā)展和應用前景。