第一篇:幾大數(shù)據(jù)倉庫方案特性比較
幾大數(shù)據(jù)倉庫方案特性比較
減小字體 增大字體 作者:無從考證來源:源碼之村發(fā)布時間:2005-11-15 9:57:45
IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有實力的公司相繼(通過收購或研發(fā)的途徑)推出了自己的數(shù)據(jù)倉庫解決方案,BO和Brio等專業(yè)軟件公司也在前端在線分析處理工具市場上占有一席之地。下面針對這些數(shù)據(jù)倉庫解決方案的性能和特點做分析和比較。
IBM公司提供了一套基于可視數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及來自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW是一個功能很強的集成環(huán)境,既可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。
Essbase/DB2 OLAP Server支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服務(wù)器,而是一個(ROLAP和MOLAP)混合的HOLAP服務(wù)器,在Essbase完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2 UDB數(shù)據(jù)庫中。嚴格說來,IBM自己并沒有提供完整的數(shù)據(jù)倉庫解決方案,該公司采取的是合作伙伴戰(zhàn)略。例如,它的前端數(shù)據(jù)展現(xiàn)工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多維分析工具支持Arbor Software的Essbase和IBM(與Arbor聯(lián)合開發(fā))的DB2 OLAP服務(wù)器;統(tǒng)計分析工具采用SAS系統(tǒng)。
Oracle數(shù)據(jù)倉庫解決方案主要包括Oracle Express和Oracle Discoverer兩個部分。
Oracle Express由四個工具組成:Oracle Express Server是一個MOLAP(多維OLAP)服務(wù)器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存,同時也能夠訪問多種關(guān)系數(shù)據(jù)庫;Oracle Express Web Agent通過CGI或Web插件支持基于Web的動態(tài)多維數(shù)據(jù)展現(xiàn);
Oracle Express Objects前端數(shù)據(jù)分析工具(目前僅支持Windows平臺)提供了圖形化建模和假設(shè)分析功能,支持可視化開發(fā)和事件驅(qū)動編程技術(shù),提供了兼容 Visual Basic語法的語言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最終用戶的報告和分析工具(目前僅支持Windows平臺)。Oracle Discoverer即席查詢工具是專門為最終用戶設(shè)計的,分為最終用戶版和管理員版。在Oracle數(shù)據(jù)倉庫解決方案實施過程中,通常把匯總數(shù)據(jù)存儲在Express多維數(shù)據(jù)庫中,而將詳細數(shù)據(jù)存儲在Oracle關(guān)系數(shù)據(jù)庫中,當(dāng)需要詳細數(shù)據(jù)時,Express Server通過構(gòu)造SQL語句訪問關(guān)系數(shù)據(jù)庫。但目前的Express還不夠靈活,數(shù)據(jù)倉庫設(shè)計的一個變化往往導(dǎo)致數(shù)據(jù)庫的重構(gòu)。另外,目前的 Oracle 8i和Express 之間集成度還不夠高,Oracle 8i和Express之間需要復(fù)制元數(shù)據(jù),如果Oracle Discoverer(或BO)需要訪問匯總數(shù)據(jù),則需要將匯總數(shù)據(jù)同時存放在Oracle和Express中,系統(tǒng)維護比較困難。值得注意的是,剛剛問世的Oracle 9i把OLAP和數(shù)據(jù)挖掘作為重要特點。
Sybase提供的數(shù)據(jù)倉庫解決方案稱為Warehouse Studio,包括數(shù)據(jù)倉庫的建模、數(shù)據(jù)抽取與轉(zhuǎn)換、數(shù)據(jù)存儲與管理、元數(shù)據(jù)管理以及可視化數(shù)據(jù)分析等工具。其中,Warehouse Architect是PowerDesigner中的一個設(shè)計模塊,它支持星形模型、雪花模型和ER模型;數(shù)據(jù)抽取與轉(zhuǎn)換工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可視化數(shù)據(jù)遷移工具。Adaptive Server Enterprise是Sybase企業(yè)級關(guān)系數(shù)據(jù)庫,Adaptive Server IQ是Sybase公司專為數(shù)據(jù)倉庫設(shè)計的關(guān)系數(shù)據(jù)庫,它為高性能決策支持系統(tǒng)和數(shù)據(jù)倉庫的建立作了優(yōu)化處理,Sybase IQ支持各種流行的前端展現(xiàn)工具(如Cognos Impromptu、Business Objects、Brio Query等);數(shù)據(jù)分析與展現(xiàn)工具包括
PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是圖形化的OLAP分析工具,它支持SMP和多維緩存技術(shù),能夠集成異構(gòu)的關(guān)系型數(shù)據(jù)倉庫和分布式數(shù)據(jù)集市,從而形成單一的、新型的多維模式;數(shù)據(jù)倉庫的維護與管理工具包括
Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是為數(shù)據(jù)倉庫開發(fā)人員提供的元數(shù)據(jù)管理工具。Sybase提供了完整的數(shù)據(jù)倉庫解決方案Quick Start DataMart,具有良好的性能,并支持第三方數(shù)據(jù)展現(xiàn)工具。從Quick Start DataMart的名稱不難看出,它尤其適合于數(shù)據(jù)集市應(yīng)用。另外,Sybase可以提供面向電信、金融、保險、醫(yī)療保健這4個行業(yè)的客戶關(guān)系管理(CRM)產(chǎn)品,在這4個產(chǎn)品中,有80%的功能是共性的,有20%的功能需要Sybase與合作伙伴針對不同需求共同開發(fā)。
Informix于1998和1999年相繼收購了國際上享有盛譽的數(shù)據(jù)倉庫供應(yīng)商Red Brick System和數(shù)據(jù)管理軟件供應(yīng)商Ardent,并提供了完整、集成的數(shù)據(jù)倉庫解決方案。該解決方案還包括一個“快速啟動”咨詢服務(wù),能夠幫助用戶快速完成數(shù)據(jù)倉庫或數(shù)據(jù)集市的開發(fā)。Informix產(chǎn)品能夠集成Microsoft IIS或Netscape Enterprise/FastTrack服務(wù)器,從而支持基于Web的數(shù)據(jù)倉庫應(yīng)用。Informix沒有提供自己的報表和數(shù)據(jù)挖掘工具,但他們與Brio和SAS公司建立了戰(zhàn)略聯(lián)盟,并推出了“Informix商務(wù)智能聯(lián)盟計劃”。該計劃以Informix為主,結(jié)合Brio的前端數(shù)據(jù)分析和報表功能,以及SAS的數(shù)據(jù)挖掘功能,形成了一個“BI中心”打包方案。(今年4月Informix Software已被IBM公司收購,此舉將給IBM公司數(shù)據(jù)庫及數(shù)據(jù)倉庫產(chǎn)品,從技術(shù)和市場占有率上帶來極大的提升。)
CA于1999年收購了Platinum Technology公司后,得到了完整的數(shù)據(jù)倉庫解決方案,包括:Erwin數(shù)據(jù)倉庫設(shè)計工具、InfoPump數(shù)據(jù)轉(zhuǎn)換與抽取工具、InfoBeacon ROLAP服務(wù)器、Forest&Trees前端數(shù)據(jù)展現(xiàn)工具、Provision系統(tǒng)監(jiān)視與作業(yè)調(diào)度工具和DecisionBase元數(shù)據(jù)管理工具等。與Informix 解決方案相似,CA解決方案也提供了數(shù)據(jù)倉庫建模、元數(shù)據(jù)管理、數(shù)據(jù)抽取與轉(zhuǎn)換、基于關(guān)系數(shù)據(jù)庫的在線分析服務(wù)器、系統(tǒng)監(jiān)視與作業(yè)調(diào)度、前端數(shù)據(jù)展現(xiàn)等功能,同時還支持Web應(yīng)用。不同之處是Informix提供了專門為數(shù)據(jù)倉庫設(shè)計的高性能目標數(shù)據(jù)庫(Red Birck),而CA解決方案則提供ODBC接口,并將數(shù)據(jù)存儲在第三方關(guān)系數(shù)據(jù)庫(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能要打一些折扣,但開放性要好些。另外,CA的OLAP服務(wù)器目前只能與Microsoft的IIS Web服務(wù)器集成。
NCR Teradata是高端數(shù)據(jù)倉庫市場最有力的競爭者,主要運行在NCR WorldMark SMP硬件的Unix操作系統(tǒng)平臺上。1998年,該公司也提供了基于
Windows NT的Teradata,試圖開拓數(shù)據(jù)集市(Data Mart)市場??偟膩砜?,NCR的產(chǎn)品性能很好,Teradata數(shù)據(jù)倉庫在100GB、300GB、1TB和3TB級的TPCD指標測試中均創(chuàng)世界紀錄。但是,NCR產(chǎn)品的價格相對較高,中小企業(yè)用戶難以接受。
Microsoft將OLAP功能集成到Microsoft SQL Server 7.0中,提供可擴充的基于COM的OLAP接口。它通過一系列服務(wù)程序支持數(shù)據(jù)倉庫應(yīng)用。數(shù)據(jù)傳輸服務(wù)DTS
(Data Transformation Services)提供數(shù)據(jù)輸入/輸出和自動調(diào)度功能,在數(shù)據(jù)傳輸過程中可以完成數(shù)據(jù)的驗證、清洗和轉(zhuǎn)換等操作,通過與Microsoft Repository集成,共享有關(guān)的元數(shù)據(jù);Microsoft Repository存儲包括元數(shù)據(jù)在內(nèi)的所有中間數(shù)據(jù);SQL Server OLAP Services支持在線分析處理;PivotTable Services提供客戶端OLAP數(shù)據(jù)訪問功能,通過這一服務(wù),開發(fā)人員可以用VB或其他語言開發(fā)用戶前端數(shù)據(jù)展現(xiàn)程序,PivotTable Services還允許在本地客戶機上存儲數(shù)據(jù);MMC(Microsoft Management Console)提供日程安排、存儲管理、性能監(jiān)測、報警和通知的核心管理服務(wù);Microsoft Office 2000套件中的Access和Excel可以作為數(shù)據(jù)展現(xiàn)工具,另外SQL Server還支持第三方數(shù)據(jù)展現(xiàn)工具。
SAS公司在20世紀70年代以“統(tǒng)計分析”和“線性數(shù)學(xué)模型”而享譽業(yè)界,90年代以后,SAS公司也加入了數(shù)據(jù)倉庫市場的競爭,并提供了特點鮮明的數(shù)據(jù)倉庫解決方案,包括30多個專用模塊。其中,SAS/WA(Warehouse Administrator)是建立數(shù)據(jù)倉庫的集成管理工具,包括定義主題、數(shù)據(jù)轉(zhuǎn)換與匯總、更新匯總數(shù)據(jù)、元數(shù)據(jù)管理、數(shù)據(jù)集市的實現(xiàn)
等; SAS/MDDB是SAS用于在線分析的多維數(shù)據(jù)庫服務(wù)器;SAS/AF提供了屏幕設(shè)計功能和用于開發(fā)的SCL(屏幕控制語言);SAS/ITSV(IT Service Vision)是IT服務(wù)的性能評估和管理的軟件,這些IT服務(wù)包括計算機系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、Web服務(wù)器和電話系統(tǒng)等。SAS系統(tǒng)的優(yōu)點是功能強、性能高、特長突出,缺點是系統(tǒng)比較復(fù)雜。
Business Objects(BO)是集查詢、報表和OLAP技術(shù)為一身的智能決策支持系統(tǒng)。它使用
獨特的“語義層”技術(shù)和“動態(tài)微立方”技術(shù)來表示數(shù)據(jù)庫中的多維數(shù)據(jù),具有較好的查詢和報表功能,提供鉆取(Drill)等多維分析技術(shù),支持多種數(shù)據(jù)庫,同時它還支持基于Web瀏覽器的查詢、報表和分析決策。雖然BO 在不斷增加新的功能,但從嚴格意義上說,BO只能算是一個前端工具。也許正因為如此,幾乎所有的數(shù)據(jù)倉庫解決方案都把BO作為可選的數(shù)據(jù)展現(xiàn)工具。雖然國內(nèi)有很多大學(xué)和研究機構(gòu)從事數(shù)據(jù)倉庫技術(shù)的研究,但到目前為止,國內(nèi)基本上沒有成熟的數(shù)據(jù)倉庫解決方案。
第二篇:數(shù)據(jù)倉庫建設(shè)方案
1.數(shù)據(jù)倉庫概述
經(jīng)過多年IT的建設(shè),信息對于XXX的日常管理已經(jīng)日益重要,并逐漸成為重要的信息資產(chǎn),信息資產(chǎn)的管理已經(jīng)成為日常管理中一個非常重要的環(huán)節(jié)。如何管理和利用好XXX內(nèi)部紛繁的數(shù)據(jù)也越來越成為信息管理的一項重要工作。
在過去相當(dāng)一段時間內(nèi),XXX業(yè)務(wù)系統(tǒng)的構(gòu)建主要圍繞著業(yè)務(wù)的數(shù)據(jù)展開,應(yīng)用的構(gòu)建多是自下而上構(gòu)建,主要以滿足某個部門的業(yè)務(wù)功能為主,我們稱之為業(yè)務(wù)處理的時代。這樣的構(gòu)建方式造成了一個個分立的應(yīng)用,分立的應(yīng)用導(dǎo)致了一個個的靜態(tài)豎井。由于數(shù)據(jù)從屬于應(yīng)用,缺乏XXX全局的單一視圖,形成了一個個信息孤島,分立的系統(tǒng)之間缺乏溝通,同樣數(shù)據(jù)的孤島導(dǎo)致只能獲得片面的信息,而不是全局的單一視圖。存儲這些信息的載體可能是各種異構(gòu)或同構(gòu)的關(guān)系型數(shù)據(jù)庫,也有可能是XML、EXCEL等文件。因此,構(gòu)建新一代的一體化平臺提上了日程并最終促成全域數(shù)據(jù)的管理方式,目的是覆蓋XXX各個環(huán)節(jié)的關(guān)鍵業(yè)務(wù)數(shù)據(jù),完善元數(shù)據(jù)管理,形成全局的數(shù)據(jù)字典、業(yè)務(wù)數(shù)據(jù)規(guī)范和統(tǒng)一的業(yè)務(wù)指標含義,能夠靈活的獲取XXX業(yè)務(wù)數(shù)據(jù)的單一視圖(需要保證數(shù)據(jù)的一致性、完整性、準確性和及時性)。數(shù)據(jù)的交換和共享主要發(fā)生在上下級組織機構(gòu)之間或同級的不同部門之間。最終,這些數(shù)據(jù)可以為部隊分析、決策支持(多維分析、即席查詢、數(shù)據(jù)挖掘)等應(yīng)用提供更及時、準確、有效的支持。
數(shù)據(jù)倉庫的目標是實現(xiàn)跨系統(tǒng)數(shù)據(jù)共享,解決信息孤島,提升數(shù)據(jù)質(zhì)量,輔助決策分析,提供統(tǒng)一的數(shù)據(jù)服務(wù)。同時,數(shù)據(jù)倉庫的構(gòu)建也面臨著各種挑戰(zhàn),比如信息整合在技術(shù)上的復(fù)雜度、信息整合的管理成本、數(shù)據(jù)資源的獲取、信息整合的實施周期以及整合項目的風(fēng)險等。
Page 2 of 7 2.全域數(shù)據(jù)庫總體架構(gòu)
展示層應(yīng)用層多維分析門戶統(tǒng)一授權(quán)服務(wù)手機平板電腦單點登錄PC即席查詢報表統(tǒng)計統(tǒng)計分析預(yù)測分析分析型管理流程整合數(shù)據(jù)整合空間數(shù)據(jù)其他應(yīng)用基礎(chǔ)服務(wù)層應(yīng)用服務(wù)器服務(wù)總線工作流引擎消息中間件OLAP引擎數(shù)據(jù)挖掘引擎事件驅(qū)動規(guī)則引擎協(xié)同工作主數(shù)據(jù)管理引擎大數(shù)據(jù)分析引擎知識內(nèi)容管理引擎空間地理數(shù)據(jù)引擎數(shù)據(jù)存儲區(qū)OSD數(shù)據(jù)倉庫數(shù)據(jù)集市特征庫模型庫預(yù)測數(shù)據(jù)地理數(shù)據(jù)MDMHUB共享數(shù)據(jù)庫大數(shù)據(jù)流媒體數(shù)據(jù)信息治理、元數(shù)據(jù)管理IT安全運維管理IT綜合監(jiān)控交換服務(wù)體系數(shù)據(jù)聯(lián)邦數(shù)據(jù)復(fù)制數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換大數(shù)據(jù)流消息隊列流程服務(wù)信息服務(wù)交互服務(wù)消息服務(wù)數(shù)據(jù)層(ISB)應(yīng)用層關(guān)系型數(shù)據(jù)源非關(guān)系型數(shù)據(jù)源傳感器/監(jiān)控數(shù)據(jù)源核心業(yè)務(wù)邊防一體化其他XMLExcelWeb服務(wù)消息隊列文本數(shù)據(jù)攝像頭虛擬傳感器智能傳感器基礎(chǔ)設(shè)施層(網(wǎng)絡(luò)、存儲、硬件、系統(tǒng)軟件)全域數(shù)據(jù)庫總體架構(gòu)
全域數(shù)據(jù)庫總體的層次,最下面是基礎(chǔ)架構(gòu)層,主要包括支撐這一架構(gòu)運行的主機系統(tǒng)、存儲備份系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)等內(nèi)容。從下往上看,再上面是數(shù)據(jù)源層,既包括各個業(yè)務(wù)的關(guān)系型數(shù)據(jù)源、內(nèi)容管理數(shù)據(jù)源也包括半結(jié)構(gòu)化數(shù)據(jù)源比如XML、EXCEL等,也包括各個總隊、支隊的業(yè)務(wù)數(shù)據(jù)源。
數(shù)據(jù)源層之上是“交換服務(wù)體系”,主要包括信息服務(wù)總線和服務(wù)總線兩部分。信息服務(wù)總線主要實現(xiàn)數(shù)據(jù)層的信息整合和數(shù)據(jù)轉(zhuǎn)換,而服務(wù)總線主要實現(xiàn)應(yīng)用層的信息交換和整合。信息服務(wù)總線主要依托聯(lián)邦、復(fù)制、清洗、轉(zhuǎn)換等技術(shù)實現(xiàn),其主要包括信息整合服務(wù)和清洗轉(zhuǎn)換加載服務(wù)兩部分。通過信息服務(wù)總線的信息整合服務(wù)(數(shù)據(jù)聯(lián)邦、復(fù)制),可以透明、實時的訪問分布在總隊和支隊的各個業(yè)務(wù)系統(tǒng)中的各種同構(gòu)、異構(gòu)數(shù)據(jù)(前提是擁有足夠的權(quán)限)。信息整合服務(wù)在整個XXX層面保證
Page 3 of 7 了數(shù)據(jù)的完整性和及時性。信息服務(wù)主要使用兩種技術(shù)來完成這一功能:聯(lián)邦和復(fù)制。通過聯(lián)邦功能可以把關(guān)系數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查詢和內(nèi)容源)組成一個邏輯數(shù)據(jù)庫,對這些數(shù)據(jù)源中的表可以像操作本地數(shù)據(jù)庫表一樣進行操作,而不必關(guān)心我們操作的這些數(shù)據(jù)底層是什么數(shù)據(jù)源,物理在什么位置。而針對大數(shù)據(jù)量的數(shù)據(jù)訪問或高并發(fā)的訪問,通常將源數(shù)據(jù)增量實時復(fù)制到本地,復(fù)制的實現(xiàn)是基于對源數(shù)據(jù)庫的日志進行捕獲,獲取增量數(shù)據(jù),并基于消息的機制將其復(fù)制到目的數(shù)據(jù)庫,復(fù)制的過程中可以實現(xiàn)數(shù)據(jù)的合并、拆分、轉(zhuǎn)換等操作。
信息服務(wù)總線主要完成數(shù)據(jù)的分析、清洗(標準化)、轉(zhuǎn)換、加載等工作。數(shù)據(jù)清洗,主要是去除冗余數(shù)據(jù),將零散字段合并成全局記錄,并解決重疊和矛盾的數(shù)據(jù),然后通過添加關(guān)系和層次結(jié)構(gòu)完善豐富信息。首先面臨的挑戰(zhàn)就是如何更有效的識別現(xiàn)有的業(yè)務(wù)系統(tǒng),包括業(yè)務(wù)系統(tǒng)使用的分類方法、層次結(jié)構(gòu)、數(shù)據(jù)分布、數(shù)據(jù)字典等。如果數(shù)據(jù)字典不完整或缺失,就要通過方法找出其數(shù)據(jù)的存儲結(jié)構(gòu)以及各個表之間的主外鍵關(guān)聯(lián)、各表之間的轉(zhuǎn)換關(guān)系等,同樣,數(shù)據(jù)的分布情況同樣可以使用分析功能來完成。在對現(xiàn)有數(shù)據(jù)足夠了解的基礎(chǔ)上(完成了數(shù)據(jù)的分析),接下來就要制定數(shù)據(jù)的清洗規(guī)則以及轉(zhuǎn)換規(guī)則,其中,清洗規(guī)則又分為兩種情況,一種清洗規(guī)則是明確的,另一種清洗規(guī)則是模糊的,比如不同系統(tǒng)中存儲的地址信息,“南京市定淮門大街9號”和“江蘇省南京市下關(guān)區(qū)定淮門大街9號”實際上是一個地址,但計算機會當(dāng)成兩個地址來處理。概率匹配功能和動態(tài)權(quán)重策略可以匹配創(chuàng)建高質(zhì)量、準確的數(shù)據(jù),并在整個數(shù)據(jù)域中一致地識別核心業(yè)務(wù)信息,如人名、位置、和時間。
數(shù)據(jù)清洗、轉(zhuǎn)換、加載服務(wù)對保障數(shù)據(jù)的準確性和一致性非常重要。在不同的系統(tǒng)中,對同一業(yè)務(wù)會使用不同的分類方法,同樣,數(shù)據(jù)的類別和層次結(jié)構(gòu)也會不同。需要通過數(shù)據(jù)清洗、轉(zhuǎn)換、加載層實現(xiàn)對這些信息格式的轉(zhuǎn)換,匹配成通用的信息格式和分類方法,以便提供整個XXX業(yè)務(wù)層面聚合的業(yè)務(wù)視圖。實際證明一體化平臺(一期)的全域數(shù)據(jù)梳理中,手工統(tǒng)計可以完成這項工作但不夠好,不夠直觀和沒有擴展延續(xù)能力。數(shù)據(jù)清洗、轉(zhuǎn)換、加載工作對未來數(shù)據(jù)的使用非常重要,即使有工具幫助,工作量依然很大。雖然,開始的時候,這項工作看起來費時費力,但從長遠來看,它使得基于這些數(shù)據(jù)的業(yè)務(wù)流程和統(tǒng)一數(shù)據(jù)視圖實現(xiàn)自動化,并減少了人為干預(yù)不準確或不一致數(shù)據(jù)的努力,從而節(jié)省了大量成本。XXX層面的單一視圖一經(jīng)建立,其維護必將是一個持續(xù)進行的過程。
Page 4 of 7 數(shù)據(jù)的管理通常需要一個管理組織來對沖突或缺失的數(shù)據(jù)進行決策,組織會通常需要各個業(yè)務(wù)部門的人參與,而不僅僅局限于通技處或信息中心的人。XXX單一數(shù)據(jù)視圖的維護,很多業(yè)務(wù)部門都做的不夠好,時間一久,很多業(yè)務(wù)部門就變得厭倦,數(shù)據(jù)清洗轉(zhuǎn)換的工作沒有堅持下去。一旦數(shù)據(jù)的準確性出現(xiàn)問題,業(yè)務(wù)系統(tǒng)的全局共享就無法再從中獲益。
交換服務(wù)體系中的服務(wù)總線主要基于流程服務(wù)、傳輸服務(wù)、交換服務(wù)等實現(xiàn)。通過使用總線,可以支持各種協(xié)議以及數(shù)據(jù)格式的數(shù)據(jù)交互。通過搭建一個基于標準的、開發(fā)的、易于集成的、總線方式的服務(wù)總線,通過今后對現(xiàn)有系統(tǒng)的逐步升級改造,系統(tǒng)之間以一種成為“服務(wù)”的接口方式統(tǒng)一通過總線方式進行交互,通過對服務(wù)的管理,系統(tǒng)之間交互的信息格式的差異、傳輸協(xié)議的差異、采用技術(shù)的差異、物理位置的不同等等這些問題都由這個總線來進行屏蔽。進一步通過流程管理,將模塊和系統(tǒng)之間的服務(wù)按照業(yè)務(wù)流程的需要進行編排,做到了“隨需而變”。
數(shù)據(jù)存儲區(qū)包括ODS、數(shù)據(jù)倉庫/數(shù)據(jù)集市、共享數(shù)據(jù)庫、特征庫、模型庫等,主要提供各種數(shù)據(jù)的存儲服務(wù)。其中,邏輯視圖中ODS部分存放了整個XXX單位全局級的明細數(shù)據(jù),而數(shù)據(jù)倉庫數(shù)據(jù)集市中存儲了不同級別的匯總數(shù)據(jù)。特征庫主要存放各種數(shù)據(jù)分群特征、業(yè)務(wù)分類特征等業(yè)務(wù)信息,模型庫存放構(gòu)建的各種業(yè)務(wù)模型信息等。
基礎(chǔ)服務(wù)層主要包括“應(yīng)用服務(wù)器”,“服務(wù)總線”,“工作流引擎”,“消息中間件”,“OLAP引擎”,“數(shù)據(jù)挖掘引擎”,“事件驅(qū)動”,“規(guī)則引擎”,“協(xié)同工作”和“空間地理數(shù)據(jù)引擎”。
應(yīng)用層包括各種應(yīng)用,其中多維分析、即席查詢、報表統(tǒng)計、圖形展現(xiàn)等。右邊的信息治理層主要是為了保證數(shù)據(jù)的完整性、一致性、準確性、及時性,保證歷史數(shù)據(jù)正確歸檔并在需要的時候可以和現(xiàn)有數(shù)據(jù)一起被聯(lián)合訪問,提供數(shù)據(jù)庫安全、審計、監(jiān)控和合規(guī)服務(wù),從而防止內(nèi)部人員偷竊,防范欺詐作假,保護數(shù)據(jù)隱私,強制執(zhí)行安全規(guī)范,強制滿足合規(guī)的要求,防止外部攻擊對數(shù)據(jù)的破壞。
而元數(shù)據(jù)管理會貫穿數(shù)據(jù)業(yè)務(wù)層面、業(yè)務(wù)系統(tǒng)、信息整合服務(wù)總線、ETL層、數(shù)據(jù)存儲區(qū)、信息服務(wù)層、展現(xiàn)層等各個層面,當(dāng)數(shù)據(jù)口徑出現(xiàn)問題時,能夠提供數(shù)據(jù)在各個層面的正向/逆向追蹤功能。元數(shù)據(jù)的管理涉及業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)兩種。
Page 5 of 7 3.數(shù)據(jù)倉庫架構(gòu)
離線報表多維分析即席查詢報表統(tǒng)計數(shù)據(jù)挖掘決策管理預(yù)測分析ODS數(shù)據(jù)倉庫邏輯數(shù)據(jù)倉庫層數(shù)據(jù)集市共享數(shù)據(jù)視圖信息治理數(shù)據(jù)清洗、轉(zhuǎn)換、加載 信息整合服務(wù)(聯(lián)邦、復(fù)制)元數(shù)據(jù)管理基礎(chǔ)數(shù)據(jù)干部數(shù)據(jù)梅沙數(shù)據(jù)空間數(shù)據(jù)警務(wù)數(shù)據(jù)其他數(shù)據(jù)庫交換數(shù)據(jù)庫數(shù)據(jù)交換相關(guān)業(yè)務(wù)單位數(shù)據(jù)倉庫總體架構(gòu)
1)多維分析
從數(shù)據(jù)的全方位了解現(xiàn)狀,管理人員往往希望從不同的角度來審視業(yè)務(wù)數(shù)值,比如從時間、地域、類別、功能來看同一類數(shù)據(jù)的總和。每一個分析的角度可以叫做一個維,因此,把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張報表。由此產(chǎn)生了在線多維分析功能,根據(jù)用戶常用的多種分析角度,事先計算好一些輔助結(jié)構(gòu),以便在查詢時能盡快抽取到所要的記錄,并快速地從一維轉(zhuǎn)變到另一維,將不同角度的信息以數(shù)字、直方圖、餅圖、曲線等等方式展現(xiàn)在您面前。
2)即席查詢
可以將數(shù)據(jù)進行查詢分組,進行資源的管理,可以設(shè)置查詢優(yōu)先級,可以自動控制,調(diào)度復(fù)雜查詢和進行跟蹤分析查詢??梢园凑找韵轮匾椒ㄟM行使用,主動和動態(tài)地控制 數(shù)據(jù)庫的查詢流程,為不同大小的查詢定義不同的查詢類別,從而改善查詢之間的系統(tǒng)資源共享,避免較小的查詢被較大的查詢阻塞等。
Page 6 of 7 3)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘正如在礦井中可以開采出珍貴的礦石,在數(shù)據(jù)倉庫的數(shù)據(jù)里也常??梢蚤_采出業(yè)務(wù)人員意想不到的信息。它比多維分析更進一步。例如,如果管理人員要求比較各個區(qū)域某類出入境特征數(shù)量在過去一年的情況,可以從多維分析中找答案。但是,如果管理人員要問為何一個地區(qū)的出入境特征情況突然變得特別好或是不好,或者問該出入境特征在另一地區(qū)將會怎么樣,這時數(shù)據(jù)挖掘知識可以作出解答。
4)數(shù)據(jù)倉庫層
數(shù)據(jù)倉庫用于抽取、整合、分布、存儲有用的信息,數(shù)據(jù)信息往往分布在不同的部門和下級單位,管理者要綜觀全局、運籌帷幄,必須能迅速地找到能反映真實情況的數(shù)據(jù),這些數(shù)據(jù)也許是當(dāng)前的現(xiàn)實數(shù)據(jù),也可能是過去的歷史數(shù)據(jù)。因此,有必要把各個區(qū)域的數(shù)據(jù)集合起來,去其糟粕、取其精華,將真實的、對決策有用的數(shù)據(jù)保留下來,隨時準備管理人員使用。因此,數(shù)據(jù)倉庫不僅僅是個數(shù)據(jù)的儲存?zhèn)}庫,更重要的是它提供了豐富的工具來清洗、轉(zhuǎn)換和從各地提取數(shù)據(jù),使得放在倉庫里的數(shù)據(jù)有條有理,易于使用。
Page 7 of 7
第三篇:數(shù)據(jù)倉庫總結(jié)
數(shù)據(jù)倉庫系統(tǒng)與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的區(qū)別
數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。數(shù)據(jù)庫設(shè)計是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計,數(shù)據(jù)倉庫在設(shè)計是有意引入冗余,采用反范式的方式來設(shè)計。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計,它的兩個基本的元素是維表和事實表。數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫”。
數(shù)據(jù)挖掘與傳統(tǒng)分析工具不同的是數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法,運用模式匹配和其它算法決定數(shù)據(jù)之間的重要聯(lián)系。
數(shù)據(jù)挖掘的步驟
1.描述數(shù)據(jù)---計算統(tǒng)計變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來,進而可以看出一些變量之間的相關(guān)性。
2.歷史數(shù)據(jù)建立一個預(yù)言模型,然后再用另外一些數(shù)據(jù)對這個模型進行測試。
3.驗證你的模型
數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別
(1)數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;(2)傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗證,在一定意義上是假設(shè)驅(qū)動的;與之相反,數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動的,模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
在缺乏強有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下,歷史數(shù)據(jù)庫也就變成了“數(shù)據(jù)墳?zāi)埂保锩娴臄?shù)據(jù)幾乎不再被訪問。也就是說,極有價值的信息被“淹沒”在海量數(shù)據(jù)堆中,領(lǐng)導(dǎo)者決策時還只能憑自己的經(jīng)驗和直覺。因此改進原有的數(shù)據(jù)分析方法,使之能夠智能地處理海量數(shù)據(jù),即演化為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘方法與過程
? ? ? 方法:決策樹 關(guān)聯(lián)規(guī)則 人工神經(jīng)網(wǎng)絡(luò)
粗糙集理論
遺傳算法
過程:1.對數(shù)據(jù)庫數(shù)據(jù)整理,抽取出用來完成特定挖掘目標的數(shù)據(jù)集。2.選擇合適的挖掘方法和工具,在領(lǐng)域?qū)<抑笇?dǎo)下進行知識獲取研究3.對事物的發(fā)展進行預(yù)測
數(shù)據(jù)采集與處理:從數(shù)據(jù)倉庫中選取相關(guān)的數(shù)據(jù)集合。知識庫:指導(dǎo)數(shù)據(jù)挖掘和評價挖掘結(jié)果。
數(shù)據(jù)挖掘:對數(shù)據(jù)倉庫中提取的數(shù)據(jù)進行分析處理。
知識評價:是以興趣度作為衡量標準來查找和選擇對最終決策活動友有益的的知識。
OLAP與數(shù)據(jù)挖掘(DM)的比較 相同之處:OLAP與DM都是數(shù)據(jù)庫(數(shù)據(jù)倉庫)上的分析工具;不同之處:(1)前者是驗證型的,后者是挖掘型的;(2)前者建立在多維視圖的基礎(chǔ)之上,強調(diào)執(zhí)行效率和對用戶請求命令的及時響應(yīng),而且其直接數(shù)據(jù)源一般是數(shù)據(jù)倉庫;后者建立在各種數(shù)據(jù)源的基礎(chǔ)上,重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層次的對人們有用的模式,一般并不過多考慮執(zhí)行效率和響應(yīng)速度。
(3)數(shù)據(jù)挖掘與OLAP不同,主要體現(xiàn)在它分析數(shù)據(jù)的深入和分析過程的自動化,自動化的含義是其分析過程不需要客戶的參與,這是它的優(yōu)點,也正是其不足。因為在實際中,客戶也希望參與到挖掘中來,例如只想對數(shù)據(jù)的某一子集進行挖掘,對不同抽取、集成水平的數(shù)據(jù)進行挖掘,或是根據(jù)自己的需要動態(tài)選擇挖掘算法等等。因此,OLAP與數(shù)據(jù)挖掘各有所長。
OLAP與OLTP的區(qū)別(1)OLTP主要面向公司職員;OLAP則主要面向公司領(lǐng)導(dǎo)者。(2)OLTP應(yīng)用主要是用來完成客戶的事務(wù)處理,其數(shù)據(jù)基礎(chǔ)是操作型數(shù)據(jù)庫,如民航訂票系統(tǒng)、銀行儲蓄系統(tǒng)等等,通常需要進行大量的更新操作,同時對響應(yīng)時間要求較高;而OLAP是以數(shù)據(jù)倉庫或數(shù)據(jù)多維視圖為基礎(chǔ)的數(shù)據(jù)分析處理,是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析,它一般不對倉庫數(shù)據(jù)作修改處理,而只是查詢,其應(yīng)用主要是對客戶當(dāng)前及歷史數(shù)據(jù)進行分析,輔助領(lǐng)導(dǎo)決策,其典型的應(yīng)用有對銀行信用卡風(fēng)險的分析與預(yù)測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
OLTP
OLAP 面向人群
業(yè)務(wù)系統(tǒng)的操作、維護人員
管理、決策者 功能
日常操作處理
分析、決策輔助 實現(xiàn)方式
基于交易的處理系統(tǒng)
基于查詢的分析系統(tǒng) 應(yīng)用場合 面向生產(chǎn)應(yīng)用
面向特定主題 數(shù)據(jù)庫設(shè)計
實體-聯(lián)系模型
星形或雪花模型 數(shù)據(jù)
當(dāng)前的、最新的細節(jié)數(shù)據(jù)
歷史的、聚合的數(shù)據(jù) 響應(yīng)時間
對響應(yīng)時間要求非常高
查詢時間長
數(shù)據(jù)倉庫與數(shù)據(jù)集市的差別
(1)范圍不同:數(shù)據(jù)倉庫面向的是整個企業(yè),為整個企業(yè)提供所需的數(shù)據(jù);數(shù)據(jù)集市則面向各個部門。
(2)粒度不同:數(shù)據(jù)倉庫中的數(shù)據(jù)粒度非常小;數(shù)據(jù)集市中的數(shù)據(jù)主要是概括級的數(shù)據(jù)。
(3)數(shù)據(jù)組織方式不同
數(shù)據(jù)集市中數(shù)據(jù)的結(jié)構(gòu)通常被描述為星型結(jié)構(gòu)或雪花結(jié)構(gòu)。一個星型結(jié)構(gòu)包含兩個基本部分—一個事實表和各種支持維表。事實表描述數(shù)據(jù)集市中最密集的數(shù)據(jù)。在電話公司中,用于呼叫的數(shù)據(jù)是典型的最密集數(shù)據(jù);在銀行中,與賬目核對和自動柜員機有關(guān)的數(shù)據(jù)是典型的最密集數(shù)據(jù)。對于零售業(yè)而言,銷售和庫存數(shù)據(jù)是最密集的數(shù)據(jù)等等。
數(shù)據(jù)倉庫:是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策。數(shù)據(jù)倉庫的根本任務(wù):把信息加以整理歸納并及時提供給管理決策人員。主要作用:提供報表和圖表、支持多維分析、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)挖掘:(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
聚類分析:聚類(clustering)就是將數(shù)據(jù)對象集合進行分析,將數(shù)據(jù)集劃分為多個類或簇,使得同一類中的數(shù)據(jù)對象之間具有較高的相似度,而不同類之間的數(shù)據(jù)對象具有較大的差異度。將上述分析過程稱為??
粒度是指數(shù)據(jù)倉庫中記錄數(shù)據(jù)或?qū)?shù)據(jù)進行綜合時所使用的時間參數(shù),它決定了數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)單元在時間上的詳細程度和級別。分割是指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨立處理,以提高數(shù)據(jù)處理效率。
數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。
元數(shù)據(jù):元數(shù)據(jù)是數(shù)據(jù)倉庫數(shù)據(jù)本身信息的數(shù)據(jù)。不僅包括在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標定義、轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),而且還包括關(guān)于數(shù)據(jù)含義的商業(yè)信息。
OLTP:是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要面對基本的、日常的事務(wù)處理。
OLAP:是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。聯(lián)機分析處理。OLAM:OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型OLAP的數(shù)據(jù)倉庫,將更能適應(yīng)實際的需要。數(shù)據(jù)倉庫系統(tǒng)的四個層次體系結(jié)構(gòu):數(shù)據(jù)源 數(shù)據(jù)的存儲與管理 聯(lián)機分析處理
前端工具 數(shù)據(jù)倉庫設(shè)計需考慮的四種視圖:自頂向下視圖 數(shù)據(jù)源視圖 數(shù)據(jù)倉庫視圖 商務(wù)查詢視圖 數(shù)據(jù)倉庫設(shè)計
自上而下 自底而上
混合的方法
數(shù)據(jù)倉庫建模
數(shù)據(jù)倉庫通常采三層結(jié)構(gòu):底層:數(shù)據(jù)倉庫服務(wù)器 中間層:OLAP服務(wù)器 頂層:前端工具 ETL:是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)是由許許多多的被稱為神經(jīng)元或網(wǎng)絡(luò)節(jié)點的基本單元構(gòu)成,而這些基本單元則模仿了人腦中的神經(jīng)元。將多個基本單元以某種適當(dāng)?shù)姆绞竭B接起來,就構(gòu)成了神經(jīng)網(wǎng)絡(luò)。
決策樹:又稱為判定樹,是一個類似于流程圖的樹型結(jié)構(gòu)。決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。在決策樹的圖形表示中,矩形表示內(nèi)部結(jié)點,橢圓表示葉子結(jié)點,短線表示分枝,分枝上的標注表示一次測試的輸出結(jié)果。
關(guān)聯(lián)規(guī)則:是數(shù)據(jù)挖掘的一個重要內(nèi)容,它反映了一個變量與其他變量之間的相互依存性和關(guān)聯(lián)性;其中,關(guān)聯(lián)是指在兩個或兩個以上變量取值之間所存在的某種規(guī)律性。關(guān)聯(lián)規(guī)則挖掘:是為了發(fā)現(xiàn)變量之間的這種依存性和關(guān)聯(lián)性的規(guī)則,并利用令人感興趣的規(guī)則來預(yù)測多個變量之間潛在的關(guān)聯(lián)或是通過其他變量來預(yù)測一個變量的存在。
文本數(shù)據(jù)挖掘:也稱文本挖掘,它是將文本信息源作為分析對象,利用智能算法,并結(jié)合文字處理技術(shù),分析大量非結(jié)構(gòu)化文本源,從中尋找信息的結(jié)構(gòu)、模型、模式等各種隱含的知識。
遺傳算法:是一種基于生物進化過程中自然選擇與遺傳機制的模擬算法,該算法是模擬達爾文主義“適者生存”思想的一種全局優(yōu)化方法,實質(zhì)是一種繁衍、檢測和評價的迭代算法。
? 數(shù)據(jù)分類的基本技術(shù)有:判定樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等; ? 預(yù)測的方法主要有:線性的、非線性的、廣義線性回歸。
數(shù)據(jù)倉庫中的不同綜合級別,稱為“粒度”。粒度越大,表示細節(jié)程度越低,綜合程度越高。元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)。粗糙集:能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。
用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。
對數(shù)據(jù)立方體的典型操作包括:切片、切塊以及旋轉(zhuǎn)等。多維數(shù)據(jù)模型:是為了滿足用戶從多角度多層次進行數(shù)據(jù)查詢和分析的需要而建立起來的基于事實和維的數(shù)據(jù)庫模型,其基本的應(yīng)用是為了實現(xiàn)OLAP(Online Analytical Processing)維(Dimension):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。
維的層次(Level):人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member):維的一個取值,是數(shù)據(jù)項在某維中位置的描述。度量(Measure):多維數(shù)組的取值。
星型模式:是最常見的模型范式。這種模式的數(shù)據(jù)倉庫包含:一個大的事實表和一組小的維表。事實表:包含大批數(shù)據(jù)和不含冗余的中心表
維表:附屬表,每維一個表
雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數(shù)據(jù)被進一步分解到附加的表中。
多維數(shù)據(jù)模型上的OLAP操作:有鉆取、切片和切塊、以及旋轉(zhuǎn)等。
鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆取(Drill-down)和向上鉆?。―rill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。
切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個或以上,則是切塊。
旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置。
OLAM產(chǎn)生的原因
一方面,分析工具OLAP功能雖強大,能為客戶端應(yīng)用程序提供完善的查詢和分析,但它也存在以下不足:
1)OLAP是一種驗證型分析工具,是由用戶驅(qū)動的。即在某個假設(shè)的前提下通過數(shù)據(jù)查詢和分析來驗證或否定這個假設(shè),這很大程度上受到用戶假設(shè)能力的限制。
2)OLAP分析事先需要對用戶的需求有全面而深入的了解,然而用戶的需求并不是確定的,難以把握。所以O(shè)LAP分析常常采用試湊法在大型數(shù)據(jù)庫或倉庫中搜索,不僅花時間,而且可能產(chǎn)生一些無用的結(jié)果。
3)即使搜索到了有用的信息,由于缺乏應(yīng)有的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生誤導(dǎo)。
另一方面,數(shù)據(jù)挖掘雖然可以使用復(fù)雜算法來分析數(shù)據(jù)和創(chuàng)建模型表示有關(guān)數(shù)據(jù)的信息,用戶也不必提出確切的要求,系統(tǒng)就能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動地挖掘數(shù)據(jù)潛在的模式,或通過聯(lián)想,建立新的業(yè)務(wù)模型以輔助決策。但它也存在一些缺點:
1)DM是挖掘型分析工具,是由數(shù)據(jù)驅(qū)動的。用戶需要事先提出挖掘任務(wù)。但對于用戶來講,很多時候預(yù)先是不知道想挖掘什么樣的知識的。
2)由于數(shù)據(jù)庫或數(shù)據(jù)倉庫中存有大量數(shù)據(jù)和信息,用戶僅僅指出挖掘任務(wù),而不提供其他搜索線索,這樣DM工具就會遍歷整個數(shù)據(jù)庫,導(dǎo)致搜索空間太大。計算機將處于長時間的工作,而且結(jié)果中可能會生成很多無用信息。
3)即使挖掘出了潛在有價值的信息,但它究竟用來做什么分析用,用戶也可能不清楚。
兩種技術(shù)各存在不足,但同時也可以相輔相成。如果將OLAP同DM配合集成,一方面OLAP的分析結(jié)果給DM提供挖掘的依據(jù),引導(dǎo)DM的進行;另一方面,在數(shù)據(jù)挖掘的結(jié)果中進行OLAP分析,則OLAP分析的深度就可拓展。這樣用戶就可以靈活選擇所需的數(shù)據(jù)挖掘功能,并動態(tài)交換挖掘任務(wù),在數(shù)據(jù)倉庫的基礎(chǔ)上提供更有效的決策支持。鑒于OLAP與DM技術(shù)在決策分析中的這種互補性,促成了OLAM技術(shù)的形成。
數(shù)據(jù)倉庫、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
1.控制商品庫存
對于零售業(yè),庫存銷量比是一個重要的效率指標。通過使用數(shù)據(jù)倉庫,企業(yè)可以隨時跟蹤庫存,及時通過網(wǎng)上供貨商補充,實現(xiàn)了庫存商品的有效控制。比如美國沃瑪特連鎖店,數(shù)據(jù)倉庫規(guī)模從最初的6 萬億字節(jié)增加到現(xiàn)在的100 萬億字節(jié),實現(xiàn)了存貨少效益高的良性循環(huán),始終保持著行業(yè)領(lǐng)先。2.減少跳線率
對于航空、銀行等服務(wù)性行業(yè),由于行業(yè)競爭激烈,存在“跳線”的現(xiàn)象,即客戶從A 公司跳到B 公司,幾個月后又重新回到A 公司,導(dǎo)致企業(yè)資金浪費。采用數(shù)據(jù)倉庫后,進行數(shù)據(jù)挖掘,預(yù)測客戶跳線機率,在客戶跳線之前盡可能挽留,減少跳線率。3.客戶跟蹤
目前在電子商務(wù)網(wǎng)站中,84%的在線交易沒有跟蹤客戶;96%的在線交易不能提供符合客戶的個性化服務(wù);75%的在線交易無法辨別重復(fù)客戶;導(dǎo)致電子商務(wù)企業(yè)不能抓住已有的客戶,更不用談潛在客戶的發(fā)展,喪失了該部分重要的資源。隨著客戶個性化需求的逐步增加,電子商務(wù)企業(yè)更是無從招架。當(dāng)啟用數(shù)據(jù)倉庫后,網(wǎng)站能夠?qū)蛻舻男畔⒁约盀g覽頁面進行整理并存儲,當(dāng)客戶再次訪問后,數(shù)據(jù)倉庫就會為客戶提出相應(yīng)的擴展服務(wù),使顧客能夠更加信任該網(wǎng)站,進而提升了該企業(yè)的效益。4.聚類客戶
在電子商務(wù)中,通過客戶相似瀏覽行為和客戶的共同特征進行分析,深層次挖掘和分析企業(yè)的客戶、市場、銷售、服務(wù)與支信息,可以幫助電子商務(wù)的組織者及時了解客戶,盡可能滿足客戶需求,向客戶提供更適合的服務(wù)。
5.提供優(yōu)質(zhì)個性化服務(wù),提高客戶忠誠度在電子商務(wù)活動中,網(wǎng)站的內(nèi)容、標題、獎勵方案、服務(wù)等方面都可能吸引客戶。由于電子商務(wù)網(wǎng)站的眾多,客戶可以很方便的在網(wǎng)站間切換,因此電子商務(wù)網(wǎng)站應(yīng)該能夠?qū)蛻粼L問信息進行挖掘,通過客戶的瀏覽行為,從而了解客戶的忠誠度、喜好及需求,快速調(diào)整WEB 頁面滿足客戶的需求。比如京東網(wǎng),通過分析客戶瀏覽的頁面,運用數(shù)據(jù)挖掘中的序列模式發(fā)現(xiàn)技術(shù)進行挖掘,可以把客戶需求的相關(guān)物品呈現(xiàn)出來,方便客戶挑選,6.提高點擊率,完善電子商務(wù)網(wǎng)站設(shè)計通過數(shù)據(jù)挖掘技術(shù),分析客戶的行為記錄和反饋行為,電子商務(wù)企業(yè)可以更加有效地優(yōu)化網(wǎng)站結(jié)構(gòu),提高網(wǎng)站的點擊率。例如通過關(guān)聯(lián)規(guī)則,針對客戶需求,調(diào)整站點結(jié)構(gòu),把客戶訪問過的有關(guān)聯(lián)的文件進行直接鏈接,從而使客戶很容易訪問想要的頁面,增加客戶再次訪問的概率。
7.決策信息服務(wù)
數(shù)據(jù)倉庫用于實現(xiàn)對決策主體數(shù)據(jù)的存儲和綜合,通過從源數(shù)據(jù)庫中抽取、清理、集成和轉(zhuǎn)換,提供標準的報表和圖表;通過從多種角度構(gòu)建多維數(shù)據(jù)模型,采用聯(lián)機分析處理實現(xiàn)多維數(shù)據(jù)分析;進而挖掘出隱藏在數(shù)據(jù)背后的模式和信息,可以針對整個企業(yè)的狀況和未來發(fā)展做出比較完整、合理、準確的分析和預(yù)測,從而為企業(yè)提供了多方位的決策支持。
結(jié)論:由于電子商務(wù)領(lǐng)域擁有豐富的信息資源,為企業(yè)實施數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)提供了良好的基礎(chǔ);同時,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)又為電子商務(wù)提供了有力的技術(shù)支持,加快了電子商務(wù)的發(fā)展和普及。在電子商務(wù)活動中,數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)已成為數(shù)據(jù)管理、信息處理領(lǐng)域最熱門的技術(shù)之一。通過對源數(shù)據(jù)的整理、歸納,它可以幫助決策者查找數(shù)據(jù)間的潛在關(guān)聯(lián),發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的信息,不僅可以預(yù)測客戶的消費趨勢以及進一步的市場走向,而且可以指導(dǎo)電子商務(wù)企業(yè)提高網(wǎng)站運行效率,進一步改善企業(yè)客戶關(guān)系,提高銷售額,具有良好的發(fā)展和應(yīng)用前景。
第四篇:IBM數(shù)據(jù)倉庫解決方案
IBM數(shù)據(jù)倉庫解決方案
IBM 2000-09-23
數(shù)據(jù)倉庫是匯總商用信息后,進而支持數(shù)據(jù)挖掘、多維數(shù)據(jù)分析等當(dāng)今尖端技術(shù)和傳統(tǒng)的查詢及報表功能,這些對于企業(yè)在當(dāng)今激烈的商業(yè)競爭中保持領(lǐng)先是至關(guān)重要的。那么怎樣把這樣大量的數(shù)據(jù)轉(zhuǎn)換成可靠的、商用信息以便于決策支持呢?建立數(shù)據(jù)倉庫正被廣泛地公認為最好的轉(zhuǎn)換手段。
根據(jù)IDC的調(diào)查,使用數(shù)據(jù)倉庫的投資回報率平均超過400%,尤其是從小型數(shù)據(jù)倉庫開始實施的平均超過500%。
IBM早在90年代初期,就投入大量優(yōu)秀技術(shù)人員和資金開始了數(shù)據(jù)倉庫的研究,并啟動了Star-Brust大型科研項目。該項目主要就是為了攻克數(shù)據(jù)倉庫領(lǐng)域的一些技術(shù)難題,例如優(yōu)化星型連接(Star-join),實現(xiàn)多維分析。因此,IBM現(xiàn)在發(fā)布的數(shù)據(jù)倉庫產(chǎn)品都是經(jīng)過反復(fù)推敲和久經(jīng)考驗的,真正做到讓用戶買起來放心,用起來舒心?;趯?shù)據(jù)倉庫結(jié)構(gòu)的深刻理解和多年積累的經(jīng)驗,IBM設(shè)計了自己的數(shù)據(jù)倉庫結(jié)構(gòu)。它作為一種開發(fā)式結(jié)構(gòu),方便了用戶的產(chǎn)品選擇、實施和今后的擴展。
在數(shù)據(jù)抽取階段完成對各種數(shù)據(jù)源的訪問,數(shù)據(jù)轉(zhuǎn)換階段完成對數(shù)據(jù)的清洗、匯總和整合等,數(shù)據(jù)分布階段完成對結(jié)果數(shù)據(jù)存儲的分配。這三個階段通常緊密結(jié)合在一起,集成在一個產(chǎn)品中實現(xiàn)。例如,VisualWarehouse、DataJoiner、DataPropagator都跨越了這三個階段。其中,DataJoiner和VisualWarehouse可以訪問各種關(guān)系型和非關(guān)系型的數(shù)據(jù),關(guān)系型數(shù)據(jù)庫主要包括DB2數(shù)據(jù)庫家族、Oracle、Sybase和Informix,非關(guān)系型數(shù)據(jù)有VSAM。VisualWarehouse還可以進行數(shù)據(jù)映射的定義,以定期地抽取、轉(zhuǎn)換分布數(shù)據(jù)。DataPropagator采用數(shù)據(jù)復(fù)制的方式可避免對日常業(yè)務(wù)系統(tǒng)事物處理性能的影響。當(dāng)用戶有特殊需求時,可以通過編程接口編程實現(xiàn)或選擇第三方廠商(如ETI和ValityTechnology)的產(chǎn)品。
數(shù)據(jù)倉庫的存儲由DB2家族產(chǎn)品來完成,以保證數(shù)據(jù)倉庫始終高性能地運轉(zhuǎn),提供完整、準確的數(shù)據(jù),以便于將來的升級和擴展。若希望使用多維數(shù)據(jù)庫,則可選用第三方的產(chǎn)品,例如:Arbor軟件公司、Pilot軟件公司、PlanningSciences軟件公司。如果既想擁有多維數(shù)據(jù)庫的獨特功能,又要把數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中以便管理,則DB2OLAPServer是用戶的最佳選擇。
DataGuide通過描述性數(shù)據(jù)幫助用戶查找和理解數(shù)據(jù)倉庫中的數(shù)據(jù)。
其中數(shù)據(jù)的呈現(xiàn)由不同產(chǎn)品完成不同層次的分析要求。其中,Approach可進行查詢和統(tǒng)計分析,IntelligentDecisionServ С侄轡治觶琁ntelligentMiner用于數(shù)據(jù)挖掘。用戶也可選擇自己喜愛的第三方產(chǎn)品,這些第三方廠商包括:Andyne、Brio、BusinessObjects、Cognus、InformationAdvantage。
整個數(shù)據(jù)倉庫的管理工作可交給VisualWarehouse,ADSM是大型磁盤陣列管理的得力助手,DB2ECCforTME10可從一點集中管理各種關(guān)系型數(shù)據(jù)(DB2、Oracle、Sybase、Informix)。
以上各個階段的結(jié)構(gòu)都是按照IBMInformationWarehouse和IBMOpen-Blueprint的架構(gòu)統(tǒng)一設(shè)計的,因此相互之間結(jié)合得既緊密又非常開放,只要符合標準的軟件就可結(jié)合在一起。
最后,為了幫助用戶快速實施,IBM可由IBMGlobalServices或IBMGlobal-Solution提供可靠的咨詢服務(wù)。這些服務(wù)也可從廣泛的第三方獲得。因此,在此架構(gòu)下,IBM提供給用戶的是一個完整的、靈活的、開放的解決方案。
IBMVisualWarehouse是IBM數(shù)據(jù)倉庫解決方案的重要組成部分,它主要由以下幾部分功能組成:數(shù)據(jù)訪問;數(shù)據(jù)轉(zhuǎn)換;數(shù)據(jù)分布;數(shù)據(jù)存儲;靠元數(shù)據(jù)查找和理解數(shù)據(jù);顯示、分析和發(fā)掘數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換過程的自動化及其管理。它縮短了復(fù)雜的海量數(shù)據(jù)與有洞察力的商務(wù)決策之間的差距,有助于公司更進一步了解其業(yè)務(wù)、市場、競爭對手和客戶。
IBM的VisualWarehouse的數(shù)據(jù)源可以是DB2家庭中的任一數(shù)據(jù)庫,也可以是Oracle、Sybase、Informix、SQLServer數(shù)據(jù)庫和IMS、VSAM文件系統(tǒng);存放數(shù)據(jù)倉庫的數(shù)據(jù)庫可以是DB2UDBforWindowsNT,OS/2,AIX/600,HP?UX,SunSolaris,SCO,SINIX和DB2/400,DB2forOS/390;VisualWarehouse的管理平臺為WindowsNT和OS/2;而且以上適用的平臺仍在不斷地擴展。下面,我們將從幾個用戶關(guān)心的方面來分析一下VisualWarehouse。
(1)元數(shù)據(jù)的存儲(MetaData)
VisualWarehouse建立在集成的元數(shù)據(jù)的倉庫之上,該元數(shù)據(jù)的倉庫提供了一個所有管理和操作功能的中心。數(shù)據(jù)倉庫的模型以元數(shù)據(jù)的形式存儲于該倉庫中,它定義了數(shù)據(jù)倉庫的結(jié)構(gòu)和內(nèi)容,用于對數(shù)據(jù)源進行抽取、過濾、轉(zhuǎn)換、映射后放入數(shù)據(jù)倉庫。這種元數(shù)據(jù)是以商業(yè)視圖被定義的,而且商業(yè)視圖可以在多個數(shù)據(jù)倉庫間輸入和輸出,大大方便了具有相同結(jié)構(gòu)數(shù)據(jù)倉庫的建造。
(2)數(shù)據(jù)倉庫的規(guī)?;瘮U展
VisualWarehouse很易于擴展,單個數(shù)據(jù)倉庫可支持非常大量的數(shù)據(jù),也可靠簡單地增加內(nèi)存、處理器升級和存儲設(shè)備擴容來支持更多的升級和用戶,訪問更多數(shù)據(jù)源。另外,我們還可以不同的主題同時實施多個部門級數(shù)據(jù)倉庫,最后再把它們整合到一起形成企業(yè)級的數(shù)據(jù)倉庫。
(3)開放的系統(tǒng)環(huán)境
VisualWarehouse提供了一個真正開往的系統(tǒng)環(huán)境,它不僅提供了數(shù)據(jù)倉庫的所有功能和組件,而且可以“即插即用”的方式與用戶喜歡的第三方軟件組合,以最少的費用快速開發(fā)出用戶所需的數(shù)據(jù)倉庫。
(4)規(guī)模化的體系結(jié)構(gòu)
VisualWarehouse提供了完整的分布式客戶機/服務(wù)器環(huán)境,它使得用戶可充分享受到“網(wǎng)絡(luò)計算”帶來的便利,而且適用于多種平臺。它包括四個組件:管理員、控制數(shù)據(jù)庫、客戶端管理員、代理。這些組件既可分布于幾個不同的服務(wù)器,也可都安裝在同一服務(wù)器上。
(5)VisualWarehouse的管理
VisualWarehouse的管理是由其客戶端管理員實現(xiàn)的,它的管理得以集中于 isualWarehouse中的觸發(fā)器、用戶自定義程序,元數(shù)據(jù)等。
(6)高效裝入
除了WindowsNT,VisualWarehouse的代理(Agent)現(xiàn)在可以運行于AIX和OS/2,這就帶來了針對位于這些平臺上數(shù)據(jù)中心的裝入性能的改善,因為數(shù)據(jù)無需再通過WindowsNT上的代理。另外,除了現(xiàn)有的基于SQL的目標裝載,VisualWarehouse現(xiàn)在還提供用于文件傳輸和裝載過程管理的程序。
(7)處理OLAP
VisualWarehouse支持DB2OLAPServer上一種或多種星型圖表的全部映射或裝載。另外VisualWarehouse現(xiàn)在也支持指定和創(chuàng)建DB2OLAPServer以外生成的星型圖表初始化或引入關(guān)鍵碼。
(8)高端可升級性選項
現(xiàn)在,VisualWarehouse對抽取和轉(zhuǎn)變程序具有更完善的支持。VisualWarehouse利用這種支持給IBM的戰(zhàn)略基礎(chǔ)伙伴提供數(shù)據(jù)加工后的管理:ARBOR軟件公司和ETI。
(9)商務(wù)視圖建模改善
VisualWarehouse圖形查詢編制器得以擴展,目前除了支持常用的SQL語句還支持JOIN和GROUPBY語句,簡化了復(fù)雜的SQL聲明。
VisualWarehouse基于久經(jīng)考驗的獨創(chuàng)技術(shù),可以支持復(fù)雜業(yè)務(wù)分析過程的每一步驟,同現(xiàn)有應(yīng)用程序環(huán)境集成,轉(zhuǎn)換數(shù)據(jù),自動執(zhí)行數(shù)據(jù)倉庫處理,分析數(shù)據(jù),并為決策人員提供信息。VisualWarehouse是一種簡單易用、經(jīng)濟有效的數(shù)據(jù)中心和數(shù)據(jù)倉庫產(chǎn)品,可以處理部門中設(shè)計、實現(xiàn)和應(yīng)用方案時的相應(yīng)任務(wù)。其較低的維護成本和迅速的實現(xiàn)過程將使工作組迅速提高工作效率。
VisualWarehouse提供了完整的Web支持功能,允許從任何Web瀏覽器訪問任何數(shù)據(jù)。因為VisualWarehouse的信息目錄完全支持Web,用戶可以訪問可用數(shù)據(jù)的詳細信息,包括格式、通用性、擁有者和位置。
IBM的VisualWarehouse提供了強有力的工具以定義、建立、管理、監(jiān)控和維護一個商用信息系統(tǒng)環(huán)境??數(shù)據(jù)倉庫。但是,IBM并不滿足于此。為了更好地滿足用戶的需求,IBM設(shè)計了一個完整的解決方案。IBM將Dataguide和VisualWarehouse集成在一起并與Lotus、Approach和相應(yīng)平臺上的DB2UDB打包在一起,作為一個完整的解決方案提供給用戶。其中,Dataguide靠商用信息分類表支持商業(yè)需求,幫助用戶查找和理解數(shù)據(jù)倉庫中的商用信息。Lotus、Approach可幫助用戶分析信息并把它以圖表的方式表示出來。
IBM的VisualWarehouse系列軟件包用于幫助企業(yè)迅速建立、管理和分析數(shù)據(jù)倉庫和數(shù)據(jù)中心。VisualWarehouse系列包括VisualWarehouse、VisualWarehouseOLAP(聯(lián)機分析處理)、IBM及其貿(mào)易伙伴提供的補充產(chǎn)品。VisualWarehouse系列已得到擴展,通過與EvolutionaryTechnologiesInternational(ETI)和ValityTechnology的產(chǎn)品相結(jié)合,可以滿足復(fù)雜的數(shù)據(jù)提煉、純化和轉(zhuǎn)換需求。VisualWarehouse的Cognos和BusinessObjects版本也已經(jīng)分別集成于相應(yīng)公司的前端工具之中。這些版本提供了完整的業(yè)務(wù)智能解決方案,包括從數(shù)據(jù)訪問、分析到應(yīng)用。
VisualWarehouse產(chǎn)品系列集成了數(shù)據(jù)倉庫功能,單一軟件包中的集成化工具可以簡化數(shù)據(jù)倉庫和決策支持的整個過程。它提供了迅速建立小型企業(yè)或工作組數(shù)據(jù)倉庫并投入運行所需的一切。
現(xiàn)在,越來越多的用戶受益于VisualWarehouse,例如:INGRAM公司依靠IBM可視數(shù)據(jù)倉庫將原始數(shù)據(jù)轉(zhuǎn)變?yōu)橛袃r值的商用信息;RYDERSYSTEM、VOLTINFORMATIONSCIENCES和INTENTIA這三個可代表數(shù)據(jù)倉庫客戶群的系統(tǒng)集成商得出了一致結(jié)論:IBM的可視數(shù)據(jù)倉庫是一個強有力的、經(jīng)濟的、易于安裝和實施的數(shù)據(jù)倉庫。它提供支持商業(yè)決策的、一致的和固有的數(shù)據(jù)。另外,國內(nèi)用戶也在不斷增長,例如:上海莊臣有限公司等。
OLAP在IBM的商務(wù)智能中扮演著重要角色,IBM為此提供一個分析工具——DB2OLAPServer,深入最終用戶的業(yè)務(wù),對桌面上的數(shù)據(jù)進行實時操作。DB2OLAPServer是一套獨特的商務(wù)工具,能夠快速地分布傳統(tǒng)監(jiān)視和報告范圍之外的應(yīng)用程序數(shù)據(jù)。
IBMDB2OLAPServer是一種功能強大的工具,結(jié)合了業(yè)界領(lǐng)先的ARBORESSBASEOLAP功能以及DB2的可靠性、可管理性和訪問能力。ARBORESSBASE是OLAP市場領(lǐng)先的廠商。同其它OLAPAPI相比,有更多的前端工具和應(yīng)用程序利用了ESSBASEAPI,使其? 事實上的業(yè)界標準。由于DB2OLAPServer包含了完整的ARBORESSBASEOLAP引擎,所有支持ESSBASE的應(yīng)用程序都可以同DB2OLAPServer協(xié)作,而不必加以修改。同大多數(shù)基于SQL的應(yīng)用程序結(jié)合時,DB2OLAPServer和VisualWarehouse將為前端用戶提供更多的前端工具和業(yè)務(wù)智能應(yīng)用程序選擇余地的優(yōu)勢,如今用戶可以享受更多種OLAP應(yīng)用程序的優(yōu)勢,如通過ARBOR的OLAP引擎集成預(yù)算功能,充分利用在相關(guān)技術(shù)上的投資,管理基本設(shè)施和DB2的數(shù)據(jù)。
通過集成IBM的VisualWarehouse和DB2OLAPServer(稱之為VisualWarehouseOLAP版本),這套解決方案將具有三方面的重要價值:
(1)完全、自動地把OLAP集成到數(shù)據(jù)倉庫,數(shù)據(jù)抽取和生成自動地由規(guī)則和數(shù)據(jù)源支持,直接進入DB2OLAPServer的立方體
(2)OLAP描述數(shù)據(jù)外部化
(3)一個中間數(shù)據(jù)存儲庫
DB2OLAPServer和ESSBASE產(chǎn)品最突出的方面在于它特別的分析能力和簡便的分布。OLAP系統(tǒng)更傾向于把勞動集中于獲得和清除數(shù)據(jù),使用VisualWarehouseOLAP版本能夠自動地創(chuàng)建和維護多維數(shù)據(jù)庫,大量減少手工維護并確保數(shù)據(jù)穩(wěn)定。
利用VisualWarehouseOLAP版本還有一項附加收益,就是在可視化數(shù)據(jù)倉庫上創(chuàng)建了一個中間信息倉庫。這個中間數(shù)據(jù)倉庫包含干凈、抽取的數(shù)據(jù)。用來在OLAP系統(tǒng)上裝載多維數(shù)據(jù)。一旦OLAP系統(tǒng)裝載并上線,或者作為干凈數(shù)據(jù)源來進行OLAP以外的分析比如查詢客房地址等,這些中間數(shù)據(jù)就可以廢棄。
VisualWarehouseOLAP版對于分析業(yè)務(wù)需求來說是一套很好的商務(wù)智能解決方案,它利用自動維護倉庫工具提供了強大的分析型數(shù)據(jù)的分析能力。
當(dāng)用戶的數(shù)據(jù)積累到一定數(shù)量時,這些數(shù)據(jù)的某些潛在聯(lián)系、分類、推導(dǎo)結(jié)果和待發(fā)現(xiàn)價值隱藏在其中,我們可以使用數(shù)據(jù)發(fā)掘工具幫助發(fā)現(xiàn)這些有價值的數(shù)據(jù),IBM在這方面的工具就是IntelligentMiner。IBMIntelligentMiner被選為業(yè)界最佳數(shù)據(jù)采集工具,贏得了DM讀者獎。除了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘解決方案,IBM還在此基礎(chǔ)上開發(fā)了一系列行業(yè)解決方案及應(yīng)用程序。
1.IBM數(shù)據(jù)挖掘工具
IntelligentMiner通過其世界領(lǐng)先的獨有技術(shù),例如典型數(shù)據(jù)集自動生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化呈現(xiàn),它可以自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)挖掘操作。若有必要,對結(jié)果數(shù)據(jù)集還可以重復(fù)這一過程,直至得到滿意結(jié)果為止。
現(xiàn)在,IBM的IntelligentMiner已形成系列,它幫助用戶從企業(yè)數(shù)據(jù)資產(chǎn)中識別和提煉有價值的信息。它包括分析軟件工具IntelligentMinerforData和IBMIntelligentMinerForText,幫助企業(yè)選取以前未知的、有效的、可行的業(yè)務(wù)知識,如客戶購買行為,隱藏的關(guān)系和新的趨勢,數(shù)據(jù)來源可以是大型數(shù)據(jù)庫和企業(yè)內(nèi)部或Internet上的文本數(shù)據(jù)源。然后公司可以應(yīng)用這些信息進行更好、更準確的決策,獲得競爭優(yōu)勢。
(1)IntelligentMinerforData
IntelligentMinerforData可以包含傳統(tǒng)文件、數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息。這一產(chǎn)品的最新版本擁有改進的用戶界面,增強了并行性,提供新的平臺支持、統(tǒng)計功能、一種新的中樞凈價值預(yù)測技術(shù)以及優(yōu)化的算法。
IntelligentMinerforData幫助用戶充分利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)。其采集算法已成功應(yīng)用于客戶及貿(mào)易伙伴之中,滿足市場分析、詐騙行為監(jiān)測、客戶聯(lián)系管理等業(yè)務(wù)領(lǐng)域的需求。系統(tǒng)支持的服務(wù)器平臺包括AIX和AIX/SP、OS/390、SUNSolaris、OS/400和WindowsNT,此外還將全面推出OS/2客戶機版本。
(2)InteligentMinerforText
IBM還擴展了采集解決方案的范圍,包含了文本數(shù)據(jù)源。IntelligentMinerforText允許企業(yè)從文本信息中獲取有價值的客戶信息。文本數(shù)據(jù)源可以是Web頁面、在線服務(wù)、傳真、電子郵件、LotusNotes數(shù)據(jù)庫、協(xié)定和專利庫。
IntelligentMinerforText擴展了IBM的數(shù)據(jù)采集功能,可以從文本文檔和數(shù)據(jù)源獲取信息。數(shù)據(jù)源可以包括客戶反饋、在線新聞服務(wù)、電子郵件和Web頁面。其功能包括識別文檔語言,建立?、用語或其它詞匯的詞典,提取文本的涵義,將類似的文檔分組,并根據(jù)內(nèi)容將文檔歸類。新版本中還包括一個全功能的先進文本搜索功能。系統(tǒng)支持的服務(wù)器平臺包括AIX和WindowsNT、OS/390和SUNSolaris。
IBMIntelligentMiner系列可以充分發(fā)揮您尋找相關(guān)信息的潛力,并幫助您花費最少的時間來搜索和瀏覽結(jié)果信息。此外,文本采集技術(shù)還可以適用于多種需要查看或研究文檔的用戶,如專利代理人、企業(yè)圖書管理員、公共關(guān)系人員、研究人員和學(xué)生。
2.行業(yè)解決方案
通過利用以上介紹的IBM數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),IBM為客戶開發(fā)了一系列行業(yè)解決方案及應(yīng)用程序,主要有以下幾種:
(1)DecisionEdgeforFinance——專門為金融行業(yè)設(shè)計的綜合解決方案。DecisionEdgeforFinance不僅僅是簡單的報告工具,它提供了行銷經(jīng)理所需的全部技術(shù),以制定戰(zhàn)略業(yè)務(wù)決策并開展行銷活動。
(2)DecisionEdgeforInsurance——端到端的解決方案,包括硬件、軟件、顧問和服務(wù),其設(shè)計目的是幫助保險業(yè)行銷經(jīng)理制定戰(zhàn)略業(yè)務(wù)決策并開展行銷活動。
(3)IBMDiscoverySeriesforBanking——為滿足“客戶至上”的銀行業(yè)需求而設(shè)計的應(yīng)用程序套件。
(4)IBMDiscoveryfortelecommunications——為電信行業(yè)提供完美的客戶服務(wù)的應(yīng)用程序套件。
(5)BusinessAnalysisSuiteforSAP——適用于下列公司:已經(jīng)安裝SAP事務(wù)處理系統(tǒng),并需要建立數(shù)據(jù)倉庫,以充分利用日常運作中收集的所有事務(wù)數(shù)據(jù)。
(6)Surf-Aid——數(shù)據(jù)采集應(yīng)用程序,用于分析Web站點利用率。
(7)InfoPrintBusinessIntelligenceSolution——允許企業(yè)將自定義消息、姓名及地址同圖形和條形碼相結(jié)合,向客戶提供有獨特個性的行銷資料。
(8)GlobalServicesBIOffering——包含不同角度(行業(yè)、業(yè)務(wù)功能、技術(shù))的戰(zhàn)略和規(guī)劃功能,以及幫助客戶理解和解決業(yè)務(wù)困難、管理數(shù)據(jù)倉庫項目、開發(fā)和實現(xiàn)先進分析功能的方法。
(9)InsuranceUnderwritingProfitabilityAnalysis-將數(shù)據(jù)倉庫和數(shù)據(jù)采集技術(shù)相結(jié)合,幫助保險業(yè)執(zhí)行人員處理保險業(yè)過程。
第五篇:幾大主要保險公司的重病保險計劃有何獨特性
幾大主要保險公司的重病保險計劃有何獨特性?
2014年5月9日 — Max Ma 明盛金融 — 49 瀏覽
字體-大 中 小
人壽保險早已得到人們的普遍認可,但人們對重病保險(又稱危疾保險)的認識卻還處在一個過程中。其實,我們每一個有責(zé)任心的成年人都應(yīng)捫心自問:如果災(zāi)難降臨,自己不幸患上重疾,你家是否有足夠的存款應(yīng)付危急?在你因患重病而沒有收入進帳的情況下,你們家的各項費用卻要照常支付,這到底能支撐多久?在加拿大這種恩格爾系數(shù)較低的發(fā)達國家,用于飲食等基本生活的費用很低,任你怎么吃都很難吃窮一個家庭,但因為大病而致窮的家庭倒是不少。有時候,富有和貧窮,其實就只是一場大病的距離!據(jù)統(tǒng)計,在北美破產(chǎn)的家庭中,55%以上是因為家里的主要經(jīng)濟支柱身患重病所致!關(guān)于購買重病保險的必要性,筆者已在多篇文章里進行了解釋,在此不再重復(fù)。關(guān)于重病保險的計劃選擇,各大公司各有特色,筆者在這里就是要對各大主要保險公司的一些比較獨特的重病保險計劃做一個簡單介紹。
一.宏利金融(Manulife)特有的Term20 或T 65(Primary)重病保險計劃
一個45歲左右的中年人,如果他想以最低的投入建立起65歲退休以前這個關(guān)鍵年份的重病保障,那么購買一個20年期(Term20)或保到65歲的T65重病保險就是一個最佳選擇,而Manulife也許是目前各大保險公司中唯一能提供此類重病保險計劃的公司。如果說購買Term20或T65人壽保險純粹是一種防止意外加“捐贈”的話,那么購買Term20或T65重病保險的保障意義就明顯增強了,因為人們患大病的概率遠遠大于意外身故的概率。據(jù)權(quán)威統(tǒng)計:一個45歲左右的中年人在65歲以前身故的概率為6.7%,但在65歲以前患重病的概率竟高達26.8%,后者是前者的4倍多。所以,如果你覺得購買終身重病保險的價格讓您無法承受的話,那么您至少也要購買一份保到65歲左右的重病保險,以最低的代價獲得65歲退休前這段關(guān)鍵年份的重病保障。這些保費絕不是一種“捐贈”,而是很大可能會被放大很多倍用于取代您萬一不幸身患重病時的家庭收入的必要投入。一份重病保單甚至可以在關(guān)鍵時刻挽救你的生命和你的家庭!Manulife重病保險的另一獨特性就是:它的所有重病保險計劃中已自動包含了長期護理保險,這兩種保險計劃是融合在一起的,所以它的價格一般要比其它公司的同類型計劃貴一些。
二.Canada Life獨一無二的“在65歲付清、保障到75歲”的重病保險計劃
75歲是人生的一個重要關(guān)口之一,過了這個“坎”,也許你的人生會一馬平川,能比較健康地生活更長時間,這就是為什么各大保險公司都有保到75歲的重病保險計劃的原因。不過,各大公司的此類重病保險計劃一般都是“付款到75、保障到75歲”的計劃,也就是說,如果你想讓你的重病保險一直保你到75歲,那么,你就需要一直繳費到75歲。只有你在75歲以前不幸得了大病,滿足了賠付條件,才能停止付款,并獲得一次性賠償。但Canada Life是個例外,它設(shè)有“只需付款到65歲,但可保你到75歲”的獨特計劃,滿足了一些人“不想到了65歲的退休年齡還要付款,但在75歲以前都有保障”的要求。
三.Sun Life獨特的“15年保證付清、保你到75歲”的重病保險計劃
各大公司一般只有終身重病保險計劃才有15年保證付清的選項,但Sun Life是個例外,它為投保人提供了15Pay的Term75重病保險計劃。如果你只關(guān)注75歲以前的重病保障,而又想在15年內(nèi)將保費付清,那么在大的保險公司中,Sun Life也許是唯一的選擇。值得一提的是:從2012年9月開始,Sun Life已將“后天腦損傷”從“可選保障項目”變成了基本受保項目,這也是Sun Life重病保險的特殊賣點之一。
四.國聯(lián)人壽(I.A)獨有的20Pay 終身重病保險計劃
如果你對大部分公司提供的15年付清的終身重病保險計劃覺得年付壓力大了點,那么國聯(lián)(I.A)特有的20年保證付清(20Pay)的大病保險計劃也許就是您的最佳選擇。如一個38歲的不吸煙男性,標準身體等級,購買20萬的重病保險,如果選擇Canada Life的15Pay計劃,則年保費為$5363;若選擇Manulife的15Pay計劃(自動含有長期護理保險),則需$5907。但如果選擇I.A的20Pay計劃,每年只需付$3576,輕松很多!對于一個40來歲的投保人來說,付款20年也是一個不算很長、還算比較合理的年份。