第一篇:數(shù)據(jù)處理試題
數(shù)據(jù)處理
一.選擇題
1、數(shù)據(jù)統(tǒng)計分析的基本步驟是A、確定問題、收集數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、結(jié)合圖表、依據(jù)數(shù)據(jù)及圖標分析得出結(jié)論
B、收集數(shù)據(jù)、處理數(shù)據(jù)、制作數(shù)據(jù)圖表
C、確定問題、收集數(shù)據(jù)、處理數(shù)據(jù)、制作數(shù)據(jù)圖表
D、確定問題、處理數(shù)據(jù)、制作數(shù)據(jù)圖表、依據(jù)數(shù)據(jù)及圖標分析得出結(jié)論
2、常用數(shù)據(jù)統(tǒng)計的軟件是A、WordB、ExcelC、PowerPointD、Flash3、Excel主要有功能、圖表功能、簡單的數(shù)據(jù)庫功能
A、數(shù)據(jù)統(tǒng)計B、資源管理C、圖像處理D、文字處理
4、下列關于Excel的敘述中,錯誤的是
A、啟動Excel后,默認狀下工具欄為常用工具欄和格式工具欄
B、Excel啟動后由兩個窗口組成,一個是主窗口,另一個是工作表窗口
C、Excel新建的工作薄文件中,默認有一張工作表
D、Excel的工作薄文件的默認擴展名為“.xls”
5、下列關于Excel的表述中,錯誤的是
A、新建的工作薄文件中,默認有三張工作表
B、Excel工作表中第3行、第5列的單元格地址是C5
C、啟動Excel后產(chǎn)生的第一個工作薄的名稱是Book1
D、Excel中可以在名稱框中輸入單元格地址來選定單元格
6、下列關于Excel的敘述中,正確的是
A、Excel允許一個工作薄中包含多個工作表
B、Excel工作表的名稱由文件名決定
C、Excel的圖表必須與生成該圖標的有關數(shù)據(jù)處于同一張工作表上
D、Excel將工作薄的每一張工作表分別作為一個文件保存
7、在A1單元格中輸入字符串時,其長度超過單元格的顯示長度,則字符串的超出部分將
A、刪除B、作為另一個字符串存入B1中
C、顯示“###?!?D、連續(xù)超格顯示
8、在Excel中,創(chuàng)建公式作步驟是①在編輯欄鍵入“=”②鍵入公式③按Enter④選擇需要創(chuàng)建公式的單元格
A、④③②①B、④①②③C、④①③②D、②①③④
9、Excel中要在單元格中輸入學號“01003”,應將該單元格的數(shù)字類型設置為
A、文本B、數(shù)值C、貨幣D、時間
10、在Excel中,公式“SUM(C2:E2)”表達式的結(jié)果為
A、=C2+E2B、=C2+D2+E2C、=C2+D2*2+E2D、=C2+D2
二、判斷題
1、要在Excel工作表的單元格中輸入“056”,可以用公式“=056”輸入。()
2、圖表創(chuàng)建中選定的數(shù)據(jù)源可以使連續(xù)的,也可以是不連續(xù)的。()
3、MAX在函數(shù)中表示最小值。()
4、如果將單元格格式設置為保留小數(shù)位數(shù)2位,此單元格中的數(shù)值3.1415926將顯示為3.14
()
5、Excel中可以通過執(zhí)行“格式”→“行”→“行高”來改變行的高度。()
第二篇:數(shù)據(jù)處理考綱
全國殘疾人崗位精英職業(yè)技能競賽規(guī)則
計算機操作員(數(shù)據(jù)處理)
全國殘疾人崗位精英職業(yè)技能競賽組委會
2012年7月
競 賽 標 準
一、競賽目的考查參賽選手對于數(shù)據(jù)處理相關基礎知識的掌握程度,使用電子表格進行數(shù)據(jù)處理的能力,以及在規(guī)定的時間內(nèi),分析理解競賽題目給出的數(shù)據(jù)處理應用系統(tǒng)需求,運用所學數(shù)據(jù)庫語言與工具,以軟件工程思想為指導,獨立快速完成數(shù)據(jù)處理程序設計的能力。
二、競賽任務
競賽分兩部分,第一部分是數(shù)據(jù)處理的理論試題,為單項選擇題,主要考查選手對于數(shù)據(jù)處理基本知識的掌握程度,內(nèi)容涉及計算機基礎知識、計算機網(wǎng)絡、數(shù)據(jù)庫基本概念和Excel電子表格、Access數(shù)據(jù)庫的使用方法等,占總分的20%;第二部分為實際操作試題,任務1要求選手按要求處理給定的Excel電子表格,得出需要的數(shù)據(jù)和圖表結(jié)果,任務2要求參賽選手按照題目給定的數(shù)據(jù)處理需求,使用數(shù)據(jù)庫管理系統(tǒng)Access建立數(shù)據(jù)庫,開發(fā)出一套符合要求的數(shù)據(jù)庫應用系統(tǒng),每完成一項操作或?qū)崿F(xiàn)某一功能均有相應得分。占總分的80%。
三、要求
要求參賽選手掌握以下基本知識和技能:
1.熟練掌握Excel電子表格軟件的使用方法,能進行排序、分類匯總、篩選、計算和統(tǒng)計繪圖等操作。
2.了解數(shù)據(jù)庫的基礎知識,熟悉SQL語言,E-R圖,掌握數(shù)據(jù)庫的基本操作和數(shù)據(jù)訪問技術(數(shù)據(jù)庫的結(jié)構(gòu)設計與修改,多表間一對多與多對多的關聯(lián)處理,數(shù)據(jù)的增加、刪除、修改和查詢功能,數(shù)據(jù)的統(tǒng)計和排序功能,數(shù)據(jù)庫安全設計等)。
3.熟練掌握Microsoft Access數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)表創(chuàng)建、查詢、視圖、導入、窗體設計、報表輸出等,能使用Access開發(fā)數(shù)據(jù)處理應用程序。
4.熟悉Windows操作環(huán)境,可以獨立進行編程工作; 人機交互界面設計美觀易用。
5.本次競賽不再提供其它編程環(huán)境。
四、評分標準
注:根據(jù)具體題目評分標準細則出現(xiàn)分數(shù)相同的情況時,以用時最少的選手排名在前。
五、設備和工具材料
六、競賽時間
本項目競賽時間為180分鐘(3小時),其中理論測試時間30分鐘(0.5小時),實際操作時間150分鐘(2.5小時)。
七、注意事項
1.所有參賽選手不得攜帶任何存儲媒體(如磁盤、光盤、移動硬盤、U盤,具有存儲功能的手機等)、任何無線上網(wǎng)設備和參考資料進入賽場。競賽現(xiàn)場的硬盤裝有保護卡,關機或斷電后不能保存數(shù)據(jù),選手必須將開發(fā)好的程序、數(shù)據(jù)庫
保存在監(jiān)考人員指定的分區(qū)和文件夾。建議選手及時保存數(shù)據(jù)。
2.競賽組委會有權(quán)在必要時對競賽任務、評分標準等進行修改,并及時在官方網(wǎng)站上公示。
3.參賽選手須正確操作、使用競賽組委會現(xiàn)場提供的設備及工具,以免發(fā)生損壞。進入賽場后,及時檢查計算機和軟件,如有問題,立即向工作人員舉手示意。
4.評判時如出現(xiàn)參賽選手得分相同的情況,將考慮作品完成的速度。
5.競賽標準的解釋權(quán)歸競賽組委會所有。
第三篇:數(shù)據(jù)處理教案
數(shù)據(jù)處理教案
引言:
根據(jù)高專中專部安排,由我?guī)?0級綜合班的數(shù)據(jù)處理課和Office辦公自動化課,根據(jù)教學的要求,特寫此教案,該教案分為5部分,第一部分介紹數(shù)據(jù)處理定義,結(jié)構(gòu),常用軟件;第二部分計算機基礎;第三部分介紹Excel數(shù)據(jù)處理;第四部分介紹常用數(shù)據(jù)庫(access、sql語句),第四部分介紹簡單的關系數(shù)據(jù)庫、數(shù)據(jù)建模等;第五部分介紹簡單的數(shù)據(jù)處理、報表制作等。
第一部分數(shù)據(jù)處理定義,結(jié)構(gòu) 第一節(jié) 數(shù)據(jù)處理定義
教學目的:通過對數(shù)據(jù)處理的定義使學生明白,在當今的社會,數(shù)據(jù)是如何的重要,數(shù)據(jù)處理在現(xiàn)代社會中起到什么樣的作用。
教學內(nèi)容:重點是數(shù)據(jù)處理的定義,難點為如何看待數(shù)據(jù)和信息的關系,模糊數(shù)據(jù)和數(shù)字數(shù)據(jù)的區(qū)別 教學方法:口述與上機
教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)處理常用軟件。
1.1.1數(shù)據(jù)處理定義
數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領域。數(shù)據(jù)處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程
1.1.2數(shù)據(jù)處理軟件
數(shù)據(jù)處理離不開軟件的支持,數(shù)據(jù)處理軟件包括:用以書寫處理程序的各種程序設計語言及其編譯程序,管理數(shù)據(jù)的文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng),以及各種數(shù)據(jù)處理方法的應用軟件包。為了保證數(shù)據(jù)安全可靠,還有一整套數(shù)據(jù)安全保密的技術。1.1.3 數(shù)據(jù)處理方式
根據(jù)處理設備的結(jié)構(gòu)方式、工作方式,以及數(shù)據(jù)的時間空間分布方式的不同,數(shù)據(jù)處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應當根據(jù)應用問題的實際環(huán)境選擇合適的處理方式。數(shù)據(jù)處理主要有四種分類方式①根據(jù)處理設備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機處理方式和脫機處理方式。②根據(jù)數(shù)據(jù)處理時間的分配方式區(qū)分,有批處理方式、分時處理方式和實時處理方式。③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據(jù)計算機中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。
1.1.4 數(shù)據(jù)處理加工
數(shù)據(jù)處理對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進行分析和加工的技術過程。包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理。比數(shù)據(jù)分析含義廣。隨著計算機的日益普及,在計算機應用領域中,數(shù)值計算所占比重很小,通過計算機數(shù)據(jù)處理進行信息管理已成為主要的應用。如側(cè)繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術情報管理、辦公室自動化等。在地理數(shù)據(jù)方面既有大量自然環(huán)境數(shù)據(jù)(土地、水、氣候、生物等各類資源數(shù)據(jù)),也有大量社會經(jīng)濟數(shù)據(jù)(人口、交通、工農(nóng)業(yè)等),常要求進行綜合性數(shù)據(jù)處理。故需建立地理數(shù)據(jù)庫,系統(tǒng)地整理和存儲地理數(shù)據(jù)減少冗余,發(fā)展數(shù)據(jù)處理軟件,充分利用數(shù)據(jù)庫技術進行數(shù)據(jù)管理和處理。1.1.5 數(shù)據(jù)清洗
有關商務網(wǎng)站的數(shù)據(jù)處理:由于網(wǎng)站的訪問量非常大,在進行一些專業(yè)的數(shù)據(jù)分析時,往往要有針對性的數(shù)據(jù)清洗,即把無關的數(shù)據(jù)、不重要的數(shù)據(jù)等處理掉。接著對數(shù)據(jù)進行相關分分類,進行分類劃分之后,就可以根據(jù)具體的分析需求選擇模式分析的技術,如路徑分析、興趣關聯(lián)規(guī)則、聚類等。通過模式分析,找到有用的信息,再通過聯(lián)機分析(OLAP)的驗證,結(jié)合客戶登記信息,找出有價值的市場信息,或發(fā)現(xiàn)潛在的市場。
第二節(jié)數(shù)據(jù)處理結(jié)構(gòu)
教學目的:通過對數(shù)據(jù)處理結(jié)構(gòu)的介紹使學生明白數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)挖掘的關系。
教學內(nèi)容:重點是數(shù)據(jù)倉庫的圖像理解,難點也是數(shù)據(jù)倉庫整體結(jié)構(gòu)的理解。教學方法:口述與上機 教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)倉庫案例。
1.2.1商業(yè)智能在中國的發(fā)展機會(數(shù)據(jù)處理)
商業(yè)智能就像幾年前的ERP(企業(yè)資源管理)一樣,正成為企業(yè)首席技術官們關注的焦點,呈現(xiàn)如火如荼的發(fā)展態(tài)勢。眾所周知,在ERP等基礎信息系統(tǒng)部署完之后,企業(yè)能夠?qū)ζ錁I(yè)務數(shù)據(jù)進行更為有效的管理,于是如何利用這些數(shù)據(jù)創(chuàng)造價值成為企業(yè)下一步思考的問題。
商業(yè)智能系統(tǒng)已經(jīng)作為一種含金量極高的管理工具,融合在部分大型企業(yè)管理文化的血脈之中了。商業(yè)智能在幫助企業(yè)管理層發(fā)現(xiàn)市場機會、創(chuàng)造競爭新優(yōu)勢的作用顯而易見,因此成為企業(yè)信息化的新寵也是必然的。
商業(yè)智能軟件市場穩(wěn)步增長
從全球范圍來看,商業(yè)智能領域并購不斷,商業(yè)智能市場已經(jīng)超過ERP和CRM(客戶關系管理)成為最具增長潛力的領域。從中國市場來看,商業(yè)智能已經(jīng) 被電信、金融、零售、保險、制造等行業(yè)越來越廣泛地應用,操作型商業(yè)智能逐步在大企業(yè)普及,商業(yè)智能不局限于高層管理者的決策之用,也日益成為普通員工日 常操作的工具。
不過,盡管這個市場潛力巨大,但仍有不少的現(xiàn)實情況導致這一市場的發(fā)育沒有大家預期中的那么好。首先一點,國內(nèi)的成熟、專業(yè)的商業(yè)智能實施顧問較少,不但上游廠商的相關人才少,下游負責實施的渠道合作伙伴更是缺乏相關人才,很多時候用戶要啟用商業(yè)智能工具,但是不太明確自己的需求,負責實施的人很多時 候也是一知半解,不能給用戶很好的解決方案;其次,目前多數(shù)商業(yè)智能廠商,尤其是國外廠商都是通過分公司或辦事處來銷售的,而未來國內(nèi)制造業(yè)企業(yè)多數(shù)需要 本地化服務,這種模式必將改變。同時,商業(yè)智能系統(tǒng)的銷售、服務要求代理商要有很強的能力,如何選擇、培養(yǎng)、發(fā)展這些代理商將是商業(yè)智能大發(fā)展面臨的一個很重要問題。
SaaS將成為重要交付模式
同時,商業(yè)智能系統(tǒng)的核心不是平臺,而是模型。目前,由于國內(nèi)應用商業(yè)智能的企業(yè)并不多,應用深入的更少,應用基礎也比較薄弱,即使拿來國外先進的商 業(yè)模型也不一定能運轉(zhuǎn)起來,所以盡快建立各種適合國內(nèi)企業(yè)特色的模型是各服務商未來要加大投入著力解決的。當然,對企業(yè)而言,商業(yè)智能的有效應用,離不開 數(shù)據(jù)的支持。如果沒有準確的數(shù)據(jù),那么所要分析產(chǎn)生的報表、決策都與事實存在差距,將會導致整個決策的錯誤,因此,必須要求前期的數(shù)據(jù)準確。
最后,隨著云計算的大規(guī)模普及,下一代商業(yè)智能的精細分析系統(tǒng)很可能會建設在動態(tài)的基礎架構(gòu)上,而虛擬化、云計算等技術的發(fā)展也會帶動商業(yè)智能系統(tǒng)的建設和應用,這就是“云智能”。我國企業(yè)需要抓住“云智能”機遇,加快發(fā)展、迎頭趕上,才能從容應對下一階段的全球化競爭。
1.2.2數(shù)據(jù)倉庫技術的發(fā)展及體系結(jié)構(gòu) 數(shù)據(jù)倉庫技術的發(fā)展及概念
傳統(tǒng)的數(shù)據(jù)庫技術是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務處理工作的。然而,不同類型的數(shù)據(jù)有著不同的處理特點,以單一的數(shù)據(jù)組織方式進行組織的數(shù)據(jù)庫并不能反映這種差異,滿足不了現(xiàn)代商業(yè)企業(yè)數(shù)據(jù)處理多樣化的要求??偨Y(jié)起來,當前的商、世企業(yè)數(shù)據(jù)處理可以大致地劃分為2大類:操作型處理和分析型處理。操作型處理也叫事務型處理,主要是為企業(yè)的特定應用服務的(這是目前最為常用的),分析型處理則用于商業(yè)企業(yè)管理人員的決策分析,這種需求既要求聯(lián)機服務,又涉及大量用于決策的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足,具體體現(xiàn)在:
1)歷史數(shù)據(jù)量大;
2)輔助決策信息涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成;
3)由于訪問數(shù)據(jù)的能力不足,它對大量數(shù)據(jù)的訪問能力明顯下降。
數(shù)據(jù)倉庫技術的出現(xiàn)為解決上述問題提供了新的思路。數(shù)據(jù)倉庫的創(chuàng)始人Inmon指出:“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程”。它從大量的事務型數(shù)據(jù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格式,即為決策目標把數(shù)據(jù)聚合在一種特殊的格式中,作為決策分析的數(shù)據(jù)基礎,從而在理論上解決了從不同系統(tǒng)的數(shù)據(jù)庫中提取數(shù)據(jù)的難題。同時,利用聯(lián)機分析處理(OLAP)技術可以對數(shù)據(jù)倉庫提供的數(shù)據(jù)進行深入加工。
企業(yè)數(shù)據(jù)倉庫的體系結(jié)構(gòu)
一個典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng)通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器以及前端工具與應用4個部分。
1)數(shù)據(jù)源。
數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于企業(yè)操作型數(shù)據(jù)庫中(通常存放在RD-BMS中)的各種業(yè)務數(shù)據(jù),外部信息包括各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及各類文檔等。
2)數(shù)據(jù)的存儲與管理。
數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。在現(xiàn)有各業(yè)務系統(tǒng)的基礎上,對數(shù)據(jù)進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),同時組織存儲數(shù)據(jù)倉庫元數(shù)據(jù)(具體包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務規(guī)則等信息)。按照數(shù)據(jù)的覆蓋范圍,數(shù)據(jù)倉庫存儲可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為“數(shù)據(jù)集市”,Data Mart)。數(shù)據(jù)倉庫的管理包括數(shù)據(jù)的安全、歸檔、備份、維護、恢復等工作。這些功能與目前的DBMS基本一致。
3)OLAP服務器。
對分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的分析,發(fā)現(xiàn)數(shù)據(jù)趨勢。
4)前端工具與應用。
前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應用。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具既針對數(shù)據(jù)倉庫,同時也針對OLAP服務器。
1.2.3商業(yè)智能(BI)落地需要的三大工具
商業(yè)智能(后面簡稱BI)的各類角色用戶必須借助和使用工具實現(xiàn)其需求。BI角色分為業(yè)務、業(yè)務融合技術、技術這三類,對于其相應的應用需求(含演繹型和歸納型)和管控開發(fā)需求,需要借演繹型需求支撐工具和歸納型需求支撐工具,及管控開發(fā)型工具來予以實現(xiàn)。本篇先講述演繹型需求支撐的7種工具,其可分為描述統(tǒng)計工具、經(jīng)營技術與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具;
筆者認為BI以認識論和組織理論為基本原理,采取相適宜的“工具”,旨在幫助 “相關角色”對職責范圍內(nèi)的“有關內(nèi)容”做出最佳決定的整體解決方案。它由“三維模式”和“三層漏斗”組成,是輔助整個企業(yè)集理念,組織,流程,技術為一體的整體決策支持方案三維模式由角色維、內(nèi)容維和工具維構(gòu)成,體現(xiàn)了BI的主體、客體和工具等一般性原理。根據(jù)BI的定義,只有清晰劃分相關角色并據(jù)以確定需求,并借助工具才能實現(xiàn)BI輔助主體對職責范圍的有關事項做出最佳決定的宗旨。
BI的業(yè)務類角色、技術類角色以及業(yè)務融合技術類角色對應存在著業(yè)務應用需求(指業(yè)務類的演繹型需求和業(yè)務融合技術類的歸納型需求)和技術應用需求,即管控開發(fā)型需求。這種需求能否得以有效實現(xiàn)和提升,必須借助工具。針對三大類角色的兩種需求,BI的工具分為應用型支撐型工具和管控開發(fā)支持型工具。鑒于文章的范圍,硬件支撐工具的內(nèi)容請參見相關書籍。
應用支撐工具可以分為描述統(tǒng)計工具、經(jīng)營技術與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具。一般來說,這些工具以軟件包的形式形成產(chǎn)品。鑒于BI對于業(yè)務應用的重要作用及業(yè)務應用成功對BI的重要意義,本文著重分析BI的應用型支撐工具,并對有關產(chǎn)品作簡單介紹。
一、實現(xiàn)演繹型需求的7種工具
BI的演繹型內(nèi)容可以分為三個層次:報表查詢、綜合分析、決策選擇討。如下圖所示,BI的演繹型需求通過描述性統(tǒng)計工具、報表與展示工具、經(jīng)濟預測方法與模型、經(jīng)營技術與工具、OLAP分析及專家系統(tǒng)工具、決策方法與模型來實現(xiàn)。
上圖中,描述性統(tǒng)計工具幫助用戶在報表查詢層次實現(xiàn)對事實的充分了解;綜合分析以邏輯的方式幫助相關主體尋求原因或?qū)唵螁栴}直接獲得建議,需要運用經(jīng)濟預測方法與模型、經(jīng)營技術與工具及OLAP分析來得以實現(xiàn)。專家系統(tǒng)和決策方法與模型是實現(xiàn)定量和部分定性決策的有力工具。通過該類工具,用戶在決策選擇時通過評價各個方案的優(yōu)劣來輔助主體選擇最優(yōu),得出結(jié)論。BI 演繹型應用的三層次結(jié)構(gòu)合理、有步驟地解決了前提、邏輯規(guī)則和結(jié)論這一演繹型思維方法的遷移應用。
(一)描述性統(tǒng)計工具
統(tǒng)計的基本意義在于利用統(tǒng)計指標,通過指標值的對比關系和發(fā)展變化來研究社會經(jīng)濟現(xiàn)象的數(shù)量和數(shù)量關系,表明其變化發(fā)展的過程、結(jié)果及其規(guī)律。作為統(tǒng)計學兩大基本內(nèi)容之一的描述性統(tǒng)計是整個統(tǒng)計學的基礎和統(tǒng)計研究工作的第一步,它包括數(shù)據(jù)的收集、整理、顯示,對數(shù)據(jù)中有用信息的提取和分析,而對變量的集中趨勢和離中趨勢的分析則是其主要內(nèi)容。描述性統(tǒng)計工具指為實現(xiàn)相關主體對基本事實了解的需求而需利用基本指標。這些基本統(tǒng)計指標包括總量指標、相對指標、平均指標和變異指標。
總量指標:表明具體社會經(jīng)濟現(xiàn)象總體的規(guī)模、水平或工作總量的數(shù)值,是計算各種派生指標的基礎。如某集團公司年銷量即是總量指標。它可分為總體單位總量、總體標志總量和時期總量(如某個事業(yè)部門的總銷量)、時點總量(如月末庫存)??偭恐笜丝赏ㄟ^直接計算和間接計算求出。
相對指標:表明兩個互有聯(lián)系的社會、經(jīng)濟現(xiàn)象之間數(shù)量對比關系的統(tǒng)計指標。如競爭企業(yè)之間庫存周轉(zhuǎn)率的對比,或行業(yè)內(nèi)某企業(yè)銷量與行業(yè)總銷量的對比等等;常用的同比和環(huán)比也是相對指標的運用。相對指標反映了社會經(jīng)濟現(xiàn)象的實質(zhì)及其數(shù)量的對比關系,從現(xiàn)象間數(shù)量對比關系中清晰地認識事物。其次,可使原來無法直接比較的現(xiàn)象,找到共同的基礎進行科學地對比分析。相對指標又包括:計劃完成程度指標、結(jié)構(gòu)相對指標(高中低檔產(chǎn)品利潤在全部利潤中的各自占比)、比例相對指標(產(chǎn)品A與產(chǎn)品B的對比)、比較相對指標(某企業(yè)銷量增長率與競爭企業(yè)銷量增長率的對比)、強度相對指標(如煙草行業(yè)銷售情況中條/人指標的對比)、動態(tài)相對指標(如歷年的銷售額的比較)。運用時,要正確選擇對比的基數(shù)、確定可比的對比指標、相對指標要與對比基數(shù)結(jié)合使用。
平均指標:反映同質(zhì)總體內(nèi)各單位某一數(shù)量標志的一般水平,可以對比總體的一般水平,如分公司年平均銷量與總公司平均銷量的對比,可以進行數(shù)量上的推算和預測。平均指標有算術平均數(shù)、調(diào)和平均數(shù)(較少用,主要用于已知標志總量而不知單位總量的情況)、幾何平均數(shù)(一般用于計算平均發(fā)展速度)、眾數(shù)(一組序列中出現(xiàn)次數(shù)最多的數(shù))、中位數(shù)(按大小順序排列的數(shù)據(jù)中處于中間的數(shù))五種。使用平均數(shù)時要與變異指標結(jié)合使用,有時需要用組平均數(shù)補充總體平均數(shù)。
標志變異指標:說明總體各單位某一標志數(shù)值差異程度,通過變異指標可以揭示被平均指標掩蓋了的差異情況,也可作為衡量平均指標代表性的尺度??煞譃椋喝唷⑵骄?、標準差、標志變異系數(shù)。全距是標志值最大值與最小值之差,如2006年某產(chǎn)品在全國各省中最高銷量與最低銷量之差;平均差是各個標志值與總體算術平均數(shù)的離差的絕對值。標準差為各個標志值與總體算術平均數(shù)的離差的平方和的正平方根,其值越大表明差異越大,平均值不能很好代表一般水平;標準差與算術平均數(shù)的比值稱為標志變異系數(shù),用以兩個平均數(shù)指標不相等時的對比。
描述性統(tǒng)計工具在當前BI的行業(yè)應用中非常普遍。值得關注的是,當前一般BI的報表查詢應用涉及更多是描述性統(tǒng)計的總量指標、平均指標和比較指標,而對于描述離中趨勢的標志變異指標運用得相當不夠。事實上,標志變異指標可以解決B I的應用主體很多實質(zhì)性問題,比如在眾多品牌中找到銷量不穩(wěn)定的品牌,在眾多客戶中找到交易額波動大的客戶,這些信息為BI的應用有關主體在研發(fā)、生產(chǎn)、采購、銷售、庫存方面起到較為關鍵的作用。
(二)報表與展示工具
以報表應用類別區(qū)分,BI系統(tǒng)能利用報表與展示工具來生成統(tǒng)計報表和查詢報表。查詢報表較為簡單,根據(jù)用戶的需求可以較容易地定制。由于中國式統(tǒng)計報表眾多的表頭項以及表頭中首格的一重甚至多種斜線的特征,甚至在表頭項中又切分子表頭的復雜情況,致使生成統(tǒng)計報表較為困難。國外的BI產(chǎn)品在生成統(tǒng)計報表方面和國內(nèi)的某些產(chǎn)品相比,如水晶報表,操作過程較繁鎖。對于報表的展示,一是產(chǎn)生表格,二是產(chǎn)生與表格對應的圖形,如曲線圖、柱形圖、三維圖等。一般來說,要求報表與圖形連動。即當報表數(shù)據(jù)發(fā)生變動時,圖形跟著變動?;蛘呦喾矗瑘D形的變動要帶來報表數(shù)據(jù)的變動。這是在鉆取時較容易產(chǎn)生的情況。如SAS的Business Intelligence和BO的圖形互動功能都能實現(xiàn)此種需求。
報表與展示工具注重實現(xiàn)報表的靈活性,更強調(diào)圖形展示的美觀、圖形色彩的模板化定,強調(diào)圖形種類的多樣。這是BI工具的基本功能。前兩年大家談到BI時,更容易評判到某個廠家的BI的界面制作的是否美觀等等,這是當時人們對BI應用認識不夠造成的?,F(xiàn)在廠家在宣傳BI時,不僅注重更深層次的綜合分析功能和預測、決策功能,更擴大到數(shù)據(jù)集成與整合,數(shù)據(jù)存儲和元數(shù)據(jù)管理等全套BI平臺上。
(三)經(jīng)濟預測方法與模型 經(jīng)濟預測方法與模型是統(tǒng)計學中統(tǒng)計推斷部分的運用,復雜且靈活。它是BI在綜合分析層次上的應用。該方法滿足業(yè)務類用戶展望未來的需求。統(tǒng)計推斷一般包括參數(shù)估計、假設檢驗以及分類與選擇。經(jīng)濟預測方法是參數(shù)估計的應用推廣,包含了點估計和參數(shù)估計,如某上時間段銷量的預測值,或者預測值所處的區(qū)間。經(jīng)濟預測模型是在預測方法的指導下,根據(jù)行業(yè)的實際經(jīng)過修正后建立的預測模型。
定量的預測方法實戰(zhàn)中可以建立很多模式,此處以時間序列預測為主簡要介紹經(jīng)濟預測方法與模型的運用。
時間序列預測法是動態(tài)分析法的一種運用。動態(tài)分析法是在統(tǒng)計研究中,把經(jīng)濟現(xiàn)象在不同時間上的數(shù)量進行對比,以了解現(xiàn)象變動的方向、速度、趨勢和規(guī)律,并據(jù)此預測未來的方法。動態(tài)趨勢分析與預測是動態(tài)分析法的重要用途。時間序列是動態(tài)分析研究的一個主要方面,其前提是編制時間序列,并形成時間序列預測法。當前時間序列有100種左右的預測方法,但其基本方法一般包括簡單平均、移動平均、指數(shù)平滑、最小二乘等,可以運用到直線趨勢預測和曲線趨勢預測方面。時間序列影響時間序列的值變化的四種因素:趨勢變動、季節(jié)變動、循環(huán)變動、不規(guī)則變動,循環(huán)變動在短期預測中通常不考慮。將這四個因素從時間序列值中分解出來的方法稱為分解分析法。如2月份在某地的某品牌白酒銷量為60箱,通過分解技術,可獲知趨勢變動(平均水平與增長勢頭)的影響值為40,中秋的季節(jié)變動影響值為15,但不規(guī)則變動影響值是5,所以即銷量為60。時間序列預測的基本方法結(jié)合上述四種因素并運用到直線預測和曲線預測中,就形成了近100種的具體預測方法,如加權(quán)平均,加權(quán)移動平均、溫特斯法等。溫特斯法是以指數(shù)平滑法為基本模型,結(jié)合季節(jié)因素并運用到直線趨勢中而形成的季節(jié)直線趨勢和季節(jié)變動指數(shù)平滑模型。下圖分別是直線趨勢和曲線趨勢預測的結(jié)果。
1.2.4數(shù)據(jù)倉庫架構(gòu)的建立
每一個數(shù)據(jù)倉庫有一個架構(gòu)。這架構(gòu)要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數(shù)據(jù)倉庫開發(fā)時并沒有一個明確的架構(gòu),這極大的限制了它的靈活性。在沒有架構(gòu)的情況下,主題區(qū)域就無法契合在一起,它們之間的連接變得無目的,并且使整個數(shù)據(jù)倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數(shù)據(jù)倉庫的架構(gòu)已成為選擇工具時的框架。
讓我們把開發(fā)一個數(shù)據(jù)倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術規(guī)范、和在多個層次細節(jié)上顯示這個房子將如何進行建造的標準。當然,針對房子的各種子系統(tǒng)要有不同版本的藍圖,如管道工程、電氣、暖通空調(diào)系統(tǒng)(HVAC)、通信、和空間。針對所有的家用的設備也有相應的標準,包括插頭、燈具、衛(wèi)生潔具、門的尺寸等。
對于數(shù)據(jù)倉庫,架構(gòu)是對數(shù)據(jù)倉庫的元素和服務的一種描述,用具體細節(jié)說明各種組件如何組合在一起,和隨著時間的推移系統(tǒng)將如何地發(fā)展。就像這房子的比喻,數(shù)據(jù)倉庫架構(gòu)是一套文件、計劃、模型、圖紙和規(guī)范,針對每個關鍵的組件區(qū)域有獨立的分區(qū),并且足夠詳細到讓專業(yè)技術人員可以實施它們。
這并是一個需求文件。需求文件說明架構(gòu)需要做些什么。數(shù)據(jù)倉庫架構(gòu)也不是一個項目計劃或任務清單;它說明數(shù)據(jù)倉庫是什么,而不是怎么去做或為什么去做。
一個數(shù)據(jù)倉庫的開發(fā)也并不容易,因為相對于房屋的5000年建筑史,我們發(fā)展數(shù)據(jù)倉庫系統(tǒng)只有20年的時間。因此,我們的標準還不多,工具和技術正在快速發(fā)展,關于我們已經(jīng)擁有數(shù)據(jù)倉庫系統(tǒng)的檔案還很少,而且數(shù)據(jù)倉庫的術語還有很大的出入。
所以,雖然開發(fā)一個架構(gòu)是困難的,但它也是可能的,并且又是至關重要的。首先,最主要的是,架構(gòu)應該受業(yè)務的驅(qū)動。如果你的要求是每夜進行更新,這一要求就該包含在架構(gòu)內(nèi),而你必須弄清實現(xiàn)你目標的技術需求。下面是一些業(yè)務需求的例子,和針對每種需求的綜合技術考量:
●每夜更新――充足的數(shù)據(jù)準備能力
●全球可用性—平行或分布式服務器
●顧客層次分析――大型服務器
●新數(shù)據(jù)源――帶有支持元數(shù)據(jù)的靈活工具
●可靠性――工作的控制功能
關鍵組件區(qū)域
一個完整的數(shù)據(jù)倉庫架構(gòu)包括數(shù)據(jù)和技術因素。架構(gòu)可以被分為三個主要區(qū)域。首先,是基于業(yè)務流程的數(shù)據(jù)架構(gòu)。其次是基礎設施,包括硬件、網(wǎng)絡、操作系統(tǒng)和電腦。最后,是技術區(qū)域,包含用戶所需的決策制定的技術以及它們的支持結(jié)構(gòu)。對這些區(qū)域?qū)⒃谙挛姆中」?jié)進行詳述。
●數(shù)據(jù)架構(gòu)
如上所述,在整體數(shù)據(jù)倉庫架構(gòu)中的數(shù)據(jù)架構(gòu)部分是受業(yè)務流程所驅(qū)動的。例如,在一個制造環(huán)境里,數(shù)據(jù)模型可能包括訂單、裝運和帳單。每一個區(qū)域都依據(jù)一套不同的維度。但是在數(shù)據(jù)模型中對相交維度的定義必須相同。所以相同數(shù)據(jù)項應該有同樣的結(jié)構(gòu)和內(nèi)容,并有一個創(chuàng)建和維護的單一流程。
當你完成一個數(shù)據(jù)倉庫架構(gòu)并呈現(xiàn)數(shù)據(jù)給你的用戶,就要做出對工具的選擇,但隨著需求的設定,選擇就會變窄。例如,產(chǎn)品的功能開始融合,就像多維聯(lián)機分析處理(M OLAP)和關系型聯(lián)機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯(lián)機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內(nèi)。它的缺點是規(guī)模(整體上和一個維度內(nèi))、設計的局限性(受立方體結(jié)構(gòu)所限)、需要一個專有的數(shù)據(jù)庫。關系型聯(lián)機分析處理(ROLAP)是多維聯(lián)機分析處理(MOLAP)的一種替代方案,它克服了多維聯(lián)機分析處理(MOLAP)的這些缺點。通常,混合聯(lián)機處理(HOLAP)更受歡迎,它允許一部分數(shù)據(jù)存儲在維聯(lián)機分析處理(MOLAP)中,另一部分數(shù)據(jù)存儲在關系型聯(lián)機分析處理(ROLAP)中,折衷了各自的長處。
●基礎設施架構(gòu)
對硬件及數(shù)據(jù)庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數(shù)據(jù)倉庫項目中,這并不困難,大多數(shù)企業(yè)有足夠的力量來應對他們的需要。
在網(wǎng)絡、檢查數(shù)據(jù)來源、數(shù)據(jù)倉庫準備區(qū)、以及它們之間的任何設施方面,要確保有足夠的帶寬用于數(shù)據(jù)的移動?!窦夹g架構(gòu)
技術架構(gòu)被元數(shù)據(jù)目錄所驅(qū)動。一切都應該受元數(shù)據(jù)所驅(qū)動。服務應該依從表格所需的參數(shù),而不是它們的硬編碼。技術架構(gòu)的一個重要組件是 ETL(提取、轉(zhuǎn)換和加載)流程,它涵蓋了五個主要區(qū)域:
●提?。瓟?shù)據(jù)來自多種數(shù)據(jù)源并且種類繁多。在這個區(qū)域如果有數(shù)據(jù)的應用時必須考慮對它的壓縮和加密處理。
●轉(zhuǎn)換-數(shù)據(jù)轉(zhuǎn)換包括代理主鍵的管理、整合、去標準化、清洗、轉(zhuǎn)換、合并和審計。
●加載-加載通常是利用加載最優(yōu)化和對整個加載周期的支持對多種目標進行加載。
●安全-管理員訪問和數(shù)據(jù)加密的策略。
●元件控制--它包括元件的定義、元件安排(時間和事件)、監(jiān)控、登錄、異常處理、錯誤處理和通知。
數(shù)據(jù)準備區(qū)需要能夠從多種數(shù)據(jù)源提取數(shù)據(jù),如MVS、ORACLE、VM和其它,所以當你選擇產(chǎn)品時要具體。它必須將數(shù)據(jù)進行壓縮和加密、轉(zhuǎn)化、加載(可能對多個目標)和安全處理。此外,數(shù)據(jù)準備區(qū)的活動要能夠自動化進行。不同的供應商的產(chǎn)品做不同的事情,所以大多數(shù)企業(yè)將需要使用多種產(chǎn)品。
一個監(jiān)控數(shù)據(jù)倉庫使用的系統(tǒng)對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調(diào)整。性能優(yōu)化包括通過“管理者”工具進行的成本估算,而且應包括即時查詢的時間表。有工具能夠提供查詢管理服務??墒褂霉ぞ邅磲槍@些和其它相關任務,如對前臺的基于服務器的查詢管理和來自于多種數(shù)據(jù)源的數(shù)據(jù)。也有工具可用于報表、連通性和基礎設施管理。最后,數(shù)據(jù)訪問塊應包括報表的服務(如發(fā)布和訂閱),還應包括報表庫,調(diào)度程序和分布管理員。
關于元數(shù)據(jù)
在數(shù)據(jù)倉庫流程中數(shù)據(jù)的創(chuàng)建和管理要遵循以下的“步驟”:
●數(shù)據(jù)倉庫模型
●數(shù)據(jù)源的定義
●表的定義
●數(shù)據(jù)源到目標的映射
●映射和轉(zhuǎn)換信息
●物理信息(表格空間,等)
●提取數(shù)據(jù)
●轉(zhuǎn)移數(shù)據(jù)
●加載統(tǒng)計
●業(yè)務描述
●查詢請求
●數(shù)據(jù)本身
●查詢統(tǒng)計
為顯示元數(shù)據(jù)的重要性,上述的步驟列表中只有三步包括了“真正”的數(shù)據(jù)-
7、8和12。其他的一切都是元數(shù)據(jù),而且整個數(shù)據(jù)倉庫流程都依賴于它。元數(shù)據(jù)目錄的專業(yè)技術要素包括: ●業(yè)務規(guī)則--包括定義、推導、相關項目、驗證、和層次結(jié)構(gòu)信息(版本、日期等。)
●轉(zhuǎn)移/轉(zhuǎn)換信息--源/目的地的信息,以及DDL(數(shù)據(jù)類型、名稱等等。)
●操作信息--數(shù)據(jù)加載的工作時間表、依存性、通知和信息的可靠性(比如主機的重定向和加載平衡)。
●特定工具的信息--圖形顯示信息和特殊功能的支持。
●安全規(guī)則--認證和授權(quán)。
建立架構(gòu)
在開發(fā)技術架構(gòu)模型前,要先起草一份架構(gòu)需求的文件。然后將每一項業(yè)務需求計劃包含到它的架構(gòu)中。根據(jù)架構(gòu)的區(qū)域?qū)@些內(nèi)容進行分組(遠程訪問、數(shù)據(jù)準備、數(shù)據(jù)訪問工具等)。了解它如何于其它區(qū)域相適應。采集區(qū)域的定義及其內(nèi)容。最后提煉和形成模型的文件。
我們認識到開發(fā)一個數(shù)據(jù)倉庫架構(gòu)是困難的,因此要有一個周密細致的規(guī)劃。但ZACHMAN框架又超出了大多數(shù)企業(yè)對數(shù)據(jù)倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業(yè)務需求、技術架構(gòu)、標準和工具。
業(yè)務需求本質(zhì)上驅(qū)動著架構(gòu),所以要對業(yè)務經(jīng)理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業(yè)務問題,以及企業(yè)戰(zhàn)略、發(fā)展方向、挫折、業(yè)務流程、時間、可用性、業(yè)績預期的指標。將它們一一妥善歸檔。
從IT的角度來看,跟現(xiàn)有的數(shù)據(jù)倉庫/決策支持系統(tǒng)(DSS)的支持人員、聯(lián)機分析處理(OLTP)應用組成員、數(shù)據(jù)庫管理員們(DBA);以及網(wǎng)絡、操作系統(tǒng)和桌面支持人員進行討論。也要與架構(gòu)師和專業(yè)規(guī)劃人員進行探討。你應該從這些討論中得知他們從IT的觀點考慮數(shù)據(jù)倉庫的意見。從中了解是否有現(xiàn)存的構(gòu)架文件、IT原則、標準文件、企業(yè)數(shù)據(jù)中心等。
關于數(shù)據(jù)倉庫并沒有太多現(xiàn)存的標準,但對于許多組件來說是有標準的。下面是一些需要牢記的標準:
●中間設備--開放數(shù)據(jù)庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數(shù)據(jù)庫(OLE DB)、數(shù)據(jù)通信設備(DCE)、對象請求代理(ORB)和數(shù)據(jù)庫編程(JDBC)
●數(shù)據(jù)庫連接--ODBC, JDBC, OLE DB, 和其它。
●數(shù)據(jù)管理--ANSI SQL 和文件傳輸協(xié)議(FTP)
●網(wǎng)絡訪問--數(shù)據(jù)通信設備(DCE)、域名服務器(DNS)、和 輕量目標訪問協(xié)議(LDAP)
無論它們支持的是哪種標準,主流的數(shù)據(jù)倉庫工具都受元數(shù)據(jù)所驅(qū)動。然而,它們通常并不互相共享元數(shù)據(jù)而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構(gòu)師是你選擇適當工具的向?qū)А?/p>
一個數(shù)據(jù)倉庫架構(gòu)需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業(yè)務需求的數(shù)據(jù)倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發(fā)中來(即:它變成了“復雜的技術策略”)和生成的系統(tǒng)需要變得更復雜(即“復雜的功能”),架構(gòu)的完成會呈指數(shù)倍的發(fā)展。
像數(shù)據(jù)倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了,而且業(yè)務不能等。同時,數(shù)據(jù)倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。
總結(jié):
綜上所述,建立一個數(shù)據(jù)倉庫架構(gòu)的好處如下:
●提供了一個組織結(jié)構(gòu)的框架--架構(gòu)對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優(yōu)先次序的問題劃出了界線。
●提高了靈活性和維護性--讓你能快速加入新的數(shù)據(jù)來源,接口標準允許即插即用,模型和元數(shù)據(jù)允許影響分析和單點的變化。
●更快的開發(fā)和再利用--數(shù)據(jù)倉庫開發(fā)者更能夠快速了解數(shù)據(jù)倉庫流程、數(shù)據(jù)庫內(nèi)容和業(yè)務規(guī)則。
●管理和通信的工具--定義未來方向和項目范圍,確定職務和職責、對供應商傳達需求。
●協(xié)調(diào)多項任務同時進行——多種、相對獨立的工作有機會成功地集合。
我們建議公司對準業(yè)務需求而又要務實一些。時刻跟上數(shù)據(jù)倉庫產(chǎn)業(yè)的進步是很重要的。最后,請記住架構(gòu)總是存在的:或隱性或具體的,或無計劃或計劃內(nèi)的。經(jīng)驗證明,有一個計劃內(nèi)和具體的架構(gòu)會使數(shù)據(jù)倉庫與 商業(yè)智能項目有更多的成功機會。
1.2.5如何規(guī)劃數(shù)據(jù)倉庫中的數(shù)據(jù)清洗
可以將數(shù)據(jù)倉庫的數(shù)據(jù)清洗比做政客們募集資金的過程。幾乎不存在任何一方獨立存在的可能性。數(shù)據(jù)清洗往往是數(shù)據(jù)倉庫項目中時間最密集的,最有爭議的進程。
什么是數(shù)據(jù)清洗?
“數(shù)據(jù)清洗確保無法辨認的數(shù)據(jù)不會進入數(shù)據(jù)倉庫。無法辨認的數(shù)據(jù)將影響到數(shù)據(jù)倉庫中通過聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘和關鍵績效指標(KPI)所產(chǎn)生的報表?!?/p>
在哪里會用到數(shù)據(jù)清洗的一個簡單例子是,數(shù)據(jù)是如何儲存在不同的應用系統(tǒng)中的。例如:2007年3月11號可以儲存為“03/11/07”或“11/03/07”及其他格式。一個數(shù)據(jù)倉庫項目將數(shù)據(jù)輸入數(shù)據(jù)倉庫之前需要將不同格式的日期轉(zhuǎn)變成一個統(tǒng)一的格式標準。
為什么要進行提取,轉(zhuǎn)換和加載(ETL)?
提取、轉(zhuǎn)換和加載(ETL)指的是一種可以幫助確保數(shù)據(jù)在進入數(shù)據(jù)倉庫之前被清洗過(即符合標準)的工具。供應商提供的提取、轉(zhuǎn)換和加載(ETL)工具更加容易被用來管理持續(xù)進行的數(shù)據(jù)清洗。供應商提供的提取、轉(zhuǎn)換和加載(ETL)工具坐鎮(zhèn)在數(shù)據(jù)倉庫之前,監(jiān)測輸入的數(shù)據(jù)。如果它遇到了程序指定轉(zhuǎn)換的數(shù)據(jù),它就會在數(shù)據(jù)載入數(shù)據(jù)倉庫之前對其進行轉(zhuǎn)換。
提取、轉(zhuǎn)換和加載(ETL)工具也可以用來從遠程數(shù)據(jù)庫或者通過自動設定的事件或通過人工干預提取數(shù)據(jù)。有替代工具可以替換ETL工具,這要取決于你項目的復雜性和預算。數(shù)據(jù)庫管理員們(DBA)可以編寫腳本來完成提取、轉(zhuǎn)換和加載(ETL)的功能,通常能滿足較小的項目需要。微軟的SQL服務器都有一個免費的被稱為數(shù)據(jù)轉(zhuǎn)換服務(DTS)的提取、轉(zhuǎn)換和加載(ETL)工具。數(shù)據(jù)轉(zhuǎn)換服務(DTS)是一款不錯的免費工具,但它確實有其局限性,尤其是在數(shù)據(jù)清洗的持續(xù)管理上。
提取、轉(zhuǎn)換和加載(ETL)的供應商有Informatica、IBM(Cognos)及Pentaho等。在對所有產(chǎn)品進行選擇時,在接觸供應商之前列出你認為對一個提取、轉(zhuǎn)換和加載(ETL)供應商的需求。從咨詢顧問那里獲得服務還是值得的,它能在產(chǎn)品的選擇上幫助你進行需求分析。
數(shù)據(jù)清洗和提取、轉(zhuǎn)換和加載(ETL)對一個數(shù)據(jù)倉庫項目的成功有多重要?
在數(shù)據(jù)倉庫產(chǎn)生的結(jié)果符合利益相關者的期望值時,提取、轉(zhuǎn)換和加載(ETL)通常被忽視和置于腦后的。結(jié)果是,提取、轉(zhuǎn)換和加載(ETL)冠以數(shù)據(jù)倉庫項目的“沉默的殺手”的稱號。大多數(shù)數(shù)據(jù)倉庫項目由于數(shù)據(jù)清洗方面的意外情況而體驗到延遲和預算超支的情況。
如何規(guī)劃數(shù)據(jù)清洗?
及早開始對將要進入數(shù)據(jù)倉庫的數(shù)據(jù)進行籌劃是很重要的,這一籌劃可能會隨著項目的成熟發(fā)展而改變,但當你需要獲得數(shù)據(jù)擁有者在沒有事先通知的情況下不會改動數(shù)據(jù)的格式的承諾時,這些文件的蹤跡就變得極為有價值。
創(chuàng)建一個需要提取、轉(zhuǎn)換和加載的數(shù)據(jù)列表。為極有可能需要轉(zhuǎn)換格式的數(shù)據(jù)設立一個獨立的列表。對是否需要購買提取、轉(zhuǎn)換和加載(ETL)工具做出決定,并留出一個全面的預算。從該領域的專家那里聽取建議并評估產(chǎn)品是否適用于你企業(yè)的整體技術層次。
第四篇:數(shù)據(jù)處理工作總結(jié)
2011年XXX空間數(shù)據(jù)處理工作總結(jié)
2011年XXX水利普查空間數(shù)據(jù)工作,嚴格按照《第一次全國水利普查空間數(shù)據(jù)采集與處理實施方案》要求,以質(zhì)量為中心,精心組織、周密安排,經(jīng)過全區(qū)普查工作人員的辛苦努力在對數(shù)據(jù)錄入、外業(yè)采集及內(nèi)業(yè)標繪等各項工作,達到了上級規(guī)定的具體要求,水利普查清查階段的空間數(shù)據(jù)處理工作,現(xiàn)將XXX水利普查清查階段的空間數(shù)據(jù)處理工作總結(jié)報告如下
一、數(shù)據(jù)處理情況
1、清查數(shù)據(jù)錄入情況
普查辦數(shù)據(jù)處理工作完成如下:一是完成清查數(shù)據(jù)錄入,水利工程128處、經(jīng)濟社會用水調(diào)查對象39個、河湖治理清查對象22個、行業(yè)能力單位41個、灌區(qū)13個;二是完成鄉(xiāng)鎮(zhèn)典型居民生活用水戶調(diào)查對象100戶、地下水取水井清查對象XXX眼、規(guī)模以上地下水水源地XX處;
2、普查靜態(tài)數(shù)據(jù)采集、錄入情況
通過清查登記、審核對比、查缺補漏、數(shù)據(jù)處理、普查靜態(tài)數(shù)據(jù)獲取等工作流程,獲取普查靜態(tài)數(shù)據(jù)表XXX張,錄入普查靜態(tài)數(shù)據(jù)表XXXX張、靜態(tài)指標XXXX個。按照全國水利普查空間數(shù)據(jù)采集與處理相關技術規(guī)定要求,空間數(shù)據(jù)采集是采用“內(nèi)業(yè)為主、外業(yè)為輔”的方法,但為了提高空間數(shù)據(jù)的精度,最大限度地減小空間標繪的誤差,采集小組對所有需要標繪對象的空間數(shù)據(jù)都進行了外業(yè)采集,并按要求規(guī)范填寫《水利普查空間數(shù)據(jù)外業(yè)采集成果一覽表》,對采集的坐標位置進行整理、匯總,采集數(shù)據(jù)完成GPS空間外業(yè)數(shù)據(jù)采集點XXX處,萬畝灌區(qū)主干渠系完成普查靜態(tài)數(shù)據(jù)采集100%、數(shù)據(jù)錄入100%。
二、空間數(shù)據(jù)標繪情況
1、內(nèi)業(yè)標繪情況 對可以在電子工作底圖上直接辨識的清查對象,參照《第一次全國水利普查空間數(shù)據(jù)采集與處理技術規(guī)定》,通過選取工作底圖中的相應分類要素,完成該對象在電子工作底圖上的位置、形態(tài)特征,若分類要素未表達該對象或表達的位置、形態(tài)與遙感影像存在較大差異,則結(jié)合已掌握的實際信息,以遙感影像為參考,做必要的調(diào)整。完成空間數(shù)據(jù)采集100%、標繪100%。
2、對象關系建立
XXX水利普查數(shù)據(jù)處理組,依據(jù)清查登記成果,結(jié)合基礎資料等相關信息,利用配發(fā)的電子工作底圖,借助水利普查空間數(shù)據(jù)采集處理軟件,完成對象空間關系的建立。
三、涉密數(shù)據(jù)管理
XXX水利普查數(shù)據(jù)組為切實規(guī)范第一次全國水利普查涉密數(shù)據(jù)的使用管理,保障涉密數(shù)據(jù)使用安全防止國家秘密、商業(yè)秘密和個人隱私等泄露,根據(jù)《中華人民共和國保守國家秘密法》、《中華人民共和國保守國家秘密法實施辦法》、《中華人民共和國統(tǒng)計法》和《水利部保密工作管理規(guī)定》等有關法規(guī),結(jié)合我區(qū)水利普查工作實際制定《普查涉密數(shù)據(jù)日常安全管理細則》、《XXX普查涉密信息保密管理制度》并嚴格執(zhí)行。對普查相關人員進出保密機房實行在冊登記。
四、下一步工作打算
普查辦數(shù)據(jù)組下一步打算,一是要嚴格按照普查時間節(jié)點要求,做好普查表數(shù)據(jù)審核、平衡處理、內(nèi)業(yè)標繪工作。二是對今年工作經(jīng)驗教訓進行系統(tǒng)總結(jié),重點是完善各專項普查對象的空間關系建立。三是對空間數(shù)據(jù),做到科學分析、認真標繪。今后我們將在市普查辦數(shù)據(jù)專項組的領導下,按照水利普查方案,嚴把時間節(jié)點,順利完成XXX第一次全國水利普查工作空間數(shù)據(jù)處理工作。
第五篇:mtt數(shù)據(jù)處理
實驗一急性毒性試驗(改進寇氏法)
一、目的與要求
1、學習急性毒性試驗的方法,掌握LD50的測定方法。
2、觀察馬錢子的毒性反應。
二、實驗原理
急性毒性試驗是指受試動物在一次大劑量給藥后所產(chǎn)生的毒性反應和死亡情況。藥物毒性的大小,常用動物的致死量來表示,因為動物生與死的生理指標較其他指標明顯、客觀、容易掌握。致死量的測定也較準確。在測定致死量的同時,還應仔細觀察動物是否出現(xiàn)聳毛、倦臥、耳殼蒼白或充血、突眼、步履蹣跚、肌肉癱瘓、呼吸困難、昏迷、驚厥、大小便失禁等不良反應。
致死量的測定常以半數(shù)致死量為標準。半數(shù)致死量是指能夠引起試驗動物一半死亡的劑量,媽藥物致死量對數(shù)值,用符號LD50表示。由于LD50的測定較簡便、可靠,而且穩(wěn)定,現(xiàn)已成為標志動物急性中毒程度的重要常數(shù)。LD50測定的方法有多種,如Bliss法、改進寇氏法、簡化機率單位法、累積插值法、機率單位-加權(quán)直線加歸法等等。以上方法雖各有特點,但都有共同的要求:
(1)動物:均選用體重17~22克健康小鼠(同次試驗體重相差不得超過4克),或選用體重120~150克(同次試驗體重相差不得超過10克)健康大鼠作實驗動物。性別相同或雌雄各半。
(2)給藥途徑:要求采用兩種給藥途徑,其中必須有一種與臨床所采用的相同。溶于水的藥物沿須測定靜脈注射的LD50。值得提出的是,臨床上雖然不用腹腔注射,但動物實驗因腹腔注射給藥方便,吸收迅速,頗為常用。若供試藥物在腹腔內(nèi)不引起強烈刺激或局部變化(如纖維性病變等),那么嚙齒類動物腹腔注射的LD50,參數(shù)很接近于靜脈給藥的LD50??诜苿o法通過注射給藥途徑時,可只用胃腸給藥。
(3)試驗周期和觀察指標:給藥后至少觀察7天。觀察期間應逐日記錄動物的毒性反應情況和死亡動物的分布。
(4)正式試驗前,均須先用少量動物進行預試試驗,大致測出受試藥物引起0%和100%死亡率的致死量范圍,然后安排正式試驗。正式試驗組數(shù)不得少于三個劑量組,一般選用4~5個劑量組,每組動物數(shù)為10~20只。
(5)報告LD50時需注明實驗動物的種屬及品系、性別、體重范圍、給藥途徑及每個劑量組動物數(shù)等,還需注明受試藥物的配制方法、給藥劑量、各組劑量間的比值(一般以0.65~0.85為宜)、給藥容積、觀察時間及計算方法。還須標出LD50的95%可信限。
三、實驗材料和試劑
動物:小鼠 藥品:馬錢子水煎液
器材:注射器、灌胃針頭、鼠籠
四、操作方法
1、預試實驗:預試實驗目的是為了找出引起動物0%(Dn)和100%(Dm)死亡的劑量,以便安排正式實驗。預試實驗一般采用少量動物(6~9只小鼠)進行,將動物隨機分為3組,組間劑量比值一般以1:0.5或1:0.7為宜。灌服或腹腔注射量以0.2ml/10g體重為度。預試實驗應進行到找出Dn和Dm后方可安排正式實驗。
2、正式實驗:在預試實驗測得Dn和Dm的劑量范圍內(nèi)設4~6個劑量組,最多10組。最理想的結(jié)果是使LD50的上下各有2~3組。組數(shù)愈少,準確性愈差。各劑量組的動物要求相等,至少10只動物(分組時應注意分層隨機均勻化的原則)。本實驗要求最大反應率為100%,最小反應率為0%,或至少反應率接近100%或0%。組間劑量比值(1:K),常用1:0.8或1:0.75。如實驗中出現(xiàn)相鄰劑量有重復的100%和0%反應率時,應將靠邊的組棄去不計,使大劑量組只有一個100%的反應率,小劑量組也只有一個0%的反應率。
分組完畢和各組劑量算出后,分組灌服或注射不同劑量的受試藥物。為能得到理想的結(jié)果,實驗最好從中間劑量開始,以便從最初幾個劑量組動物接受藥物后的反應來判斷兩端劑量是否合適,便于調(diào)整劑量和組數(shù)。為了提高實驗的精確度和節(jié)省藥物,受試藥物可按“低比稀釋法”配置。即使每只動物的用藥體積相等(0.2ml/10g),而溶質(zhì)不等。給藥后逐日觀察并記錄中毒反應、死亡率和死亡情況。
五、實驗結(jié)果記錄與計算
馬錢子水煎液對小鼠死亡率的影響
組別
劑量g/kg(d)2 3 4
Logd(X)
死亡數(shù) 死亡率(P)
P2
P-P2
公式1:(logLD50)X50=Xm-i(ΣP-0.5)
則LD50=log-1 X50
公式2:Sx50=i*(p?p2)/(n?1)公式3:LD50的95%可信限=lg-1(X50±1.96S X50)LD50的平均可信限= LD50±(LD50高限-LD50低限)/2 Xm:最大劑量組劑量的對數(shù)值
i:相鄰兩組劑量(d)對數(shù)值之差,或相鄰兩組高劑量與低劑量之比的對數(shù)。P:各組動物的死亡率,用小數(shù)表示。ΣP:為各組動物死亡率的總和。n:每組動物數(shù)。Sx50:logLD50的標準誤。