第一篇:數(shù)據(jù)處理與統(tǒng)計 教案(模版)
數(shù)據(jù)處理與統(tǒng)計
一.教學目標: 1.知識與技能:
理解公式、函數(shù)、地址、數(shù)據(jù)引用的含義; 熟練掌握公式和函數(shù)的應用; 2.過程與方法:
培養(yǎng)學生動手操作和觀察交流的能力;
培養(yǎng)自我解決問題、自我發(fā)展、合作學習的能力。3.情感態(tài)度價值觀:
培養(yǎng)學生在研究中學習、在學習中探索的意識。二.教學重點與難點: 1.教學重點:
運用公式、函數(shù)進行數(shù)據(jù)運算; 2.教學難點:
運用公式、函數(shù)進行數(shù)據(jù)運算; 掌握相對引用、絕對引用的使用; 三.教學過程: 1.導入
展示學習目標,學生自學P62-P66的內(nèi)容,完成操作題的第1小題。5分鐘以后,學生回答,請學生總結(jié)單元格地址是怎么構(gòu)成的。單元格地址由行標和列標組成,列標在前,行標在后。2.請同學們做操作題第2題。發(fā)現(xiàn):“F8”單元格中顯示的是輸入的內(nèi)容,“F9”單元格中顯示的是計算后的結(jié)果。為什么會顯示的結(jié)果不同呢?比較“F8”、“F9”單元格中輸入的內(nèi)容,發(fā)現(xiàn)“F9”中輸入的內(nèi)容比“F8”中輸入的內(nèi)容多了一個“=”,“F8”中只是直接輸入了一個代數(shù)式,而“F9”是利用公式計算代數(shù)式的值。公式的定義:以=開始的代數(shù)式 利用公式計算的步驟:1.“=”,2.輸入代數(shù)式,3.回車鍵 3.請同學們利用公式,完成操作題的第3題和第4題。
發(fā)現(xiàn):用單元格中的內(nèi)容和單元格地址分別進行計算,結(jié)果相同。可見,計算式中直接用到了單元格地址,這就是單元格地址的引用。既然結(jié)果相同,那我們在平時的應用當中是用單元格中的內(nèi)容還是用引用單元格地址的方法呢? 4.用引用單元格地址的方法,計算剩下的居民所用的總用電量。
5.我們發(fā)現(xiàn)這樣的計算方法還是比較麻煩的,有沒有更方便一點的方法呢?Excel為我們提供了“自動填充”功能。老師演示。單擊單元格“D8”,指針指向這個單元格右下角,當出現(xiàn)一個實心的“+”,這個就是填充柄,向下拖動填充柄,其他單元格顯示對應的結(jié)果。當我們將指針指向剛剛被填充的單元格,發(fā)現(xiàn)單元格中的公式它們的運算關(guān)系沒變,只有單元格地址作了自動調(diào)整。這就是單元格地址的“相對引用”。利用“自動填充”功能重新計算居民的總用電量;
6.請同學們完成操作題第5題,利用所學知識計算所有用戶的電費。
發(fā)現(xiàn)只有D8單元格中的結(jié)果是正確的,而自動填充的數(shù)據(jù),結(jié)果是錯誤的,這是什么原因呢?
在整個計算過程中,C4和C5必須保持不變的,在C4和C5的行號、列號前添加符號“$”,即$C$
4、$C$5,用這種方式引用地址稱為“絕對引用”。
7.在Excel中,還有很多預先定義好的公式叫函數(shù),我們可以直接引用函數(shù)來進行計算。
常用函數(shù):求和
SUM平均值
AVERAGE 最大值
MAX 最小值
MIN 以求峰時用電的平均用電量為例作講解。請同學們完成操作題的第6題。8.結(jié)束語
學生總結(jié):本節(jié)課所學內(nèi)容。
第二篇:數(shù)據(jù)處理與統(tǒng)計教學設(shè)計
數(shù)據(jù)處理與統(tǒng)計教案
課題:數(shù)據(jù)處理與統(tǒng)計
教材:江蘇科學技術(shù)出版社出版《初中信息技術(shù)》上冊
贛榆縣羅陽中學
宋海波
一、教學目標:
知識和技能:熟悉公式的基本組成和公式的復制方法;熟練運用公式進行計算;掌握公式復制的操作;
過程和方法:以任務驅(qū)動為主,結(jié)合小組探究,通過觀察、比較、發(fā)現(xiàn)、交流、歸納等過程,讓學生在解決問題的過程中體會公式運算和公式復制的操作。
情感、態(tài)度和價值觀:培養(yǎng)學生合作探究精神,體會信息技術(shù)在現(xiàn)實生活中的應用,培養(yǎng)學生利用信息技術(shù)更好的為學習和生活服務的意識。二、教學重點、難點:
重點:excel表格中公式使用的注意點操作 難點:將數(shù)量關(guān)系轉(zhuǎn)化為excel中公式并使用 三、教學方法與教學手段
教學方法:在課堂內(nèi)容引入使用情境創(chuàng)設(shè),激發(fā)學生興趣;在知識點的導入過程中進行小組探究式學習,引導性學習的教學方法;在鞏固練習環(huán)節(jié)運用學生自主練習的方法中進行引導拓展,最后,通過師生對話的方式對本節(jié)課內(nèi)容進行歸納總結(jié)。四、教學媒體
多媒體計算機教室、教學軟件、教學課件 五、教學過程:
(一)創(chuàng)設(shè)情境 激趣導學 課前設(shè)置小比賽,比比誰最快!
利用多媒體教學軟件控制學生機,請同學們安靜,拿出紙和筆,下面我們一起來參加一個比賽,考一考大家的計算速度,看看誰最快!師:展示本班全體學生最近階段性測試成績表。
這是我們班級這次階段性測試的成績表,請同學們在三分鐘內(nèi)計算出所有學生成績的總分,并填入表內(nèi),誰最先計算出的就算贏。
(同學們一看到是自己班級的成績表,已經(jīng)炸開了鍋。又聽說要在三分鐘內(nèi)算出來,聲音更大)
師:請同學們抓緊時間,開始計算了。(安靜,都在紙上認真的算,有幾個學生更是調(diào)出了
windows xp上的計算器計算)。好,三分鐘到了,計算完的同學請舉手。生:(四處張望,看見沒人完成)
有同學開始抱怨:老師,這么短的時間內(nèi),誰能把這么多成績計算出來啊!
(一片附和聲)
師:(達到預期效果)同學們,老師有一個方法,可以快速計算出成績,時間嘛(作思考狀),大概不到一分鐘吧!同學們,想不想掌握這個方法???!生:一分鐘?不可能吧???(學生積極性被調(diào)動)
設(shè)計意圖:本環(huán)節(jié)通過設(shè)計小小的比賽,主要目的是激發(fā)學生的求知欲望,引入本課的主題公式的計算和復制,讓學生迅速進入新課狀態(tài)。
(二)任務驅(qū)動 層層深入
1、探索與發(fā)現(xiàn)
師:請同學們雙擊桌面上的“學生成績表”工作表,觀察“總分”H2、H3、H4??單元格,思考下面兩個問題:
學生成績表部分截圖
① 單擊H2、H3、H4單元格,編輯欄顯示什么? ② 觀察編輯欄公式,你發(fā)現(xiàn)了什么?
同學們學習后分小組討論,1分鐘后請同學回答,看看哪個小組討論的答案最準確。問題1:目的在于引導學生發(fā)現(xiàn)公式,找出公式輸入的位置。問題2:目的在于引導發(fā)現(xiàn)公式的使用規(guī)律,總結(jié)公式的組成。
設(shè)計意圖:把公式與學生的生活密切聯(lián)系起來,使抽象的公式具體化。讓學生觀察、思考、分析、歸納,發(fā)現(xiàn)公式的基本操作。
2、利用規(guī)律 “依葫畫瓢”
師:請在K2單元格中利用公式計算出總分,并和H2單元格中計算的總分進行檢驗,組長協(xié)助操作有困難的同學。教師巡視,總結(jié)學生出現(xiàn)的問題,并個別指導。學生很快計算出總分,一個個都比較開心。
師:(順勢引導)在公式操作的過程中,你遇到哪些問題,如何解決的?
學生回答積極。教師結(jié)合在巡視過程中出現(xiàn)的問題,抽部分學生進行操作總結(jié),進一步夯實
知識基礎(chǔ)。
設(shè)計意圖:讓學生利用發(fā)現(xiàn)的規(guī)律,解決現(xiàn)實生活中較感興趣的話題,體驗使用公式計算出總分的樂趣。
3、熟練公式 順利轉(zhuǎn)換
師:總分我們已經(jīng)計算出來了,它的公式是什么? 生:=E1+G1+F1 師:如果要計算出平均分,公式又是什么呢?請同學們在表格中計算一下。學生動手操作。??
師:大部分同學都計算出了第一位同學的總分和平均分,我們?nèi)绾卧谧疃痰臅r間內(nèi)計算出其他同學的成績呢?請大家看導學案上的關(guān)于“公式的復制”操作指導,利用最快的速度(1分鐘之內(nèi))完成全班同學成績的計算。
學生操作,組長協(xié)助,教師巡視。請學生上臺演示,在學生演示過程中講解操作過程中的注意點。
師:請同學們思考一下公式復制的好處有哪些? 學生爭先恐后地發(fā)言。
設(shè)計意圖:通過重新構(gòu)建新公式,進一步加強學生對公式的認識、操作,并總結(jié)公式復制的好處,培養(yǎng)學生使用計算機協(xié)助生活、學習的意識。
(三)練習鞏固 體驗收獲
請同學們打開“校園十佳歌手”工作簿,完成練習。先做完的同學待老師檢查無誤后,可以做老師的小助手,指導有操作困難的同學完成練習。
設(shè)計意圖:通過練習讓學生體會公式的價值,體驗成功的收獲,在愉快的氣氛中掌握學習知識。
(四)歸納總結(jié) 收獲喜悅
隨機抽出幾名學生,采用問答形式,對本課的教學內(nèi)容進行歸納總結(jié)。師:請問這位同學,利用公式進行運算的操作你掌握了嗎? 生1:掌握了。
師:很好,如果我現(xiàn)在仍然不會公式運算的操作,你能告訴我操作步驟嗎? 生1:先用“=”號,然后使用單元格地址進行公式計算。師:如果我對符號的轉(zhuǎn)換不了解,你能告訴我嗎? 生2:乘號用“*”,除號用“/”。
師:請談談你對公式復制操作的優(yōu)點是什么? 生3:提高運算速度。
師:總結(jié)操作過程中學生出現(xiàn)的問題并講解注意點。
同學們,我們在日常生活中會遇到很多問題,我們要正確利用好計算機這個工具。設(shè)計意圖:通過問答的方式對知識進行歸納與總結(jié),讓學生把學習到的東西與大家共享,收獲屬于自己的喜悅。
教學設(shè)計說明:
本課選自江蘇科學技術(shù)出版社《初中信息技術(shù)》上冊第四章數(shù)據(jù)統(tǒng)計與分析第三節(jié)數(shù)據(jù)處理與統(tǒng)計。計劃用2課時,本節(jié)課只對公式的運用及公式的復制做講解,以學生成績表引入,讓學生通過解決生活和學習中的實際問題來了解對公式及公式復制的基本操作。
本節(jié)課教學內(nèi)容從實際問題導入,激發(fā)學生學習興趣,自然開啟課程學習,所有數(shù)據(jù)力求來源于學生生活。貫穿從“以實例促技能”向“技術(shù)驅(qū)動生活”轉(zhuǎn)變的教學思路,挖掘生活實例,服務課堂。采用自然過渡的方法引導學生在感興趣的問題中掌握知識點,完成教學目標。在教學設(shè)計過程中,以“總分”——“平均分”——“所有學生的總分,平均分”這條主線組織教學。穿插以“公式引入”——“公式轉(zhuǎn)換”——“公式的復制”這條暗線。以主線吸引學生興趣,輔以滲透暗線知識點的教學,引起學生共鳴,學生的參與熱情高漲,從而使課堂獲得良好的效果。
第三篇:數(shù)據(jù)處理教案
數(shù)據(jù)處理教案
引言:
根據(jù)高專中專部安排,由我?guī)?0級綜合班的數(shù)據(jù)處理課和Office辦公自動化課,根據(jù)教學的要求,特寫此教案,該教案分為5部分,第一部分介紹數(shù)據(jù)處理定義,結(jié)構(gòu),常用軟件;第二部分計算機基礎(chǔ);第三部分介紹Excel數(shù)據(jù)處理;第四部分介紹常用數(shù)據(jù)庫(access、sql語句),第四部分介紹簡單的關(guān)系數(shù)據(jù)庫、數(shù)據(jù)建模等;第五部分介紹簡單的數(shù)據(jù)處理、報表制作等。
第一部分數(shù)據(jù)處理定義,結(jié)構(gòu) 第一節(jié) 數(shù)據(jù)處理定義
教學目的:通過對數(shù)據(jù)處理的定義使學生明白,在當今的社會,數(shù)據(jù)是如何的重要,數(shù)據(jù)處理在現(xiàn)代社會中起到什么樣的作用。
教學內(nèi)容:重點是數(shù)據(jù)處理的定義,難點為如何看待數(shù)據(jù)和信息的關(guān)系,模糊數(shù)據(jù)和數(shù)字數(shù)據(jù)的區(qū)別 教學方法:口述與上機
教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)處理常用軟件。
1.1.1數(shù)據(jù)處理定義
數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程
1.1.2數(shù)據(jù)處理軟件
數(shù)據(jù)處理離不開軟件的支持,數(shù)據(jù)處理軟件包括:用以書寫處理程序的各種程序設(shè)計語言及其編譯程序,管理數(shù)據(jù)的文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng),以及各種數(shù)據(jù)處理方法的應用軟件包。為了保證數(shù)據(jù)安全可靠,還有一整套數(shù)據(jù)安全保密的技術(shù)。1.1.3 數(shù)據(jù)處理方式
根據(jù)處理設(shè)備的結(jié)構(gòu)方式、工作方式,以及數(shù)據(jù)的時間空間分布方式的不同,數(shù)據(jù)處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應當根據(jù)應用問題的實際環(huán)境選擇合適的處理方式。數(shù)據(jù)處理主要有四種分類方式①根據(jù)處理設(shè)備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機處理方式和脫機處理方式。②根據(jù)數(shù)據(jù)處理時間的分配方式區(qū)分,有批處理方式、分時處理方式和實時處理方式。③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據(jù)計算機中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。
1.1.4 數(shù)據(jù)處理加工
數(shù)據(jù)處理對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進行分析和加工的技術(shù)過程。包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理。比數(shù)據(jù)分析含義廣。隨著計算機的日益普及,在計算機應用領(lǐng)域中,數(shù)值計算所占比重很小,通過計算機數(shù)據(jù)處理進行信息管理已成為主要的應用。如側(cè)繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術(shù)情報管理、辦公室自動化等。在地理數(shù)據(jù)方面既有大量自然環(huán)境數(shù)據(jù)(土地、水、氣候、生物等各類資源數(shù)據(jù)),也有大量社會經(jīng)濟數(shù)據(jù)(人口、交通、工農(nóng)業(yè)等),常要求進行綜合性數(shù)據(jù)處理。故需建立地理數(shù)據(jù)庫,系統(tǒng)地整理和存儲地理數(shù)據(jù)減少冗余,發(fā)展數(shù)據(jù)處理軟件,充分利用數(shù)據(jù)庫技術(shù)進行數(shù)據(jù)管理和處理。1.1.5 數(shù)據(jù)清洗
有關(guān)商務網(wǎng)站的數(shù)據(jù)處理:由于網(wǎng)站的訪問量非常大,在進行一些專業(yè)的數(shù)據(jù)分析時,往往要有針對性的數(shù)據(jù)清洗,即把無關(guān)的數(shù)據(jù)、不重要的數(shù)據(jù)等處理掉。接著對數(shù)據(jù)進行相關(guān)分分類,進行分類劃分之后,就可以根據(jù)具體的分析需求選擇模式分析的技術(shù),如路徑分析、興趣關(guān)聯(lián)規(guī)則、聚類等。通過模式分析,找到有用的信息,再通過聯(lián)機分析(OLAP)的驗證,結(jié)合客戶登記信息,找出有價值的市場信息,或發(fā)現(xiàn)潛在的市場。
第二節(jié)數(shù)據(jù)處理結(jié)構(gòu)
教學目的:通過對數(shù)據(jù)處理結(jié)構(gòu)的介紹使學生明白數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)挖掘的關(guān)系。
教學內(nèi)容:重點是數(shù)據(jù)倉庫的圖像理解,難點也是數(shù)據(jù)倉庫整體結(jié)構(gòu)的理解。教學方法:口述與上機 教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)倉庫案例。
1.2.1商業(yè)智能在中國的發(fā)展機會(數(shù)據(jù)處理)
商業(yè)智能就像幾年前的ERP(企業(yè)資源管理)一樣,正成為企業(yè)首席技術(shù)官們關(guān)注的焦點,呈現(xiàn)如火如荼的發(fā)展態(tài)勢。眾所周知,在ERP等基礎(chǔ)信息系統(tǒng)部署完之后,企業(yè)能夠?qū)ζ錁I(yè)務數(shù)據(jù)進行更為有效的管理,于是如何利用這些數(shù)據(jù)創(chuàng)造價值成為企業(yè)下一步思考的問題。
商業(yè)智能系統(tǒng)已經(jīng)作為一種含金量極高的管理工具,融合在部分大型企業(yè)管理文化的血脈之中了。商業(yè)智能在幫助企業(yè)管理層發(fā)現(xiàn)市場機會、創(chuàng)造競爭新優(yōu)勢的作用顯而易見,因此成為企業(yè)信息化的新寵也是必然的。
商業(yè)智能軟件市場穩(wěn)步增長
從全球范圍來看,商業(yè)智能領(lǐng)域并購不斷,商業(yè)智能市場已經(jīng)超過ERP和CRM(客戶關(guān)系管理)成為最具增長潛力的領(lǐng)域。從中國市場來看,商業(yè)智能已經(jīng) 被電信、金融、零售、保險、制造等行業(yè)越來越廣泛地應用,操作型商業(yè)智能逐步在大企業(yè)普及,商業(yè)智能不局限于高層管理者的決策之用,也日益成為普通員工日 常操作的工具。
不過,盡管這個市場潛力巨大,但仍有不少的現(xiàn)實情況導致這一市場的發(fā)育沒有大家預期中的那么好。首先一點,國內(nèi)的成熟、專業(yè)的商業(yè)智能實施顧問較少,不但上游廠商的相關(guān)人才少,下游負責實施的渠道合作伙伴更是缺乏相關(guān)人才,很多時候用戶要啟用商業(yè)智能工具,但是不太明確自己的需求,負責實施的人很多時 候也是一知半解,不能給用戶很好的解決方案;其次,目前多數(shù)商業(yè)智能廠商,尤其是國外廠商都是通過分公司或辦事處來銷售的,而未來國內(nèi)制造業(yè)企業(yè)多數(shù)需要 本地化服務,這種模式必將改變。同時,商業(yè)智能系統(tǒng)的銷售、服務要求代理商要有很強的能力,如何選擇、培養(yǎng)、發(fā)展這些代理商將是商業(yè)智能大發(fā)展面臨的一個很重要問題。
SaaS將成為重要交付模式
同時,商業(yè)智能系統(tǒng)的核心不是平臺,而是模型。目前,由于國內(nèi)應用商業(yè)智能的企業(yè)并不多,應用深入的更少,應用基礎(chǔ)也比較薄弱,即使拿來國外先進的商 業(yè)模型也不一定能運轉(zhuǎn)起來,所以盡快建立各種適合國內(nèi)企業(yè)特色的模型是各服務商未來要加大投入著力解決的。當然,對企業(yè)而言,商業(yè)智能的有效應用,離不開 數(shù)據(jù)的支持。如果沒有準確的數(shù)據(jù),那么所要分析產(chǎn)生的報表、決策都與事實存在差距,將會導致整個決策的錯誤,因此,必須要求前期的數(shù)據(jù)準確。
最后,隨著云計算的大規(guī)模普及,下一代商業(yè)智能的精細分析系統(tǒng)很可能會建設(shè)在動態(tài)的基礎(chǔ)架構(gòu)上,而虛擬化、云計算等技術(shù)的發(fā)展也會帶動商業(yè)智能系統(tǒng)的建設(shè)和應用,這就是“云智能”。我國企業(yè)需要抓住“云智能”機遇,加快發(fā)展、迎頭趕上,才能從容應對下一階段的全球化競爭。
1.2.2數(shù)據(jù)倉庫技術(shù)的發(fā)展及體系結(jié)構(gòu) 數(shù)據(jù)倉庫技術(shù)的發(fā)展及概念
傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務處理工作的。然而,不同類型的數(shù)據(jù)有著不同的處理特點,以單一的數(shù)據(jù)組織方式進行組織的數(shù)據(jù)庫并不能反映這種差異,滿足不了現(xiàn)代商業(yè)企業(yè)數(shù)據(jù)處理多樣化的要求??偨Y(jié)起來,當前的商、世企業(yè)數(shù)據(jù)處理可以大致地劃分為2大類:操作型處理和分析型處理。操作型處理也叫事務型處理,主要是為企業(yè)的特定應用服務的(這是目前最為常用的),分析型處理則用于商業(yè)企業(yè)管理人員的決策分析,這種需求既要求聯(lián)機服務,又涉及大量用于決策的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足,具體體現(xiàn)在:
1)歷史數(shù)據(jù)量大;
2)輔助決策信息涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成;
3)由于訪問數(shù)據(jù)的能力不足,它對大量數(shù)據(jù)的訪問能力明顯下降。
數(shù)據(jù)倉庫技術(shù)的出現(xiàn)為解決上述問題提供了新的思路。數(shù)據(jù)倉庫的創(chuàng)始人Inmon指出:“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程”。它從大量的事務型數(shù)據(jù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格式,即為決策目標把數(shù)據(jù)聚合在一種特殊的格式中,作為決策分析的數(shù)據(jù)基礎(chǔ),從而在理論上解決了從不同系統(tǒng)的數(shù)據(jù)庫中提取數(shù)據(jù)的難題。同時,利用聯(lián)機分析處理(OLAP)技術(shù)可以對數(shù)據(jù)倉庫提供的數(shù)據(jù)進行深入加工。
企業(yè)數(shù)據(jù)倉庫的體系結(jié)構(gòu)
一個典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng)通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器以及前端工具與應用4個部分。
1)數(shù)據(jù)源。
數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于企業(yè)操作型數(shù)據(jù)庫中(通常存放在RD-BMS中)的各種業(yè)務數(shù)據(jù),外部信息包括各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及各類文檔等。
2)數(shù)據(jù)的存儲與管理。
數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。在現(xiàn)有各業(yè)務系統(tǒng)的基礎(chǔ)上,對數(shù)據(jù)進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),同時組織存儲數(shù)據(jù)倉庫元數(shù)據(jù)(具體包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務規(guī)則等信息)。按照數(shù)據(jù)的覆蓋范圍,數(shù)據(jù)倉庫存儲可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為“數(shù)據(jù)集市”,Data Mart)。數(shù)據(jù)倉庫的管理包括數(shù)據(jù)的安全、歸檔、備份、維護、恢復等工作。這些功能與目前的DBMS基本一致。
3)OLAP服務器。
對分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的分析,發(fā)現(xiàn)數(shù)據(jù)趨勢。
4)前端工具與應用。
前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應用。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具既針對數(shù)據(jù)倉庫,同時也針對OLAP服務器。
1.2.3商業(yè)智能(BI)落地需要的三大工具
商業(yè)智能(后面簡稱BI)的各類角色用戶必須借助和使用工具實現(xiàn)其需求。BI角色分為業(yè)務、業(yè)務融合技術(shù)、技術(shù)這三類,對于其相應的應用需求(含演繹型和歸納型)和管控開發(fā)需求,需要借演繹型需求支撐工具和歸納型需求支撐工具,及管控開發(fā)型工具來予以實現(xiàn)。本篇先講述演繹型需求支撐的7種工具,其可分為描述統(tǒng)計工具、經(jīng)營技術(shù)與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具;
筆者認為BI以認識論和組織理論為基本原理,采取相適宜的“工具”,旨在幫助 “相關(guān)角色”對職責范圍內(nèi)的“有關(guān)內(nèi)容”做出最佳決定的整體解決方案。它由“三維模式”和“三層漏斗”組成,是輔助整個企業(yè)集理念,組織,流程,技術(shù)為一體的整體決策支持方案三維模式由角色維、內(nèi)容維和工具維構(gòu)成,體現(xiàn)了BI的主體、客體和工具等一般性原理。根據(jù)BI的定義,只有清晰劃分相關(guān)角色并據(jù)以確定需求,并借助工具才能實現(xiàn)BI輔助主體對職責范圍的有關(guān)事項做出最佳決定的宗旨。
BI的業(yè)務類角色、技術(shù)類角色以及業(yè)務融合技術(shù)類角色對應存在著業(yè)務應用需求(指業(yè)務類的演繹型需求和業(yè)務融合技術(shù)類的歸納型需求)和技術(shù)應用需求,即管控開發(fā)型需求。這種需求能否得以有效實現(xiàn)和提升,必須借助工具。針對三大類角色的兩種需求,BI的工具分為應用型支撐型工具和管控開發(fā)支持型工具。鑒于文章的范圍,硬件支撐工具的內(nèi)容請參見相關(guān)書籍。
應用支撐工具可以分為描述統(tǒng)計工具、經(jīng)營技術(shù)與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具。一般來說,這些工具以軟件包的形式形成產(chǎn)品。鑒于BI對于業(yè)務應用的重要作用及業(yè)務應用成功對BI的重要意義,本文著重分析BI的應用型支撐工具,并對有關(guān)產(chǎn)品作簡單介紹。
一、實現(xiàn)演繹型需求的7種工具
BI的演繹型內(nèi)容可以分為三個層次:報表查詢、綜合分析、決策選擇討。如下圖所示,BI的演繹型需求通過描述性統(tǒng)計工具、報表與展示工具、經(jīng)濟預測方法與模型、經(jīng)營技術(shù)與工具、OLAP分析及專家系統(tǒng)工具、決策方法與模型來實現(xiàn)。
上圖中,描述性統(tǒng)計工具幫助用戶在報表查詢層次實現(xiàn)對事實的充分了解;綜合分析以邏輯的方式幫助相關(guān)主體尋求原因或?qū)唵螁栴}直接獲得建議,需要運用經(jīng)濟預測方法與模型、經(jīng)營技術(shù)與工具及OLAP分析來得以實現(xiàn)。專家系統(tǒng)和決策方法與模型是實現(xiàn)定量和部分定性決策的有力工具。通過該類工具,用戶在決策選擇時通過評價各個方案的優(yōu)劣來輔助主體選擇最優(yōu),得出結(jié)論。BI 演繹型應用的三層次結(jié)構(gòu)合理、有步驟地解決了前提、邏輯規(guī)則和結(jié)論這一演繹型思維方法的遷移應用。
(一)描述性統(tǒng)計工具
統(tǒng)計的基本意義在于利用統(tǒng)計指標,通過指標值的對比關(guān)系和發(fā)展變化來研究社會經(jīng)濟現(xiàn)象的數(shù)量和數(shù)量關(guān)系,表明其變化發(fā)展的過程、結(jié)果及其規(guī)律。作為統(tǒng)計學兩大基本內(nèi)容之一的描述性統(tǒng)計是整個統(tǒng)計學的基礎(chǔ)和統(tǒng)計研究工作的第一步,它包括數(shù)據(jù)的收集、整理、顯示,對數(shù)據(jù)中有用信息的提取和分析,而對變量的集中趨勢和離中趨勢的分析則是其主要內(nèi)容。描述性統(tǒng)計工具指為實現(xiàn)相關(guān)主體對基本事實了解的需求而需利用基本指標。這些基本統(tǒng)計指標包括總量指標、相對指標、平均指標和變異指標。
總量指標:表明具體社會經(jīng)濟現(xiàn)象總體的規(guī)模、水平或工作總量的數(shù)值,是計算各種派生指標的基礎(chǔ)。如某集團公司年銷量即是總量指標。它可分為總體單位總量、總體標志總量和時期總量(如某個事業(yè)部門的總銷量)、時點總量(如月末庫存)。總量指標可通過直接計算和間接計算求出。
相對指標:表明兩個互有聯(lián)系的社會、經(jīng)濟現(xiàn)象之間數(shù)量對比關(guān)系的統(tǒng)計指標。如競爭企業(yè)之間庫存周轉(zhuǎn)率的對比,或行業(yè)內(nèi)某企業(yè)銷量與行業(yè)總銷量的對比等等;常用的同比和環(huán)比也是相對指標的運用。相對指標反映了社會經(jīng)濟現(xiàn)象的實質(zhì)及其數(shù)量的對比關(guān)系,從現(xiàn)象間數(shù)量對比關(guān)系中清晰地認識事物。其次,可使原來無法直接比較的現(xiàn)象,找到共同的基礎(chǔ)進行科學地對比分析。相對指標又包括:計劃完成程度指標、結(jié)構(gòu)相對指標(高中低檔產(chǎn)品利潤在全部利潤中的各自占比)、比例相對指標(產(chǎn)品A與產(chǎn)品B的對比)、比較相對指標(某企業(yè)銷量增長率與競爭企業(yè)銷量增長率的對比)、強度相對指標(如煙草行業(yè)銷售情況中條/人指標的對比)、動態(tài)相對指標(如歷年的銷售額的比較)。運用時,要正確選擇對比的基數(shù)、確定可比的對比指標、相對指標要與對比基數(shù)結(jié)合使用。
平均指標:反映同質(zhì)總體內(nèi)各單位某一數(shù)量標志的一般水平,可以對比總體的一般水平,如分公司年平均銷量與總公司平均銷量的對比,可以進行數(shù)量上的推算和預測。平均指標有算術(shù)平均數(shù)、調(diào)和平均數(shù)(較少用,主要用于已知標志總量而不知單位總量的情況)、幾何平均數(shù)(一般用于計算平均發(fā)展速度)、眾數(shù)(一組序列中出現(xiàn)次數(shù)最多的數(shù))、中位數(shù)(按大小順序排列的數(shù)據(jù)中處于中間的數(shù))五種。使用平均數(shù)時要與變異指標結(jié)合使用,有時需要用組平均數(shù)補充總體平均數(shù)。
標志變異指標:說明總體各單位某一標志數(shù)值差異程度,通過變異指標可以揭示被平均指標掩蓋了的差異情況,也可作為衡量平均指標代表性的尺度。可分為:全距、平均差、標準差、標志變異系數(shù)。全距是標志值最大值與最小值之差,如2006年某產(chǎn)品在全國各省中最高銷量與最低銷量之差;平均差是各個標志值與總體算術(shù)平均數(shù)的離差的絕對值。標準差為各個標志值與總體算術(shù)平均數(shù)的離差的平方和的正平方根,其值越大表明差異越大,平均值不能很好代表一般水平;標準差與算術(shù)平均數(shù)的比值稱為標志變異系數(shù),用以兩個平均數(shù)指標不相等時的對比。
描述性統(tǒng)計工具在當前BI的行業(yè)應用中非常普遍。值得關(guān)注的是,當前一般BI的報表查詢應用涉及更多是描述性統(tǒng)計的總量指標、平均指標和比較指標,而對于描述離中趨勢的標志變異指標運用得相當不夠。事實上,標志變異指標可以解決B I的應用主體很多實質(zhì)性問題,比如在眾多品牌中找到銷量不穩(wěn)定的品牌,在眾多客戶中找到交易額波動大的客戶,這些信息為BI的應用有關(guān)主體在研發(fā)、生產(chǎn)、采購、銷售、庫存方面起到較為關(guān)鍵的作用。
(二)報表與展示工具
以報表應用類別區(qū)分,BI系統(tǒng)能利用報表與展示工具來生成統(tǒng)計報表和查詢報表。查詢報表較為簡單,根據(jù)用戶的需求可以較容易地定制。由于中國式統(tǒng)計報表眾多的表頭項以及表頭中首格的一重甚至多種斜線的特征,甚至在表頭項中又切分子表頭的復雜情況,致使生成統(tǒng)計報表較為困難。國外的BI產(chǎn)品在生成統(tǒng)計報表方面和國內(nèi)的某些產(chǎn)品相比,如水晶報表,操作過程較繁鎖。對于報表的展示,一是產(chǎn)生表格,二是產(chǎn)生與表格對應的圖形,如曲線圖、柱形圖、三維圖等。一般來說,要求報表與圖形連動。即當報表數(shù)據(jù)發(fā)生變動時,圖形跟著變動。或者相反,圖形的變動要帶來報表數(shù)據(jù)的變動。這是在鉆取時較容易產(chǎn)生的情況。如SAS的Business Intelligence和BO的圖形互動功能都能實現(xiàn)此種需求。
報表與展示工具注重實現(xiàn)報表的靈活性,更強調(diào)圖形展示的美觀、圖形色彩的模板化定,強調(diào)圖形種類的多樣。這是BI工具的基本功能。前兩年大家談到BI時,更容易評判到某個廠家的BI的界面制作的是否美觀等等,這是當時人們對BI應用認識不夠造成的。現(xiàn)在廠家在宣傳BI時,不僅注重更深層次的綜合分析功能和預測、決策功能,更擴大到數(shù)據(jù)集成與整合,數(shù)據(jù)存儲和元數(shù)據(jù)管理等全套BI平臺上。
(三)經(jīng)濟預測方法與模型 經(jīng)濟預測方法與模型是統(tǒng)計學中統(tǒng)計推斷部分的運用,復雜且靈活。它是BI在綜合分析層次上的應用。該方法滿足業(yè)務類用戶展望未來的需求。統(tǒng)計推斷一般包括參數(shù)估計、假設(shè)檢驗以及分類與選擇。經(jīng)濟預測方法是參數(shù)估計的應用推廣,包含了點估計和參數(shù)估計,如某上時間段銷量的預測值,或者預測值所處的區(qū)間。經(jīng)濟預測模型是在預測方法的指導下,根據(jù)行業(yè)的實際經(jīng)過修正后建立的預測模型。
定量的預測方法實戰(zhàn)中可以建立很多模式,此處以時間序列預測為主簡要介紹經(jīng)濟預測方法與模型的運用。
時間序列預測法是動態(tài)分析法的一種運用。動態(tài)分析法是在統(tǒng)計研究中,把經(jīng)濟現(xiàn)象在不同時間上的數(shù)量進行對比,以了解現(xiàn)象變動的方向、速度、趨勢和規(guī)律,并據(jù)此預測未來的方法。動態(tài)趨勢分析與預測是動態(tài)分析法的重要用途。時間序列是動態(tài)分析研究的一個主要方面,其前提是編制時間序列,并形成時間序列預測法。當前時間序列有100種左右的預測方法,但其基本方法一般包括簡單平均、移動平均、指數(shù)平滑、最小二乘等,可以運用到直線趨勢預測和曲線趨勢預測方面。時間序列影響時間序列的值變化的四種因素:趨勢變動、季節(jié)變動、循環(huán)變動、不規(guī)則變動,循環(huán)變動在短期預測中通常不考慮。將這四個因素從時間序列值中分解出來的方法稱為分解分析法。如2月份在某地的某品牌白酒銷量為60箱,通過分解技術(shù),可獲知趨勢變動(平均水平與增長勢頭)的影響值為40,中秋的季節(jié)變動影響值為15,但不規(guī)則變動影響值是5,所以即銷量為60。時間序列預測的基本方法結(jié)合上述四種因素并運用到直線預測和曲線預測中,就形成了近100種的具體預測方法,如加權(quán)平均,加權(quán)移動平均、溫特斯法等。溫特斯法是以指數(shù)平滑法為基本模型,結(jié)合季節(jié)因素并運用到直線趨勢中而形成的季節(jié)直線趨勢和季節(jié)變動指數(shù)平滑模型。下圖分別是直線趨勢和曲線趨勢預測的結(jié)果。
1.2.4數(shù)據(jù)倉庫架構(gòu)的建立
每一個數(shù)據(jù)倉庫有一個架構(gòu)。這架構(gòu)要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數(shù)據(jù)倉庫開發(fā)時并沒有一個明確的架構(gòu),這極大的限制了它的靈活性。在沒有架構(gòu)的情況下,主題區(qū)域就無法契合在一起,它們之間的連接變得無目的,并且使整個數(shù)據(jù)倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數(shù)據(jù)倉庫的架構(gòu)已成為選擇工具時的框架。
讓我們把開發(fā)一個數(shù)據(jù)倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術(shù)規(guī)范、和在多個層次細節(jié)上顯示這個房子將如何進行建造的標準。當然,針對房子的各種子系統(tǒng)要有不同版本的藍圖,如管道工程、電氣、暖通空調(diào)系統(tǒng)(HVAC)、通信、和空間。針對所有的家用的設(shè)備也有相應的標準,包括插頭、燈具、衛(wèi)生潔具、門的尺寸等。
對于數(shù)據(jù)倉庫,架構(gòu)是對數(shù)據(jù)倉庫的元素和服務的一種描述,用具體細節(jié)說明各種組件如何組合在一起,和隨著時間的推移系統(tǒng)將如何地發(fā)展。就像這房子的比喻,數(shù)據(jù)倉庫架構(gòu)是一套文件、計劃、模型、圖紙和規(guī)范,針對每個關(guān)鍵的組件區(qū)域有獨立的分區(qū),并且足夠詳細到讓專業(yè)技術(shù)人員可以實施它們。
這并是一個需求文件。需求文件說明架構(gòu)需要做些什么。數(shù)據(jù)倉庫架構(gòu)也不是一個項目計劃或任務清單;它說明數(shù)據(jù)倉庫是什么,而不是怎么去做或為什么去做。
一個數(shù)據(jù)倉庫的開發(fā)也并不容易,因為相對于房屋的5000年建筑史,我們發(fā)展數(shù)據(jù)倉庫系統(tǒng)只有20年的時間。因此,我們的標準還不多,工具和技術(shù)正在快速發(fā)展,關(guān)于我們已經(jīng)擁有數(shù)據(jù)倉庫系統(tǒng)的檔案還很少,而且數(shù)據(jù)倉庫的術(shù)語還有很大的出入。
所以,雖然開發(fā)一個架構(gòu)是困難的,但它也是可能的,并且又是至關(guān)重要的。首先,最主要的是,架構(gòu)應該受業(yè)務的驅(qū)動。如果你的要求是每夜進行更新,這一要求就該包含在架構(gòu)內(nèi),而你必須弄清實現(xiàn)你目標的技術(shù)需求。下面是一些業(yè)務需求的例子,和針對每種需求的綜合技術(shù)考量:
●每夜更新――充足的數(shù)據(jù)準備能力
●全球可用性—平行或分布式服務器
●顧客層次分析――大型服務器
●新數(shù)據(jù)源――帶有支持元數(shù)據(jù)的靈活工具
●可靠性――工作的控制功能
關(guān)鍵組件區(qū)域
一個完整的數(shù)據(jù)倉庫架構(gòu)包括數(shù)據(jù)和技術(shù)因素。架構(gòu)可以被分為三個主要區(qū)域。首先,是基于業(yè)務流程的數(shù)據(jù)架構(gòu)。其次是基礎(chǔ)設(shè)施,包括硬件、網(wǎng)絡、操作系統(tǒng)和電腦。最后,是技術(shù)區(qū)域,包含用戶所需的決策制定的技術(shù)以及它們的支持結(jié)構(gòu)。對這些區(qū)域?qū)⒃谙挛姆中」?jié)進行詳述。
●數(shù)據(jù)架構(gòu)
如上所述,在整體數(shù)據(jù)倉庫架構(gòu)中的數(shù)據(jù)架構(gòu)部分是受業(yè)務流程所驅(qū)動的。例如,在一個制造環(huán)境里,數(shù)據(jù)模型可能包括訂單、裝運和帳單。每一個區(qū)域都依據(jù)一套不同的維度。但是在數(shù)據(jù)模型中對相交維度的定義必須相同。所以相同數(shù)據(jù)項應該有同樣的結(jié)構(gòu)和內(nèi)容,并有一個創(chuàng)建和維護的單一流程。
當你完成一個數(shù)據(jù)倉庫架構(gòu)并呈現(xiàn)數(shù)據(jù)給你的用戶,就要做出對工具的選擇,但隨著需求的設(shè)定,選擇就會變窄。例如,產(chǎn)品的功能開始融合,就像多維聯(lián)機分析處理(M OLAP)和關(guān)系型聯(lián)機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯(lián)機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內(nèi)。它的缺點是規(guī)模(整體上和一個維度內(nèi))、設(shè)計的局限性(受立方體結(jié)構(gòu)所限)、需要一個專有的數(shù)據(jù)庫。關(guān)系型聯(lián)機分析處理(ROLAP)是多維聯(lián)機分析處理(MOLAP)的一種替代方案,它克服了多維聯(lián)機分析處理(MOLAP)的這些缺點。通常,混合聯(lián)機處理(HOLAP)更受歡迎,它允許一部分數(shù)據(jù)存儲在維聯(lián)機分析處理(MOLAP)中,另一部分數(shù)據(jù)存儲在關(guān)系型聯(lián)機分析處理(ROLAP)中,折衷了各自的長處。
●基礎(chǔ)設(shè)施架構(gòu)
對硬件及數(shù)據(jù)庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數(shù)據(jù)倉庫項目中,這并不困難,大多數(shù)企業(yè)有足夠的力量來應對他們的需要。
在網(wǎng)絡、檢查數(shù)據(jù)來源、數(shù)據(jù)倉庫準備區(qū)、以及它們之間的任何設(shè)施方面,要確保有足夠的帶寬用于數(shù)據(jù)的移動?!窦夹g(shù)架構(gòu)
技術(shù)架構(gòu)被元數(shù)據(jù)目錄所驅(qū)動。一切都應該受元數(shù)據(jù)所驅(qū)動。服務應該依從表格所需的參數(shù),而不是它們的硬編碼。技術(shù)架構(gòu)的一個重要組件是 ETL(提取、轉(zhuǎn)換和加載)流程,它涵蓋了五個主要區(qū)域:
●提?。瓟?shù)據(jù)來自多種數(shù)據(jù)源并且種類繁多。在這個區(qū)域如果有數(shù)據(jù)的應用時必須考慮對它的壓縮和加密處理。
●轉(zhuǎn)換-數(shù)據(jù)轉(zhuǎn)換包括代理主鍵的管理、整合、去標準化、清洗、轉(zhuǎn)換、合并和審計。
●加載-加載通常是利用加載最優(yōu)化和對整個加載周期的支持對多種目標進行加載。
●安全-管理員訪問和數(shù)據(jù)加密的策略。
●元件控制--它包括元件的定義、元件安排(時間和事件)、監(jiān)控、登錄、異常處理、錯誤處理和通知。
數(shù)據(jù)準備區(qū)需要能夠從多種數(shù)據(jù)源提取數(shù)據(jù),如MVS、ORACLE、VM和其它,所以當你選擇產(chǎn)品時要具體。它必須將數(shù)據(jù)進行壓縮和加密、轉(zhuǎn)化、加載(可能對多個目標)和安全處理。此外,數(shù)據(jù)準備區(qū)的活動要能夠自動化進行。不同的供應商的產(chǎn)品做不同的事情,所以大多數(shù)企業(yè)將需要使用多種產(chǎn)品。
一個監(jiān)控數(shù)據(jù)倉庫使用的系統(tǒng)對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調(diào)整。性能優(yōu)化包括通過“管理者”工具進行的成本估算,而且應包括即時查詢的時間表。有工具能夠提供查詢管理服務??墒褂霉ぞ邅磲槍@些和其它相關(guān)任務,如對前臺的基于服務器的查詢管理和來自于多種數(shù)據(jù)源的數(shù)據(jù)。也有工具可用于報表、連通性和基礎(chǔ)設(shè)施管理。最后,數(shù)據(jù)訪問塊應包括報表的服務(如發(fā)布和訂閱),還應包括報表庫,調(diào)度程序和分布管理員。
關(guān)于元數(shù)據(jù)
在數(shù)據(jù)倉庫流程中數(shù)據(jù)的創(chuàng)建和管理要遵循以下的“步驟”:
●數(shù)據(jù)倉庫模型
●數(shù)據(jù)源的定義
●表的定義
●數(shù)據(jù)源到目標的映射
●映射和轉(zhuǎn)換信息
●物理信息(表格空間,等)
●提取數(shù)據(jù)
●轉(zhuǎn)移數(shù)據(jù)
●加載統(tǒng)計
●業(yè)務描述
●查詢請求
●數(shù)據(jù)本身
●查詢統(tǒng)計
為顯示元數(shù)據(jù)的重要性,上述的步驟列表中只有三步包括了“真正”的數(shù)據(jù)-
7、8和12。其他的一切都是元數(shù)據(jù),而且整個數(shù)據(jù)倉庫流程都依賴于它。元數(shù)據(jù)目錄的專業(yè)技術(shù)要素包括: ●業(yè)務規(guī)則--包括定義、推導、相關(guān)項目、驗證、和層次結(jié)構(gòu)信息(版本、日期等。)
●轉(zhuǎn)移/轉(zhuǎn)換信息--源/目的地的信息,以及DDL(數(shù)據(jù)類型、名稱等等。)
●操作信息--數(shù)據(jù)加載的工作時間表、依存性、通知和信息的可靠性(比如主機的重定向和加載平衡)。
●特定工具的信息--圖形顯示信息和特殊功能的支持。
●安全規(guī)則--認證和授權(quán)。
建立架構(gòu)
在開發(fā)技術(shù)架構(gòu)模型前,要先起草一份架構(gòu)需求的文件。然后將每一項業(yè)務需求計劃包含到它的架構(gòu)中。根據(jù)架構(gòu)的區(qū)域?qū)@些內(nèi)容進行分組(遠程訪問、數(shù)據(jù)準備、數(shù)據(jù)訪問工具等)。了解它如何于其它區(qū)域相適應。采集區(qū)域的定義及其內(nèi)容。最后提煉和形成模型的文件。
我們認識到開發(fā)一個數(shù)據(jù)倉庫架構(gòu)是困難的,因此要有一個周密細致的規(guī)劃。但ZACHMAN框架又超出了大多數(shù)企業(yè)對數(shù)據(jù)倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業(yè)務需求、技術(shù)架構(gòu)、標準和工具。
業(yè)務需求本質(zhì)上驅(qū)動著架構(gòu),所以要對業(yè)務經(jīng)理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業(yè)務問題,以及企業(yè)戰(zhàn)略、發(fā)展方向、挫折、業(yè)務流程、時間、可用性、業(yè)績預期的指標。將它們一一妥善歸檔。
從IT的角度來看,跟現(xiàn)有的數(shù)據(jù)倉庫/決策支持系統(tǒng)(DSS)的支持人員、聯(lián)機分析處理(OLTP)應用組成員、數(shù)據(jù)庫管理員們(DBA);以及網(wǎng)絡、操作系統(tǒng)和桌面支持人員進行討論。也要與架構(gòu)師和專業(yè)規(guī)劃人員進行探討。你應該從這些討論中得知他們從IT的觀點考慮數(shù)據(jù)倉庫的意見。從中了解是否有現(xiàn)存的構(gòu)架文件、IT原則、標準文件、企業(yè)數(shù)據(jù)中心等。
關(guān)于數(shù)據(jù)倉庫并沒有太多現(xiàn)存的標準,但對于許多組件來說是有標準的。下面是一些需要牢記的標準:
●中間設(shè)備--開放數(shù)據(jù)庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數(shù)據(jù)庫(OLE DB)、數(shù)據(jù)通信設(shè)備(DCE)、對象請求代理(ORB)和數(shù)據(jù)庫編程(JDBC)
●數(shù)據(jù)庫連接--ODBC, JDBC, OLE DB, 和其它。
●數(shù)據(jù)管理--ANSI SQL 和文件傳輸協(xié)議(FTP)
●網(wǎng)絡訪問--數(shù)據(jù)通信設(shè)備(DCE)、域名服務器(DNS)、和 輕量目標訪問協(xié)議(LDAP)
無論它們支持的是哪種標準,主流的數(shù)據(jù)倉庫工具都受元數(shù)據(jù)所驅(qū)動。然而,它們通常并不互相共享元數(shù)據(jù)而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構(gòu)師是你選擇適當工具的向?qū)А?/p>
一個數(shù)據(jù)倉庫架構(gòu)需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業(yè)務需求的數(shù)據(jù)倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發(fā)中來(即:它變成了“復雜的技術(shù)策略”)和生成的系統(tǒng)需要變得更復雜(即“復雜的功能”),架構(gòu)的完成會呈指數(shù)倍的發(fā)展。
像數(shù)據(jù)倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了,而且業(yè)務不能等。同時,數(shù)據(jù)倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。
總結(jié):
綜上所述,建立一個數(shù)據(jù)倉庫架構(gòu)的好處如下:
●提供了一個組織結(jié)構(gòu)的框架--架構(gòu)對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優(yōu)先次序的問題劃出了界線。
●提高了靈活性和維護性--讓你能快速加入新的數(shù)據(jù)來源,接口標準允許即插即用,模型和元數(shù)據(jù)允許影響分析和單點的變化。
●更快的開發(fā)和再利用--數(shù)據(jù)倉庫開發(fā)者更能夠快速了解數(shù)據(jù)倉庫流程、數(shù)據(jù)庫內(nèi)容和業(yè)務規(guī)則。
●管理和通信的工具--定義未來方向和項目范圍,確定職務和職責、對供應商傳達需求。
●協(xié)調(diào)多項任務同時進行——多種、相對獨立的工作有機會成功地集合。
我們建議公司對準業(yè)務需求而又要務實一些。時刻跟上數(shù)據(jù)倉庫產(chǎn)業(yè)的進步是很重要的。最后,請記住架構(gòu)總是存在的:或隱性或具體的,或無計劃或計劃內(nèi)的。經(jīng)驗證明,有一個計劃內(nèi)和具體的架構(gòu)會使數(shù)據(jù)倉庫與 商業(yè)智能項目有更多的成功機會。
1.2.5如何規(guī)劃數(shù)據(jù)倉庫中的數(shù)據(jù)清洗
可以將數(shù)據(jù)倉庫的數(shù)據(jù)清洗比做政客們募集資金的過程。幾乎不存在任何一方獨立存在的可能性。數(shù)據(jù)清洗往往是數(shù)據(jù)倉庫項目中時間最密集的,最有爭議的進程。
什么是數(shù)據(jù)清洗?
“數(shù)據(jù)清洗確保無法辨認的數(shù)據(jù)不會進入數(shù)據(jù)倉庫。無法辨認的數(shù)據(jù)將影響到數(shù)據(jù)倉庫中通過聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘和關(guān)鍵績效指標(KPI)所產(chǎn)生的報表。”
在哪里會用到數(shù)據(jù)清洗的一個簡單例子是,數(shù)據(jù)是如何儲存在不同的應用系統(tǒng)中的。例如:2007年3月11號可以儲存為“03/11/07”或“11/03/07”及其他格式。一個數(shù)據(jù)倉庫項目將數(shù)據(jù)輸入數(shù)據(jù)倉庫之前需要將不同格式的日期轉(zhuǎn)變成一個統(tǒng)一的格式標準。
為什么要進行提取,轉(zhuǎn)換和加載(ETL)?
提取、轉(zhuǎn)換和加載(ETL)指的是一種可以幫助確保數(shù)據(jù)在進入數(shù)據(jù)倉庫之前被清洗過(即符合標準)的工具。供應商提供的提取、轉(zhuǎn)換和加載(ETL)工具更加容易被用來管理持續(xù)進行的數(shù)據(jù)清洗。供應商提供的提取、轉(zhuǎn)換和加載(ETL)工具坐鎮(zhèn)在數(shù)據(jù)倉庫之前,監(jiān)測輸入的數(shù)據(jù)。如果它遇到了程序指定轉(zhuǎn)換的數(shù)據(jù),它就會在數(shù)據(jù)載入數(shù)據(jù)倉庫之前對其進行轉(zhuǎn)換。
提取、轉(zhuǎn)換和加載(ETL)工具也可以用來從遠程數(shù)據(jù)庫或者通過自動設(shè)定的事件或通過人工干預提取數(shù)據(jù)。有替代工具可以替換ETL工具,這要取決于你項目的復雜性和預算。數(shù)據(jù)庫管理員們(DBA)可以編寫腳本來完成提取、轉(zhuǎn)換和加載(ETL)的功能,通常能滿足較小的項目需要。微軟的SQL服務器都有一個免費的被稱為數(shù)據(jù)轉(zhuǎn)換服務(DTS)的提取、轉(zhuǎn)換和加載(ETL)工具。數(shù)據(jù)轉(zhuǎn)換服務(DTS)是一款不錯的免費工具,但它確實有其局限性,尤其是在數(shù)據(jù)清洗的持續(xù)管理上。
提取、轉(zhuǎn)換和加載(ETL)的供應商有Informatica、IBM(Cognos)及Pentaho等。在對所有產(chǎn)品進行選擇時,在接觸供應商之前列出你認為對一個提取、轉(zhuǎn)換和加載(ETL)供應商的需求。從咨詢顧問那里獲得服務還是值得的,它能在產(chǎn)品的選擇上幫助你進行需求分析。
數(shù)據(jù)清洗和提取、轉(zhuǎn)換和加載(ETL)對一個數(shù)據(jù)倉庫項目的成功有多重要?
在數(shù)據(jù)倉庫產(chǎn)生的結(jié)果符合利益相關(guān)者的期望值時,提取、轉(zhuǎn)換和加載(ETL)通常被忽視和置于腦后的。結(jié)果是,提取、轉(zhuǎn)換和加載(ETL)冠以數(shù)據(jù)倉庫項目的“沉默的殺手”的稱號。大多數(shù)數(shù)據(jù)倉庫項目由于數(shù)據(jù)清洗方面的意外情況而體驗到延遲和預算超支的情況。
如何規(guī)劃數(shù)據(jù)清洗?
及早開始對將要進入數(shù)據(jù)倉庫的數(shù)據(jù)進行籌劃是很重要的,這一籌劃可能會隨著項目的成熟發(fā)展而改變,但當你需要獲得數(shù)據(jù)擁有者在沒有事先通知的情況下不會改動數(shù)據(jù)的格式的承諾時,這些文件的蹤跡就變得極為有價值。
創(chuàng)建一個需要提取、轉(zhuǎn)換和加載的數(shù)據(jù)列表。為極有可能需要轉(zhuǎn)換格式的數(shù)據(jù)設(shè)立一個獨立的列表。對是否需要購買提取、轉(zhuǎn)換和加載(ETL)工具做出決定,并留出一個全面的預算。從該領(lǐng)域的專家那里聽取建議并評估產(chǎn)品是否適用于你企業(yè)的整體技術(shù)層次。
第四篇:數(shù)據(jù)處理與遞歸教案
數(shù)據(jù)的處理與遞歸循環(huán)方法解決問題
教學課時:1課時 教學目標:
知識與技能:學會用辦公軟件熟練處理數(shù)據(jù),掌握VB中重要的語句和方法,并能解決實際生活中遇到的問題。
過程與方法:通過具體實例,讓學生進一步探究語句和方法的處理問題的過程,提高實踐能力。
情感態(tài)度與價值觀:通過教學激發(fā)學生對信息技術(shù)的熱愛,讓他們知道在實際生活中如何利用已有的知識解決問題,培養(yǎng)他們正確的價值觀和人生觀。
教學重點:通過辦公軟件對已有的數(shù)據(jù)進行加工處理,循環(huán)語句的使用。教學難點:遞歸法的概念及它的運行過程 教學方法:講授法、演示法、任務驅(qū)動法
教學過程:生活中信息無處不在,時刻影響我們的生活,如何用已經(jīng)掌握的信息知識處理生活中的問題,是我們每個高中生應該具備的基本素質(zhì)。
這節(jié)課我們復習之前學過的通過辦公軟件處理數(shù)據(jù),和通過VB程序解決實際問題這兩個方面的知識。
同學們先看看下面的兩個題目,看誰做的即快又正確。1
2第一個是VB中的循環(huán)語句,第二個是EXCEL中關(guān)于數(shù)據(jù)處理的問題。這節(jié)課我們再來學習一遍這幾個知識點。
一、如何處理EXCEL中的數(shù)據(jù)
通過本練習可以查看學生對于本知識點的掌握情況,對重點操作步驟進行一遍講解與演示跨 合并居中:選中單元格A1:F1→設(shè)置單元格格式→對齊→選擇合并單元格、居中 邊框線:選中數(shù)據(jù)→單元格格式→邊框→顏色→線條樣式→內(nèi)、外邊框 公式法計算:選中單元格→輸入等于號→輸入題中給出的公式
更改數(shù)據(jù)類型:單元格格式→數(shù)字→數(shù)值→選中兩位小數(shù) 創(chuàng)建圖表:選中數(shù)據(jù)區(qū)域→插入→圖表→柱形圖→選擇→圖表標題
二、For……Next循環(huán)語句的應該
For 循環(huán)變量 = 初值 To 終值 Step 步長
循環(huán)體
Next 循環(huán)變量
執(zhí)行過程是: ①循環(huán)變量取初值
②循環(huán)變量與終值比較,沒有超過終值轉(zhuǎn)③,否則循環(huán)結(jié)束,接著執(zhí)行循環(huán)語句的后繼語句;
③執(zhí)行一次循環(huán)體;
④循環(huán)變量增加一個步長;
⑤重復步驟②~④。
通過下題加強知識理解
注意:
① For 語句與 Next 語句必須成對出現(xiàn),而且它們中間的“循環(huán)變量”必須是同一個變量,如本例中均為 i ;
② 當循環(huán)變量增量為正時,循環(huán)變量超過終值,是指循環(huán)變量的值大于終值,若為負,則是指循環(huán)變量的值小于終值。
三、遞歸法解決問題
因為遞歸不是太好理解,很多學生不知道遞歸到底是什么,怎么運行的。首先要讓學生明白遞歸是函數(shù)自身的不斷調(diào)用,其次是每一步的運行都離不開這個函數(shù)。
通過練習對本節(jié)課難點進行強化,力爭讓每個學生都掌握遞歸法的運行過程,并且能夠利用此方法解決實際生活中的問題!
教學反思:
第五篇:統(tǒng)計與調(diào)查教案
水塘中學教案
年級:七年級 學科:數(shù) 學 教師:鐘志華 時間:2014年5月5日
課題: 統(tǒng)計調(diào)查 課型:新授課
一、教學目標:
1、知識與技能:
a、了解全面調(diào)查及相關(guān)概念; b、會用全面調(diào)查的方法進行調(diào)查。
2、過程與方法:
學生通過經(jīng)歷收集、整理、描述和分析數(shù)據(jù)的一些統(tǒng)計活動,了解數(shù)據(jù)處理的過程,熟悉統(tǒng)計調(diào)查的步驟。
3、情感態(tài)度與價值觀:
1、學生通過本課時的學習,培養(yǎng)自身嚴謹、認真的學習意識,初步養(yǎng)成嚴密的邏輯思維習慣;
2、培養(yǎng)學生知法、懂法、守法的意識。
二、教學重、難點:
重難、點:全面調(diào)查的步驟和每個步驟的作用。
三、教學過程:
1、創(chuàng)設(shè)情境,激趣設(shè)疑
⑴活動:如果要了解全班對新聞、體育、動畫、娛樂、戲曲五類節(jié)目的喜愛情況,請同學們想一想你怎么調(diào)查?
⑵引導提問:調(diào)查到什么程度就達到了調(diào)查的目的了,調(diào)查的對象是什么? ⑶(師:鼓勵學生并引導學生逐步總結(jié)得出“全班對五類節(jié)目的喜愛情況”和“調(diào)查的對象是全班同學”的結(jié)論。)⑷問題:為了得到全班學生對這五類節(jié)目的喜愛情況,我們需要做哪些事情? ⑸師:你能說說這些方法的優(yōu)點與缺點嗎?
2、小組討論,互相促進: ⑹在眾多方法中,設(shè)計問卷調(diào)查比較規(guī)范,請問其目的是什么?以小組為單位討論設(shè)計一個調(diào)查問卷。
⑺討論活動結(jié)束后,鼓勵學生展示各小組的成果,并與其余小組一起評價。
3、動手操作,總結(jié)方法:
⑻引導學生閱讀課本P135-137內(nèi)容,試著總結(jié)該問卷調(diào)查所經(jīng)歷的步驟。引導學生總結(jié)得出活動中調(diào)查所經(jīng)歷的步驟: ①收集數(shù)據(jù):
a.統(tǒng)計調(diào)查或科學實驗收集; b.查閱資料收集等。②整理數(shù)據(jù):通常用表格整理數(shù)據(jù)。
③描述數(shù)據(jù):a.條形統(tǒng)計圖(學生學過)b.扇形統(tǒng)計圖(學畫扇形圖)
④分析數(shù)據(jù):依據(jù)條形圖或扇形圖進行得出結(jié)論 適當分析。
⑼引導學生完成簡單分析后,了解了全班同學喜愛電視節(jié)目的情況,穿插《廣播電視管理條 例》第三十二條、第四十四條、第四十五條等。⑽至此,我們已經(jīng)通過調(diào)查了解了全班學生對五類節(jié)目的喜愛情況,我們調(diào)查的對象是么?
定義:考察全體對象的調(diào)查叫全面調(diào)查。⑾(引導學生舉例,理解全面調(diào)查概念及適用)。
四、當堂訓練,鞏固提高
⑿教科書第137頁練習。
五、課堂小結(jié),當堂消化
1、什么是全面調(diào)查?
2、全面調(diào)查的步驟是什么?
⒀本課我們學習的是統(tǒng)計調(diào)查,不妨了解一些有關(guān)統(tǒng)計的法規(guī)常識:(滲透《中華人民共和國統(tǒng)計法》第六條、第九條、第二十五條、第三十七條等)。
六、談談收獲,說說感想
⒁引導、鼓勵學生談收獲、說感想。
⑾如:對全班同學性別、出生月份等的調(diào)查。
⑿學生先做,再在老師的指導訂正下解決問題。學生小結(jié)回答。⒀由學生主動起來朗讀,集體分享。
⒁學生談一談自己學到了什么,對學到的知識有何感想。板 書 設(shè) 計:略。