第一篇:基于數(shù)據(jù)抽取與訂閱實(shí)現(xiàn)數(shù)據(jù)共享分析及研究論文
1.引言
早期的應(yīng)用系統(tǒng)的建設(shè),大都存在缺少總體、全面、系統(tǒng)的規(guī)劃,缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),相互之間資源難以共享的“信息孤島”。從而造成各部門提供的數(shù)據(jù)不夠完整、準(zhǔn)確和權(quán)威。給全校范圍內(nèi)信息的交流和共享帶來(lái)了障礙,同時(shí)產(chǎn)生了大量的冗余信息。因此,需要通過(guò)對(duì)各部門計(jì)算機(jī)應(yīng)用系統(tǒng)進(jìn)行統(tǒng)一規(guī)劃,利用底層整合的信息資源,為門戶、應(yīng)用和信息資源整合提供數(shù)據(jù)交換、資源管理等基本服務(wù)接口,以實(shí)現(xiàn)各部門決策數(shù)據(jù)在應(yīng)用層面的互聯(lián)互通和信息共享。
為了實(shí)現(xiàn)數(shù)據(jù)共享,需要建設(shè)數(shù)據(jù)中心存儲(chǔ)全校共享的數(shù)據(jù)。建設(shè)數(shù)據(jù)中心時(shí),盡可能擴(kuò)展數(shù)據(jù)的集成范圍,形成大而全的數(shù)據(jù)中心,作為全校數(shù)據(jù)統(tǒng)計(jì)分析、智能決策支持的權(quán)威數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)能集成到數(shù)據(jù)中心運(yùn)行的應(yīng)用系統(tǒng)盡可能集成到數(shù)據(jù)中心運(yùn)行,數(shù)據(jù)中心可以成為后續(xù)開(kāi)發(fā)各種應(yīng)用系統(tǒng)的通用數(shù)據(jù)庫(kù)平臺(tái);對(duì)于需獨(dú)立運(yùn)行的應(yīng)用系統(tǒng),通過(guò)數(shù)據(jù)交換與共享服務(wù)平臺(tái)來(lái)實(shí)現(xiàn)數(shù)據(jù)的集成與共享;同時(shí)制定規(guī)范的數(shù)據(jù)變更流程,實(shí)現(xiàn)誰(shuí)產(chǎn)生、誰(shuí)維護(hù)、誰(shuí)負(fù)責(zé)的權(quán)威數(shù)據(jù)源。
本文以我校數(shù)字化校園項(xiàng)目建設(shè)為例,重點(diǎn)介紹如何規(guī)劃好我校數(shù)據(jù)流,以及如何通過(guò)數(shù)據(jù)的抽取與訂閱實(shí)現(xiàn)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)共享。
2.數(shù)據(jù)流規(guī)劃
為了實(shí)現(xiàn)校內(nèi)各業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享和保證數(shù)據(jù)的一致性,必須規(guī)劃好數(shù)據(jù)流向。數(shù)據(jù)共享的總體包括了代碼集的共享和數(shù)據(jù)集的共享。在這里,“代碼集”主要是指在各個(gè)應(yīng)用系統(tǒng)需要實(shí)現(xiàn)流轉(zhuǎn)的學(xué)校標(biāo)準(zhǔn)代碼,“數(shù)據(jù)集”主要是指在各個(gè)業(yè)務(wù)系統(tǒng)間需要進(jìn)行數(shù)據(jù)共享的數(shù)據(jù)集。
每一個(gè)共享的代碼集或數(shù)據(jù)集都有唯一的權(quán)威數(shù)據(jù)源,執(zhí)行“誰(shuí)產(chǎn)生,誰(shuí)維護(hù)”的原則。在整個(gè)數(shù)據(jù)流轉(zhuǎn)設(shè)計(jì)中,數(shù)據(jù)流都不做交叉設(shè)計(jì),這樣不會(huì)導(dǎo)致數(shù)據(jù)流混亂,形成誤解。因些必須對(duì)各業(yè)務(wù)系統(tǒng)進(jìn)行統(tǒng)一編碼,設(shè)置好業(yè)務(wù)系統(tǒng)間數(shù)據(jù)共享流程,并對(duì)共享數(shù)據(jù)信息流細(xì)化。
2.1業(yè)務(wù)系統(tǒng)統(tǒng)一編碼
根據(jù)我校所使用的各業(yè)務(wù)系統(tǒng),分別采用數(shù)字對(duì)應(yīng)各業(yè)務(wù)系統(tǒng),“41”代表“人事系統(tǒng)”;“42”代表“學(xué)工系統(tǒng)”;“43”代表“招生系統(tǒng)”;“44”代表“科研系統(tǒng)”;“45”代表“科研系統(tǒng)”;“47”代表“迎新系統(tǒng)”;“48”代表“離校系統(tǒng)”;“50”代表“校友系統(tǒng)”;“52”代表“辦公系統(tǒng)”;“61”代表“財(cái)務(wù)系統(tǒng)”;“62”代表“圖書館系統(tǒng)”;“63”代表“一卡通系統(tǒng)”;
2.2業(yè)務(wù)系統(tǒng)間數(shù)據(jù)共享流程
業(yè)務(wù)系統(tǒng)主要涉及到:招生系統(tǒng)、教務(wù)系統(tǒng)、迎新系統(tǒng)、學(xué)工系統(tǒng)、離校系統(tǒng)、校友系統(tǒng)、人事系統(tǒng)、財(cái)務(wù)系統(tǒng)、科研系統(tǒng)、辦公系統(tǒng)、圖書館系統(tǒng)、一卡通系統(tǒng);系統(tǒng)間各業(yè)務(wù)數(shù)據(jù)的來(lái)源及共享如下圖所示:
每個(gè)帶有“數(shù)字”箭頭的標(biāo)記分別表示數(shù)據(jù)的來(lái)源和內(nèi)容及數(shù)據(jù)流向哪個(gè)業(yè)務(wù)系統(tǒng),詳細(xì)信息如下:
(1)新生數(shù)據(jù)
(2)新生數(shù)據(jù)(教務(wù)系統(tǒng)已經(jīng)進(jìn)行分班編學(xué)號(hào)處理)
(3)迎新結(jié)果數(shù)據(jù)
(4)學(xué)生基本信息,學(xué)籍基本信息,成績(jī)數(shù)據(jù)
(5)學(xué)生基本信息,學(xué)生收費(fèi)明細(xì)
(6)學(xué)生收費(fèi)結(jié)果數(shù)據(jù)
(7)獎(jiǎng)學(xué)金信息,資助信息,貸款信息,綠色通道信息,困難生補(bǔ)助信息
(8)學(xué)生獎(jiǎng)學(xué)金發(fā)放結(jié)果,資助金額發(fā)放結(jié)果,補(bǔ)助發(fā)放結(jié)果,貸款處理結(jié)果
(9)學(xué)生收費(fèi)數(shù)據(jù),學(xué)生欠費(fèi)數(shù)據(jù)
(10)需要辦理離校手續(xù)的學(xué)生信息
(11)離校后的學(xué)生信息
(12)教職工基本信息,教職工工資明細(xì)
(13)教職工基本信息
(14)科研成果數(shù)據(jù),論文、著作數(shù)據(jù)
(15)科研項(xiàng)目信息
(16)項(xiàng)目經(jīng)費(fèi)到賬信息
-教職工信息
(17)-(20)教職工信息
(21)教師課程安排信息,教學(xué)質(zhì)量評(píng)價(jià)信息
(22)(23)學(xué)生基本信息
3.數(shù)據(jù)抽取與訂閱
3.1數(shù)據(jù)抽取與訂閱的實(shí)現(xiàn)流程圖
通過(guò)觸發(fā)器、系統(tǒng)日志、數(shù)據(jù)變化標(biāo)志位來(lái)捕捉業(yè)務(wù)系統(tǒng)需要共享或要交換到數(shù)據(jù)中心的數(shù)據(jù)發(fā)生變化,同步到中介庫(kù),設(shè)置中介庫(kù)在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)服務(wù)器,這樣數(shù)據(jù)發(fā)生變化后同步到中介庫(kù),不需要進(jìn)行數(shù)據(jù)庫(kù)異構(gòu)轉(zhuǎn)換,而且不需要經(jīng)過(guò)任何網(wǎng)絡(luò),這樣能保證數(shù)據(jù)的實(shí)施、高效、安全的數(shù)據(jù)同步。
3.2數(shù)據(jù)抽取與訂閱實(shí)現(xiàn)
數(shù)據(jù)中心從各業(yè)務(wù)系統(tǒng)中抽取需要共享的數(shù)據(jù)來(lái)保持?jǐn)?shù)據(jù)同步,如需要從教務(wù)系統(tǒng)中取學(xué)生信息集和教學(xué)場(chǎng)地信息集,需要從人事系統(tǒng)中取教職工信息集。數(shù)據(jù)中心從業(yè)務(wù)系統(tǒng)整合數(shù)據(jù)的關(guān)系圖如下:
先由數(shù)據(jù)中心系統(tǒng)管理員或各業(yè)務(wù)系統(tǒng)管理員進(jìn)行數(shù)據(jù)抽取配置,選擇從哪個(gè)系統(tǒng)抽取數(shù)據(jù),再設(shè)定業(yè)務(wù)系統(tǒng)信息字段與數(shù)據(jù)中心信息字段的對(duì)應(yīng)關(guān)系如圖3所示:
4.結(jié)語(yǔ)
高校信息化建設(shè)是一個(gè)不斷發(fā)展的過(guò)程,在這個(gè)過(guò)程中,信息資源的有效整合是一個(gè)必然的過(guò)程,通過(guò)整合可以實(shí)現(xiàn)現(xiàn)有業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)交換與共享。本文通過(guò)分析學(xué)校各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)特點(diǎn),規(guī)劃出各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)流向,并通過(guò)數(shù)據(jù)的抽取與訂閱實(shí)現(xiàn)數(shù)據(jù)共享。
參考文獻(xiàn):
[1]金保華,和振遠(yuǎn),張亮,李金旭,趙麗輝 基于 SOA的數(shù)據(jù)共享與交換平臺(tái)分析與設(shè)計(jì) 鄭 州 輕 工 業(yè) 學(xué) 院 學(xué) 報(bào)(自 然 科 學(xué) 版)2011年2月
[2]李學(xué)儉 數(shù)據(jù)共享環(huán)境下統(tǒng)一信息標(biāo)準(zhǔn)的建設(shè)與應(yīng)用 計(jì) 算 機(jī) 技 術(shù) 與 發(fā) 展2011年5月
第二篇:Web數(shù)據(jù)研究與應(yīng)用論文
1知如何能夠投其所好,為用戶實(shí)現(xiàn)主動(dòng)推薦,提供個(gè)性化服務(wù);這些都是電子商務(wù)成敗的關(guān)鍵問(wèn)題。在這種新型的商務(wù)模式下,如何對(duì)網(wǎng)絡(luò)上大量的信息進(jìn)行有效組織利用,幫助海量數(shù)據(jù)的擁有者們找出真正有價(jià)值的信息和知識(shí),以指導(dǎo)他們的商業(yè)決策行為,成為電子商務(wù)經(jīng)營(yíng)者關(guān)注的問(wèn)題。迅速發(fā)展的基于Web的數(shù)據(jù)挖掘技術(shù),為解決電子商務(wù)所面臨的問(wèn)題提供了有效途徑。Web數(shù)據(jù)挖掘
2.1 Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和知識(shí)的非平凡過(guò)程。
Web數(shù)據(jù)挖掘(Web Mining)是從Web文檔和Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息,是數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語(yǔ)言理解等技術(shù)的綜合應(yīng)用,是在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的知識(shí)來(lái)幫助人們從004km.cnputer processing of Oriental Languages,2003,16(2).
第三篇:應(yīng)用集成及數(shù)據(jù)共享與交換解決方案
應(yīng)用集成及數(shù)據(jù)共享與交換解決方案
在統(tǒng)一標(biāo)準(zhǔn)的前提下,構(gòu)建統(tǒng)一的數(shù)據(jù)共享與交換平臺(tái),通過(guò)異構(gòu)應(yīng)用整合各類業(yè)務(wù)系統(tǒng)(民政、計(jì)生、勞動(dòng)、綜治、統(tǒng)計(jì)等),有效解決各“條線”系統(tǒng)間的互聯(lián)互通,實(shí)現(xiàn)各種信息資源的整合和共享,以改善社區(qū)公共服務(wù)的方式和方法,提高社區(qū)服務(wù)和綜合管理水平。
具體做法:
(1)有效利用存量數(shù)據(jù)。
(2)增量數(shù)據(jù)的管理。
(3)實(shí)現(xiàn)應(yīng)用系統(tǒng)有效整合和資源共享
資料由中國(guó)系統(tǒng)集成在線提供
第四篇:數(shù)據(jù)挖掘教學(xué)方法研究論文
摘要:在本科高年級(jí)學(xué)生中開(kāi)設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點(diǎn)的進(jìn)階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級(jí)學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對(duì)于其今后的工作、學(xué)習(xí)不無(wú)裨益。著重闡述數(shù)據(jù)挖掘等進(jìn)階課程在本科高年級(jí)學(xué)生中的教學(xué)方法,基于本科高年級(jí)學(xué)生的實(shí)際情況,以及進(jìn)階課程的知識(shí)體系特點(diǎn),提出有針對(duì)性的教學(xué)方法參考,從而提高進(jìn)階課程的教學(xué)效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;進(jìn)階課程;教學(xué)方法研究;本科高年級(jí)
學(xué)生在本科高年級(jí)學(xué)生中開(kāi)設(shè)數(shù)據(jù)挖掘等進(jìn)階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)槔?,其相關(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn),也是各家企事業(yè)單位招聘中重要崗位的要求之一。對(duì)于即將攻讀碩士或博士學(xué)位的學(xué)生,對(duì)于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無(wú)裨益的。在目前本科教學(xué)中,對(duì)于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級(jí)進(jìn)行。如何激發(fā)本科四年級(jí)學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進(jìn)階課程所面臨的難題之一。
1數(shù)據(jù)挖掘等進(jìn)階課程所面臨的問(wèn)題
1.1進(jìn)階課程知識(shí)體系的綜合性
進(jìn)階課程由于其理論與技術(shù)的先進(jìn)性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點(diǎn),是綜合多方面知識(shí)的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、可視化、高性能技術(shù),算法等多方面的知識(shí)內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫(kù)、統(tǒng)計(jì)、算法等,但對(duì)于其他內(nèi)容如機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、可視化等,有的是與數(shù)據(jù)挖掘課程同時(shí)開(kāi)設(shè)的進(jìn)階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對(duì)于進(jìn)階課程繁雜的知識(shí)體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。
1.2進(jìn)階課程的教學(xué)的目的要求
進(jìn)階課程的知識(shí)體系的綜合性體現(xiàn)在知識(shí)點(diǎn)過(guò)多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進(jìn)階課程的教學(xué)目的是在有限的課時(shí)內(nèi)最大化學(xué)生的知識(shí)收獲。從教學(xué)結(jié)果的可測(cè)度出發(fā),進(jìn)階課程的教學(xué)需要能夠有效驗(yàn)證學(xué)生掌握重點(diǎn)知識(shí)的學(xué)習(xí)成果。1.3本科高年級(jí)學(xué)生的實(shí)際情況本科高年級(jí)學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對(duì)于剩余本科階段的學(xué)習(xí)不重視,存在得過(guò)且過(guò)的心態(tài)。進(jìn)階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來(lái)沒(méi)有時(shí)間,二來(lái)怕拖累學(xué)分。
2數(shù)據(jù)挖掘等進(jìn)階課程的具體教學(xué)方法
進(jìn)階課程的教學(xué)理念是在有限的課時(shí)內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個(gè)關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹(shù)算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識(shí)點(diǎn),并利用實(shí)踐來(lái)檢驗(yàn)學(xué)習(xí)成果。
2.1進(jìn)階課程的課堂教學(xué)
數(shù)據(jù)挖掘等進(jìn)階課程所涉及的知識(shí)點(diǎn)眾多,在課堂上則采用演示和講授相結(jié)合的方法,對(duì)大部分知識(shí)點(diǎn)做廣度介紹,而對(duì)需要重點(diǎn)掌握知識(shí)點(diǎn)具體講授,結(jié)合實(shí)踐案例及板書。在介紹工業(yè)實(shí)踐案例的過(guò)程中,對(duì)于具體數(shù)據(jù)挖掘任務(wù)的來(lái)龍去脈解釋清楚,尤其是對(duì)于問(wèn)題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識(shí)點(diǎn)的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對(duì)于數(shù)據(jù)挖掘的深入理解。對(duì)于一些需要記憶的知識(shí)點(diǎn),在課堂上采用隨機(jī)問(wèn)答的方式,必要的時(shí)候可以在每堂課的開(kāi)始重復(fù)提問(wèn),提高學(xué)習(xí)的效果。
2.2進(jìn)階課程的課后教學(xué)
對(duì)于由于時(shí)間限制無(wú)法在課上深入討論的知識(shí)點(diǎn),只能依靠學(xué)生在課后自學(xué)掌握。本科高年級(jí)學(xué)生的課后自學(xué)的動(dòng)力不像低年級(jí)學(xué)生那么充足,可以布置需要?jiǎng)邮謱?shí)踐并涵蓋相關(guān)知識(shí)點(diǎn)的課后實(shí)踐,但盡量降低作業(yè)的工程量。鼓勵(lì)學(xué)生利用開(kāi)源軟件和框架,基于提供的數(shù)據(jù)集,實(shí)際解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對(duì)算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過(guò)參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實(shí)踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。
2.3進(jìn)階課程的教學(xué)效果考察進(jìn)階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗(yàn)教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。
3結(jié)語(yǔ)
數(shù)據(jù)挖掘是來(lái)源于實(shí)踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實(shí)際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問(wèn)題。這也對(duì)教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過(guò)程中,發(fā)現(xiàn)往往是在講授實(shí)際科研中遇到的問(wèn)題時(shí),學(xué)生的興趣較大,對(duì)于書本上的例子則反映一般。進(jìn)階課程在注重教學(xué)方法的基礎(chǔ)上,對(duì)于教師的科研水平提出了新的要求,這也是對(duì)于教師科研的反哺,使教學(xué)過(guò)程變成了教學(xué)相長(zhǎng)的過(guò)程。
參考文獻(xiàn):
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計(jì)算機(jī),2014(13).[2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實(shí)證研究———以數(shù)據(jù)挖掘課程為例[J].計(jì)算機(jī)教育,2014(24).[3]張曉芳,王芬,黃曉.國(guó)內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無(wú)線傳感器網(wǎng)絡(luò)》課程特點(diǎn)、挑戰(zhàn)和解決方案[J].現(xiàn)代計(jì)算機(jī),2016(35).[5]王永紅.計(jì)算機(jī)類專業(yè)剖析中課程分析探討[J].現(xiàn)代計(jì)算機(jī),2011(04).
第五篇:關(guān)于大數(shù)據(jù)治理的研究與分析
關(guān)于大數(shù)據(jù)治理的研究與分析
2016-05-01
目錄
1數(shù)據(jù)治理的背景和現(xiàn)狀...............................................................................1
1.1數(shù)據(jù)治理背景...............................................................................................1 1.2數(shù)據(jù)治理現(xiàn)狀...............................................................................................2
2數(shù)據(jù)治理策略.............................................................................................2
2.1數(shù)據(jù)治理要素...............................................................................................3 2.2數(shù)據(jù)治理策略...............................................................................................3
3元數(shù)據(jù)管理.................................................................................................5
3.1元數(shù)據(jù)的定義...............................................................................................5 3.2為什么要進(jìn)行元數(shù)據(jù)管理..............................................................................6 3.3數(shù)據(jù)模型標(biāo)準(zhǔn)化............................................................................................7 3.4標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義&模型設(shè)計(jì))...................................................................7
4主數(shù)據(jù)........................................................................................................8
4.1主數(shù)據(jù)的定義...............................................................................................8 4.2為什么要作主數(shù)據(jù)管理.................................................................................8 4.3如何做好主數(shù)據(jù)管理.....................................................................................9 4.4主數(shù)據(jù)實(shí)施流程............................................................................................9 4.5主數(shù)據(jù)管理體系..........................................................................................10
5數(shù)據(jù)質(zhì)量管理...........................................................................................10
5.1數(shù)據(jù)質(zhì)量問(wèn)題.............................................................................................10
I 5.2組織架構(gòu)設(shè)計(jì).............................................................................................11 5.3數(shù)據(jù)質(zhì)量治理流程......................................................................................11 5.4數(shù)據(jù)治理管理方法......................................................................................12
II
1數(shù)據(jù)治理的背景和現(xiàn)狀
1.1數(shù)據(jù)治理背景
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng)。大約每?jī)赡攴环?,根?jù)監(jiān)測(cè),這個(gè)速度在2020 年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)。信息數(shù)據(jù)的單位由TB-PB-EB-ZB的級(jí)別暴增。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運(yùn)而生。
圖1 數(shù)據(jù)治理背景圖
1.2數(shù)據(jù)治理現(xiàn)狀
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財(cái)經(jīng)大學(xué)中國(guó)經(jīng)濟(jì)管理研究院博士張永力估算,國(guó)外大數(shù)據(jù)行業(yè)約有1000億美元的市場(chǎng),而且每年都以10%的速度在增長(zhǎng),增速是軟件行業(yè)的兩倍。我國(guó)2012年大數(shù)據(jù)市場(chǎng)規(guī)模大約4.7億元,2013年增速將達(dá)到138%,達(dá)到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮蟆N覈?guó)大數(shù)據(jù)飛速發(fā)展的背后存在諸多的問(wèn)題:相關(guān)利益交織,協(xié)調(diào)難;方案規(guī)劃容易,落地困難;過(guò)度依賴技術(shù)工具;對(duì)于數(shù)據(jù)沒(méi)有明確區(qū)分。
圖2 數(shù)據(jù)現(xiàn)狀分析圖
2數(shù)據(jù)治理策略
2.1數(shù)據(jù)治理要素
圖3 數(shù)據(jù)治理要素分析圖
2.2數(shù)據(jù)治理策略
? 第一步:落實(shí)合適的人員負(fù)責(zé)治理。
任何成功的數(shù)據(jù)治理計(jì)劃的第一個(gè)步驟就是,要在本企業(yè)找到CEO可以授權(quán)的人,然后讓該人負(fù)責(zé)項(xiàng)目的具體實(shí)施。沒(méi)有什么能取代強(qiáng)有力的領(lǐng)導(dǎo)人。
數(shù)據(jù)治理是涉及人事的一個(gè)難題,這需要在許多不同的利益相關(guān)者之間達(dá)成共識(shí)。因而,在本企業(yè)里面選定這樣的領(lǐng)導(dǎo)人是一項(xiàng)重要工作。治理官員一旦選定下來(lái),就要成立由企業(yè)的利益相關(guān)者組成的治理委員會(huì),制訂監(jiān)管政策、向CEO及董事會(huì)報(bào)告進(jìn)度。
第二步:調(diào)查清楚所處環(huán)境。
一旦選定了領(lǐng)導(dǎo)小組,就要調(diào)查當(dāng)前情形,并清查不同部門在不同領(lǐng)域的當(dāng)前最佳實(shí)踐。領(lǐng)導(dǎo)小組需要越過(guò)獨(dú)立系統(tǒng)看待問(wèn)題,而企業(yè)數(shù)據(jù)治理評(píng)估方法對(duì)這項(xiàng)工作來(lái)說(shuō)必不可少。這有助于比較本企業(yè)的數(shù)據(jù)治理計(jì)劃目前處于什么狀態(tài),并且提供了一份路線圖以便確定以后的目標(biāo)。
第三步:制訂數(shù)據(jù)治理策略。
數(shù)據(jù)治理評(píng)估之后,治理委員會(huì)就應(yīng)當(dāng)考慮制訂遠(yuǎn)景,希望公司的數(shù)據(jù)治理實(shí)踐在接下來(lái)的幾年達(dá)到何種目標(biāo),根據(jù)這種需求為未來(lái)制訂遠(yuǎn)景。委員會(huì)應(yīng)當(dāng)向后規(guī)劃,并且制訂切合實(shí)際的里程碑和項(xiàng)目計(jì)劃來(lái)填補(bǔ)相關(guān)的缺口。具體辦法就是制訂關(guān)鍵績(jī)效指標(biāo)來(lái)跟蹤進(jìn)度,并且向CEO和董事會(huì)提交報(bào)告來(lái)證實(shí)成果。
第四步:算出數(shù)據(jù)價(jià)值。
估算數(shù)據(jù)價(jià)值。要是公司不知道數(shù)據(jù)的價(jià)值,它們就無(wú)法提高、保護(hù)或者評(píng)估數(shù)據(jù)對(duì)賬本底線的價(jià)值。數(shù)據(jù)不是一種普通商品,而是像水龍頭里出來(lái)的水--對(duì)生命至關(guān)重要,又往往被人們認(rèn)為是理所當(dāng)然的。你要是不知道某物的價(jià)格,就無(wú)法算出它的價(jià)值。
如果你想算出數(shù)據(jù)的價(jià)值,就要根據(jù)用戶權(quán)限和IT服務(wù)的效用,為數(shù)據(jù)建立內(nèi)部市場(chǎng)。當(dāng)本企業(yè)的每個(gè)人都在直接付費(fèi)獲取IT服務(wù)和數(shù)據(jù)時(shí),數(shù)據(jù)的價(jià)值就成了公司價(jià)目表上的一部分。
第五步:算出風(fēng)險(xiǎn)概率。
知道數(shù)據(jù)在過(guò)去是如何使用和濫用的,這有助于了解數(shù)據(jù)在將來(lái)會(huì)如何被危及和披露。每家企業(yè)都有一些原因,如一些事件和損失在獨(dú)立系統(tǒng)、層次體系和商業(yè)報(bào)告中消失。這些數(shù)據(jù)已經(jīng)可供使用,卻沒(méi)有被大多數(shù)企業(yè)所使用。收集這些數(shù)據(jù),與其意義聯(lián)系起來(lái),并研 4 究長(zhǎng)期的損失趨勢(shì),這可以幫助任何企業(yè)把風(fēng)險(xiǎn)管理轉(zhuǎn)變 成基于事實(shí)的商業(yè)智能方法,從而可分析過(guò)去事件,預(yù)測(cè)未來(lái)?yè)p失,改變當(dāng)前的政策要求,成為未來(lái)改善風(fēng)險(xiǎn)緩解策略。
第六步:密切關(guān)注控制措施的效果。
數(shù)據(jù)治理在很大程度上涉及企業(yè)的組織行為。企業(yè)每天在變化,因而它們的數(shù)據(jù)、價(jià)值及風(fēng)險(xiǎn)也在迅速變化。遺憾的是,大多數(shù)企業(yè)每年對(duì)自己只評(píng)估一次。要是公司無(wú)法改變組織控制措施來(lái)滿足每天或者每周出現(xiàn)的需求,也就談不上變化治理。
圖4 數(shù)據(jù)治理實(shí)施建議圖
3元數(shù)據(jù)管理
3.1元數(shù)據(jù)的定義
技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語(yǔ)所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;系統(tǒng)所提供的分析方法以及公式和報(bào)表 的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。
3.2為什么要進(jìn)行元數(shù)據(jù)管理
圖5 數(shù)據(jù)管理分析圖
3.3數(shù)據(jù)模型標(biāo)準(zhǔn)化
圖6 數(shù)據(jù)模型示意圖
3.4標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義&模型設(shè)計(jì))
標(biāo)準(zhǔn)化體系:一定范圍內(nèi)的標(biāo)準(zhǔn)按其內(nèi)在聯(lián)系形成的科學(xué)的有機(jī)整體。標(biāo)準(zhǔn)化體系它規(guī)定了質(zhì)量方針、目標(biāo)、職責(zé)和程序,并通過(guò)建立相關(guān)體系進(jìn)行過(guò)程管理、質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn)。
圖7 標(biāo)準(zhǔn)化體系示意圖
4主數(shù)據(jù)
4.1主數(shù)據(jù)的定義
企業(yè)主數(shù)據(jù)分散存儲(chǔ)在企業(yè)各系統(tǒng)內(nèi),是對(duì)企業(yè)至關(guān)重要的核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工等。
4.2為什么要作主數(shù)據(jù)管理
主數(shù)據(jù)管理(MDM,Master Data Management)描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉(cāng)庫(kù)、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。
主數(shù)據(jù)管理的關(guān)鍵就是“管理”。主數(shù)據(jù)管理不會(huì)創(chuàng)建新的數(shù)據(jù)或新的數(shù)據(jù)縱向結(jié)構(gòu)。相反,它提供了一種方法,使企業(yè)能夠有效地管理存儲(chǔ)在分布系統(tǒng)中的數(shù) 據(jù)。主數(shù)據(jù)管理使用現(xiàn)有的系統(tǒng),它從這些系統(tǒng)中獲取最新信息,并提供了先進(jìn)的技術(shù)和流程,用于自動(dòng)、準(zhǔn)確、及時(shí)地分發(fā)和分析整個(gè)企業(yè)中的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn) 行驗(yàn)證。
圖8 數(shù)據(jù)管理原因分析圖
4.3如何做好主數(shù)據(jù)管理
通過(guò)單一平臺(tái)上成熟的多領(lǐng)域MDM集中主數(shù)據(jù)的管理,從而消除點(diǎn)對(duì)點(diǎn)集成,簡(jiǎn)化您的結(jié)構(gòu),降低維護(hù)成本,改進(jìn)數(shù)據(jù)治理。Informatica MDM(主數(shù)據(jù)管理)能夠通過(guò)以下步驟幫助企業(yè)成功進(jìn)行多領(lǐng)域主數(shù)據(jù)管理:
1.建模:用靈活的數(shù)據(jù)模型定義任意類型的主數(shù)據(jù)
2.識(shí)別:快速匹配和準(zhǔn)確識(shí)別重復(fù)項(xiàng)目
3.解決:合并以創(chuàng)建可靠、唯一的真實(shí)來(lái)源
4.聯(lián)系:揭示各類主數(shù)據(jù)之間的關(guān)系
5.治理:創(chuàng)建、使用、管理和監(jiān)控主數(shù)據(jù)
4.4主數(shù)據(jù)實(shí)施流程
圖9 數(shù)據(jù)管理實(shí)施流程圖
4.5主數(shù)據(jù)管理體系
圖10 主數(shù)據(jù)管理體系流程圖
5數(shù)據(jù)質(zhì)量管理
5.1數(shù)據(jù)質(zhì)量問(wèn)題
·數(shù)據(jù)的值域
·數(shù)據(jù)的定義
·數(shù)據(jù)的完整性
·數(shù)據(jù)的有效性
·業(yè)務(wù)規(guī)則
·結(jié)構(gòu)完整性
·數(shù)據(jù)轉(zhuǎn)換
·數(shù)據(jù)流
5.2組織架構(gòu)設(shè)計(jì)
圖11 架構(gòu)分析圖
5.3數(shù)據(jù)質(zhì)量治理流程
圖12 數(shù)據(jù)質(zhì)量治理流程圖
5.4數(shù)據(jù)治理管理方法
建立合理的數(shù)據(jù)管理機(jī)構(gòu)、制定數(shù)據(jù)質(zhì)量管理機(jī)制、落實(shí)人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控?cái)?shù)據(jù)應(yīng)用過(guò)程和領(lǐng)導(dǎo)強(qiáng)有力的督促是保障企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵。
圖13 策略與方法分析圖