欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦)

      時(shí)間:2019-05-13 15:30:48下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫(xiě)寫(xiě)幫文庫(kù)小編為你整理了多篇相關(guān)的《武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫(xiě)寫(xiě)幫文庫(kù)還可以找到更多《武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦)》。

      第一篇:武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦)

      摘要:中文信息處理在信息處理中占有非常重要的位置,其 在機(jī)器翻譯、信息檢索、人機(jī)對(duì)話(huà)等各個(gè)領(lǐng)域發(fā)揮著非常積極的作用。中文分詞是中文信息中最基本、最重要的一項(xiàng)研究課題。本文總結(jié)目前常用中文分詞發(fā)展現(xiàn)狀,主要算法、面臨難點(diǎn)。

      關(guān)鍵詞:中文分詞 分詞算法

      中文分詞是中文信息中最基本、最重要的一項(xiàng)研究課題,是對(duì)中文信息進(jìn)行處理的第一步。它是指將組成句子的漢字序列用分隔符加以區(qū)分,切分成一個(gè)個(gè)單獨(dú)的詞。由于中文本身復(fù)雜性及語(yǔ)言規(guī)則的不確定性,給中文分詞帶來(lái)了很大困難。而信息檢索的相關(guān)技術(shù)研究也迫切需要分詞技術(shù)的實(shí)現(xiàn),同時(shí)分詞技術(shù)的應(yīng)用范圍已經(jīng)開(kāi)始延伸到各個(gè)行業(yè),例如機(jī)器翻譯、信息檢索、搜索引擎與中文輸入法、問(wèn)題答疑和文本挖掘等等。由此對(duì)中文分詞算法的理論研究和對(duì)應(yīng)用相關(guān)研究都是很重要的。

      國(guó)內(nèi)外發(fā)展現(xiàn)狀

      目前國(guó)際上比較通用的語(yǔ)言還是英語(yǔ)等其它語(yǔ)言,對(duì)于漢語(yǔ)的相關(guān)自然語(yǔ)言研究并不是很多。國(guó)外主要有微軟開(kāi)發(fā)的NLPwin中文分詞系統(tǒng)。它擴(kuò)展了北大的詞典,在對(duì)上下文本有較好理解的前提下能夠比較好的處理歧義切分問(wèn)題。還有mmseg4j 分詞器,基于最大匹配算法的前提下,通過(guò)規(guī)則過(guò)濾來(lái)提高切分的成功率,它主要應(yīng)用于自然語(yǔ)言理解、信息查詢(xún)、語(yǔ)音處理等領(lǐng)域,分詞的結(jié)果比較理想。

      國(guó)內(nèi),中文信息領(lǐng)域中有人提出可以用機(jī)器自動(dòng)分詞后,便開(kāi)始出現(xiàn)了一些較為實(shí)用的分詞方案。如由北京航空航天大學(xué)采用的是查詢(xún)?cè)~典的方式設(shè)計(jì)并實(shí)現(xiàn)的CDWS分詞系統(tǒng);張永奎等人研究使用最大匹配算法實(shí)現(xiàn)了中文自動(dòng)分詞系(NEWS);北京航空航天大學(xué)自主研發(fā)并使用ASM算法實(shí)現(xiàn)的CASS系統(tǒng)(中文自動(dòng)分詞系統(tǒng));由哈爾濱工業(yè)大學(xué)車(chē)萬(wàn)翔博士帶隊(duì)研發(fā)出的Ltp語(yǔ)言技術(shù)平臺(tái);還有基于Apache Lucene的基礎(chǔ)上改進(jìn)研發(fā)出的IKAnalyzer分詞器。伴隨著中文分詞的相關(guān)使用領(lǐng)域越來(lái)越多,更多對(duì)這個(gè)領(lǐng)域感興趣的人開(kāi)始更為深入的方案研究和實(shí)現(xiàn)。例如SEG和SEGTAG分詞方案試圖用有向圖的方法來(lái)對(duì)信息進(jìn)行整合、哈爾濱工業(yè)大學(xué)實(shí)現(xiàn)的基于統(tǒng)計(jì)的中文分詞方案使用了上下文本的信息來(lái)進(jìn)行未登錄詞發(fā)現(xiàn),最后用統(tǒng)計(jì)模型來(lái)匹配找出未登錄詞、復(fù)旦大學(xué)實(shí)現(xiàn)的分詞方案處理歧義切分、北京大學(xué)實(shí)現(xiàn)分詞方案以詞性標(biāo)注作為切入點(diǎn),在分詞時(shí)使用詞性標(biāo)注進(jìn)行校驗(yàn)、杭大實(shí)現(xiàn)的改進(jìn)MM分詞方案以詞典的組織結(jié)構(gòu)作為切入點(diǎn),選擇了統(tǒng)計(jì)的算法來(lái)識(shí)別大部分的未登錄詞、中國(guó)科學(xué)院提出的一種以詞法分析作為切入點(diǎn),選擇基于統(tǒng)計(jì)的N-最短路徑策略進(jìn)行處理等等。

      中文分詞算法

      在過(guò)去的三十多年里經(jīng)過(guò)學(xué)者們的研究和探索,中文分詞已取得了長(zhǎng)足的進(jìn)步,準(zhǔn)確度獲得了提升。目前主要的中文分詞算法有:

      1、基于字符串匹配(機(jī)械)的分詞方法

      字符串匹配法又叫機(jī)械分詞法。這種中文分詞方案它需要有一個(gè)詞典,我們認(rèn)為這個(gè)詞典能夠包含我們所需要的所有的詞,然后基于這個(gè)詞典,把沒(méi)有切分的文本按某種規(guī)則取一部分和詞典中的詞逐一進(jìn)行比較,查詢(xún)成功則識(shí)別出這個(gè)詞,失敗則再重新選取待查詢(xún)的部分。這樣循環(huán)匹配下去最終達(dá)到切分原文本的效果。想要提高基于字符串匹配的分詞方法的準(zhǔn)確率,必須保證詞典的“大”、“全”、“準(zhǔn)”,這也正是機(jī)械分詞法的瓶頸所在。在這種方法中,按照匹配字符串方向的不同,可以分為正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)、雙向最大匹配算法,按照所優(yōu)先匹配的長(zhǎng)度的不同,又可以分為最長(zhǎng)匹配和最短匹配兩種,如果按照其在匹配過(guò)程中是增加字符還是減少字符的方式分類(lèi),還可以分為增字分詞法和減字分詞法。

      2、基于理解的分詞方法

      這種方法通過(guò)漢語(yǔ)中的組織習(xí)慣和思維方式的相關(guān)知識(shí)來(lái)進(jìn)行分詞的,同時(shí)會(huì)簡(jiǎn)歷漢語(yǔ)分詞的數(shù)據(jù)信息庫(kù)。通過(guò)漢語(yǔ)語(yǔ)言組織原則和使用習(xí)慣等去判別出現(xiàn)歧義時(shí)的切分結(jié)果。目前主要使用的方法主要有:

      1、專(zhuān)家系統(tǒng)分詞的方法,它是按照語(yǔ)言學(xué)家的角度來(lái)建立分詞所需的知識(shí)庫(kù)。這個(gè)知識(shí)庫(kù)與切詞的實(shí)現(xiàn)相互獨(dú)立,可以在完善知識(shí)庫(kù)的同時(shí)不影響切詞過(guò)程。這種方法的切詞的過(guò)程就是利用知識(shí)庫(kù)推理句子的語(yǔ)法樹(shù)的過(guò)程。但是需要大量的關(guān)于中文的信息,機(jī)器梳理信息時(shí)消耗大量的資源,算法復(fù)雜度非常高。

      2、基于神經(jīng)網(wǎng)絡(luò)的分詞算法。這是一種非線性的方法,采用分布式的并行處理方法來(lái)計(jì)算模型,利用自學(xué)習(xí)來(lái)完善模型,最后達(dá)到正確分詞的效果。但是它需要非常長(zhǎng)的訓(xùn)練時(shí)間,并且不能對(duì)自己的推理模型作出相應(yīng)的解釋?zhuān)瑢?duì)新詞的識(shí)別結(jié)果也很一般。

      3、基于統(tǒng)計(jì)的分詞方法

      基于統(tǒng)計(jì)的分詞方法是利用概率學(xué)來(lái)解決語(yǔ)言問(wèn)題的一種方法,依據(jù)人的直觀感覺(jué),語(yǔ)料中任意兩個(gè)字出現(xiàn)在一起的次數(shù)越多,說(shuō)明它們之間的關(guān)系越密切,那么它們組成詞的可能性就越大。由字構(gòu)詞的思想是現(xiàn)在的主流思想。這種類(lèi)型的分詞法通過(guò)統(tǒng)計(jì)語(yǔ)料中的相鄰出現(xiàn)的字的組合的頻度,計(jì)算各種他們之間的互信息,利用各種統(tǒng)計(jì)模型來(lái)計(jì)算字組成詞的概率,當(dāng)概率高于某個(gè)閡值時(shí),就認(rèn)為組成了一個(gè)詞,因?yàn)橐粋€(gè)字符串會(huì)有多種切分方法,這類(lèi)分詞方法會(huì)通過(guò)設(shè)定的參數(shù)來(lái)找出概率最大的切分方式。通常這一類(lèi)基于統(tǒng)計(jì)的分詞法不依賴(lài)于詞典,因此也被稱(chēng)為無(wú)詞典分詞法。在這種方法中,常常使用的模型有N元統(tǒng)計(jì)模型、隱馬爾可夫模型閻、最大嫡模型等。

      中文分詞算法存在的主要難點(diǎn)

      雖然經(jīng)過(guò)長(zhǎng)時(shí)間的研究,到現(xiàn)在已經(jīng)有了很大進(jìn)展,但由于中文本身復(fù)雜性,還沒(méi)有出現(xiàn)一個(gè)百分百完美的方法。目前面臨的幾個(gè)重要問(wèn)題有:

      1、沒(méi)有一套統(tǒng)一并且通用的分詞規(guī)范。與此同時(shí),實(shí)際中很多具體的產(chǎn)品或者分詞系統(tǒng)對(duì)于中文分詞方案的準(zhǔn)確性和分詞速度的要求差異都很大,比較難達(dá)成一個(gè)大家共識(shí)的中文分詞標(biāo)準(zhǔn)。

      2、相同的一段文字在中文分詞中可能因?yàn)楫a(chǎn)生不同的劃分而產(chǎn)生歧義。一段中文文本可以根據(jù)不同的匹配方式和算法進(jìn)行樣式繁多的切分方式,這個(gè)過(guò)程中難免會(huì)出現(xiàn)機(jī)器不知如何處理的歧義情況。

      3、未登錄詞的識(shí)別:由于新詞的不斷增加,詞典則常有一些未登錄詞,而且這些詞的組織結(jié)構(gòu)往往和傳統(tǒng)意義上的詞不同,通過(guò)規(guī)律去查找匹配出這些未登錄詞基本是不可能的。這使得基于詞典的中文分詞算法難于識(shí)別那些未登錄詞。

      除此,針對(duì)目前這些難點(diǎn),有很多人對(duì)原有的方法進(jìn)行改進(jìn),研究出一些新型的方法。比如基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)、、統(tǒng)計(jì)與詞典相結(jié)合的分詞方法、基于詞典的中文分詞改進(jìn)算法、基于漢語(yǔ)拼音首字母索引的混合分詞法、基于詞頻統(tǒng)計(jì)的分詞法,基于語(yǔ)義擴(kuò)展的分詞法,基于CRF的古漢語(yǔ)分詞研究、基于委員會(huì)投票的主動(dòng)學(xué)習(xí)中文分詞方法的研究等。這些方法的研究都有一定的效果,但是還是沒(méi)有完全解決目前的問(wèn)題。

      結(jié)論:

      中文分詞是在這個(gè)信息爆炸時(shí)代最重要的研究問(wèn)題之一,處理好中文分詞,可以給中文信息處理中的其他研究帶來(lái)突破性的發(fā)展,給人們帶來(lái)更加準(zhǔn)確的信息搜索體驗(yàn)。但由于漢語(yǔ)的復(fù)雜性,現(xiàn)在還沒(méi)有一個(gè)完美的中文分詞方法,之后的研究可以針對(duì)目前中文分詞的主要問(wèn)題,結(jié)合多種方法或?qū)ΜF(xiàn)有方法和統(tǒng)計(jì)模型進(jìn)行優(yōu)化以達(dá)到更好的效果。

      參考文獻(xiàn):

      [1] 周祺 基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn) 哈爾濱工業(yè)大學(xué)

      2015.12 [2] 杜麗萍 李曉戈 于根 劉春麗 劉睿 基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn) 北京大學(xué)學(xué)報(bào) 2016.01 [3] 韓冬煦 常寶寶 中文分詞模型的領(lǐng)域適應(yīng)性方法 計(jì)算機(jī)學(xué)報(bào) 2015.12 [4] 梁喜濤 顧磊 中文分詞與詞性標(biāo)注研究 計(jì)算機(jī)技術(shù)有發(fā)展 2015.02 [5] 張黎 徐蔚然 中文分詞研究software 北京郵電大學(xué) 2012.12

      第二篇:信息檢索論文

      應(yīng)用化學(xué)

      化學(xué)與化工信息檢索論文

      題目:造紙污水處理技術(shù)現(xiàn)狀及進(jìn)展

      學(xué)生姓名------學(xué)號(hào)--------專(zhuān)業(yè)應(yīng)用化學(xué)指導(dǎo)教師----

      2010年12月 25日

      造紙污水處理技術(shù)現(xiàn)狀及進(jìn)展

      摘要:本文在查閱相關(guān)資料的基礎(chǔ)上,介紹了國(guó)內(nèi)外的造紙廢水處理的常用方法,并對(duì)各種方法進(jìn)行了評(píng)價(jià)和分析,綜述了造紙廢水處理研究的現(xiàn)狀和進(jìn)展。

      關(guān)鍵詞:造紙;廢水處理;治理技術(shù)

      隨著造紙工業(yè)的迅速發(fā)展,造紙工業(yè)廢水已經(jīng)成為水環(huán)境的重要污染源之一。在造紙過(guò)程中,除纖維素和部分半纖維素之外的大量有機(jī)物要進(jìn)入廢水中,并且即使經(jīng)過(guò)充分的廢液回收利用,也還是或多或少地會(huì)有一些纖維素和半纖維素流失進(jìn)入廢水中。含有大量有機(jī)物的造紙廢水排入水體,對(duì)水體會(huì)造成不同程度的污染。同時(shí)造紙過(guò)程中通常還需要加入一些必要的化學(xué)藥劑和化學(xué)助劑,這些物質(zhì)流失進(jìn)入水體中更是加重了水體污染[1]。造紙工業(yè)的漂白工段通常是采用含氯化合物漂白,導(dǎo)致排出的漂白廢水中含有大量的氯化有機(jī)物,其中的氯苯酚、氯化脂肪酸、氯化樹(shù)脂酸、dioxin等有毒且難以處理的氯化有 機(jī)物,對(duì)環(huán)境中的生物具有強(qiáng)烈的毒害、致畸、致多發(fā)性腦神經(jīng)病變作用[2],因此如何有效地去除造紙廢 水中的含氯有機(jī)物已經(jīng)成為廢水處理的一大難題。本文在查閱大量文獻(xiàn)資料的基礎(chǔ)上主要介紹國(guó)內(nèi)外處理造紙廢水的方法和新技術(shù),并就國(guó)內(nèi)外治理造紙廢水的現(xiàn)狀和未來(lái)的發(fā)展前景加以評(píng)述。

      1概況

      據(jù)經(jīng)貿(mào)委粗略估計(jì),目前我國(guó)大小造紙廠約有近萬(wàn)家。造紙工業(yè)總的特點(diǎn)是:使用原料種類(lèi)多、生產(chǎn)工藝類(lèi)型多、中小企業(yè)多、技術(shù)裝備落后者多。調(diào)查統(tǒng)計(jì)表明,造紙工業(yè)廢水年排放總量達(dá)17億t,占工業(yè)廢 水總排放量的10以上。造 紙工業(yè)廢水主要包括黑液或紅液(蒸煮制漿廢水)、中段廢水(制漿洗滌、篩選、漂白廢水)、造紙 白水(抄紙廢水)三大類(lèi),其中蒸煮黑液的環(huán)境污染最為嚴(yán)重,占整個(gè)造紙工業(yè)污染的90%。制漿廢水 BOD、COD、SS、pH、色度、濁度等均嚴(yán)重超標(biāo);中段廢水成分與制漿廢水相近,但濃度低,富含漂白工段產(chǎn)生的對(duì)環(huán)境危害最大的有機(jī)氯化物;抄紙廢水中主要含有細(xì)小纖維、填料(高嶺土等)和膠料(松香等),BOD值較低。造紙工業(yè)廢水的治理是國(guó)內(nèi)外造紙行業(yè)亟待解決的難題[3]。

      2治理方法

      2.1物理化學(xué)法

      物理化學(xué)法是通過(guò)物理或者化學(xué)反應(yīng)的作用來(lái)達(dá)到去除廢水中的污染物的目的,主

      要有以下方法:

      2.1.1臭氧法

      臭氧氧化技術(shù)已問(wèn)世多年,近年來(lái),由于低成本的臭氧發(fā)生裝置和臭氧處理裝置的出現(xiàn)而重新成為研究熱點(diǎn)。臭氧(O3)是一種強(qiáng)氧化劑,O3作為兩性離子,能選擇性地分解發(fā)色基團(tuán)。安郁琴[4]將經(jīng)過(guò)化學(xué)混凝處理后和經(jīng)過(guò)化學(xué)混凝過(guò)濾吸附處理后的麥革漿黑液利用臭氧法處理,處理 20分鐘后脫色率可以達(dá)到 82.1%,但 CODCr去除率僅 15.8%,BOD5去除率為24.8%,F(xiàn)f1此可見(jiàn),臭氧脫色效果顯著,但對(duì) CODCr和 BOD5的去除效果不明顯。臭氧在水中的溶解度較低,如何更有效地使臭氧溶解于水中從而提高其利用率已經(jīng)成為該技術(shù)研究的熱點(diǎn)。使用臭氧法也會(huì)產(chǎn)生其它副產(chǎn)物,其中最受關(guān)注的是羰基化合物中的醛類(lèi),比如甲醛、乙醛,這些物質(zhì)具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。

      2.1.2光催化氧化

      光催化氧化技術(shù)是近年來(lái)比較活躍的研究領(lǐng)域,光催化氧化技術(shù)是在光化學(xué)氧化技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的。張志軍等[5]利用中壓汞燈作光源,研究了氯代二苯并一對(duì)一二啞英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反應(yīng),在室溫下,4h內(nèi)DCCD、PCDD和OCDD分別降解87.2%、84.6%和91.2%。M.Cristina Yeber等

      [6]將 TiO2、Zno同定在玻璃上,對(duì)漂白廢水進(jìn)行了光催化氯化處理,處理 120min后,廢水的色度可完全去除,總酚含量減少了85%,TOC減少了50%,處理后殘留有機(jī)物的急性毒性和AOX比處理前大為減少,高分子化合物幾乎全部降解。

      2.1.3混凝法

      混凝法是目前國(guó)內(nèi)外重點(diǎn)研究的方向之一,該法適應(yīng)性強(qiáng)、基建投資低、管理簡(jiǎn)單,是水處理常用的方法,在造紙行業(yè)的廢水處理中使用普遍。造紙廢水中由于含有大量纖維和化學(xué)藥劑,所以一般在處理造紙廢水時(shí)首先要用混凝法除去這些物質(zhì)。張學(xué)洪、解慶林[9]等利用聚合氯化鋁處理廣西某造紙廠的造紙終端廢水(CODcf=400mg/L),處理后可以達(dá)到國(guó)家污水排放標(biāo)準(zhǔn)(CODcf<100 mg/L)。黃國(guó)林、樂(lè)長(zhǎng)高等[1O]利用水溶性酚醛樹(shù)脂和硫酸反應(yīng)得到的聚合物處理?yè)嶂菽吃旒垙S制漿車(chē)間排污口的廢水,在最佳工藝條件下反應(yīng)時(shí),CODc和ss去除率分別可以達(dá)到80%一85%和 90% 一95%,處理水可以達(dá)到排放標(biāo)準(zhǔn)。

      2.2 生物法

      廢水的生物處理方法就是利用微生物的新陳代謝功能使廢水中呈溶解狀和膠體狀的有機(jī)污染物被降解并轉(zhuǎn)化成無(wú)害穩(wěn)定的物質(zhì),使廢水得到凈化。生物法處理廢水因其運(yùn)行成本低,效果較好而在廢水處理中得到了廣泛應(yīng)用。造紙廢水中含有大量有機(jī)物質(zhì),廢水的可生化性較好,可以為生物法的微生物提供大量的營(yíng)養(yǎng)物質(zhì),從而能保證微生物的正常生長(zhǎng)繁殖和生物法處理廢水的正常運(yùn)行。利用生物法對(duì)造紙廢水進(jìn)行二級(jí)處理可有效去除BOD、COD。造紙廢水生物處理法主要有以下幾種:

      2.2.1好氧生物處理法

      利用好氧微生物(主要為好氧菌)的新陳代謝作用來(lái)降解污染物,其中應(yīng)用最多的主要是活性污泥法,我國(guó)的科研人員對(duì)活性污泥法處理造紙廢水進(jìn)行了大量的研究,取得了許多成功的經(jīng)驗(yàn)。造紙廢水中的木素是不易生物降解的物質(zhì),活性污泥對(duì)木素具有極好的吸附性能,通過(guò)生物降解和活性污泥吸附作用,可達(dá)到除去木素的目的,從而降低溶解木素的濃度。芬蘭OULU紙漿廠[11]利用活性污泥法加污泥曝氣再生處理漂白硫酸鹽紙漿廢水,可使BOD去除率達(dá) 90%,COD去除率達(dá)84%?;钚晕勰喾ㄓ捎谄涮幚沓杀镜汀⒁子诠芾?、處理效果較好而在廢水處理中的應(yīng)用越來(lái)越多。

      2.2.2生物膜法

      相對(duì)于活性污泥系統(tǒng)而言,生物膜系統(tǒng)具有如下顯著優(yōu)點(diǎn):高容積負(fù)荷、更強(qiáng)的抗毒能力和耐負(fù)荷沖擊能力、無(wú)須污泥回流且處理設(shè)施緊湊。朱光燦、呂錫武等[12]研究了采用脫木素—缺氧—好氧生物膜工藝處理造紙廢水。其中的脫木素工藝可有效地將黑液中堿木素脫穩(wěn)析出,并提高廢水的可生化性,當(dāng)廢水 pH=5,絕干纖維污泥與廢水 COD質(zhì)量之比為 1.1,硫酸鋁投加量為 160m g/L時(shí),COD去除率大于 63%。生物法在利用微生物處理造紙廢水時(shí)候,如果造紙廢水中含有大量不利于微生物生長(zhǎng)的物質(zhì)時(shí)候,生物法處理效果較差,因此在制漿造紙過(guò)程中可以通過(guò)改變漂白劑的種類(lèi),提高造紙廢水的可生化性,使其更利于生物法處理。

      2.3 其他方法

      2.3.1電化學(xué)法

      利用電化學(xué)法進(jìn)行廢水的處理是電化學(xué)法獲得應(yīng)用的典型領(lǐng)域。通過(guò)電化學(xué)反應(yīng)中的直接或者間接氧化和還原作用,可以破壞有毒或難降解有機(jī)物的結(jié)構(gòu),去除其生物毒性,提高其可生化性。電化學(xué)法處理廢水一般無(wú)需加入化學(xué)藥品,后處理簡(jiǎn)單,占地面積小,管理方便,被稱(chēng)為清潔處理法。景峰、王耀新、朱文菊等將電化學(xué)和凝聚沉淀法兩種方法聯(lián)合起來(lái)處理造紙廢水,使造紙廢水COD去除率達(dá)到55%~70%,色度去除,率達(dá)90%~95%[13]。目前關(guān)于電化學(xué)法的許多問(wèn)題特別是降解機(jī)理、處理速度和經(jīng)濟(jì)

      性問(wèn)題尚未完全解決,電化學(xué)處理廢水電耗較高,使該方法的工業(yè)應(yīng)用受到限制。

      2.3.2濕式空氣氧化法

      濕式空氣氧化法是目前研究較多的新型處理方法,即在高溫、高壓下在液相中利用空氣或者氧氣作為氧化劑,將廢水中的有機(jī)物氧化成二氧化碳和水,從而達(dá)到去除污染物的目的。國(guó)內(nèi)從80年代開(kāi)始進(jìn)行濕式空氣氧化法的研究,先后進(jìn)行了造紙黑液、含硫廢水、酚水及煤制氣廢水、農(nóng)藥廢水、印染廢水等的實(shí)驗(yàn)研究,目前,濕式空氣氧化法在國(guó)內(nèi)尚處于試驗(yàn)階段。與常規(guī)方法相比,濕式空氣氧化法具有適用范圍廣、處理效率高等優(yōu)點(diǎn)。但由于濕式空氣氧化法一般要求在高溫高壓的條件下進(jìn)行,對(duì)設(shè)備材料的要求較高,須耐高溫、高壓并耐腐蝕,因此設(shè)備費(fèi)用高,系統(tǒng)的一次性投資大,在實(shí)際推廣應(yīng)用方面仍存在著一定的局限性。

      2.3.3超臨界水氧化法

      在處理難降解有機(jī)廢水方面,超臨界水氧化技術(shù)是目前研究較為活躍的新技術(shù)。由于超臨界水氣液 相界面消失.成為一均相體系,因而超臨界水中的有機(jī)物反應(yīng)速度極快。Model等[14]對(duì)有機(jī)炭含量達(dá) 27.33 g/L的廢水進(jìn)行超臨界水氧化處理,在實(shí)驗(yàn)條件下,1分鐘內(nèi)就使有機(jī)氯和有機(jī)炭的去除率分別達(dá)到99.99%和99.97%。超臨界水氧化技術(shù)具有良好的工業(yè)應(yīng)用前景,但是由于對(duì)反應(yīng)條件要求較為苛刻(高溫、高壓),對(duì)設(shè)備要求偏高,因此還有一些實(shí)際的技術(shù)問(wèn)題需要解決。造紙廢水治理技術(shù)展望

      隨著全球可持續(xù)發(fā)展戰(zhàn)略的實(shí)施,循環(huán)經(jīng)濟(jì)和 清潔生產(chǎn)技術(shù)越來(lái)越受到人們的關(guān)注,造紙工業(yè)廢水治理從末端治理向清潔生產(chǎn)工藝、物質(zhì)循環(huán)利用、廢水回用綜合防治方向發(fā)展。未來(lái)造紙工業(yè)廢水治理將突出以下幾個(gè)方面:

      (1)貫徹循環(huán)經(jīng)濟(jì)理念、重視清潔生產(chǎn)技術(shù)的開(kāi)發(fā)與應(yīng)用,提高物質(zhì)的轉(zhuǎn)化率和循環(huán)使用率,從源頭上削減各污染物的產(chǎn)生量并在廠內(nèi)將大量廢水循環(huán)回用,實(shí)現(xiàn)封閉循環(huán),結(jié)合廢水綜合治理,最終實(shí)現(xiàn)廢水零排放。

      (2)綜合目前國(guó)內(nèi)外技術(shù)發(fā)展情況,應(yīng)重視開(kāi)發(fā)和引進(jìn)先進(jìn)的治理技術(shù):重視黑液 處理技術(shù)(主要為堿 回收 技術(shù))、重 視 SS、BOD、COD 的去除技術(shù)及脫色技術(shù)。

      (3)應(yīng)重視 生物處理方法在造紙工業(yè)廢水處理中的應(yīng)用,生物技術(shù)具有成本低、效益高、與其他方法組合可大大提高造紙廢水的處理率,隨著分子生物學(xué)技術(shù)、物種微生物技術(shù)的發(fā)展和應(yīng)用,具有高效、耐毒性的菌種不斷培育成功,為生物技術(shù)的廣泛應(yīng)用提供了前提條件。

      (4)人工濕地處理系統(tǒng)作為一種成本低廉、節(jié)能降耗、簡(jiǎn)單易行、效果顯著、無(wú)二次污染的廢水處理技術(shù),是造紙廢水處理的新方法[15]。

      (5)廢紙?jiān)旒埰髽I(yè)均存在諸多設(shè)計(jì)、建造、管理問(wèn)題,阻礙廢水回用現(xiàn)狀的進(jìn)一步改善。節(jié)水空間仍然很大。生產(chǎn)過(guò)程中,應(yīng)加強(qiáng)管理,培養(yǎng)員工節(jié)水意識(shí)。調(diào)動(dòng)員工積極性,根據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn),提出合理的回改進(jìn)措施[16]。

      參考文獻(xiàn)

      [1] 張 珂,陳仁銳。丁明秀,等.造紙工業(yè)污染防治技術(shù)與環(huán)境管理[M].北京:輕工業(yè)出版社,1988.14-15.

      [2] 謝 澄,陳中豪,疏明君,等.生物流化床~化學(xué)絮凝法處理紙漿漂白廢水[J].工業(yè)用水與廢

      水,2002,33(I):27-30.

      [3] 黃夏銀,馮彬.造紙廢水處理技術(shù)研究現(xiàn)狀及展望[J].污染防治技術(shù),2004,12:17(4):9-11.

      [4] 劉全校,安郁琴.臭氧 用于治理造紙廢水.紙和造紙,2000,7:44.

      [5] 張志軍,包志成,王克歐.二氧化鈦催化下的氯代二苯并一對(duì)一二啞英光解反應(yīng)[J].環(huán)境化學(xué),1996,15(1):47.

      [6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of

      C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.

      [9] 張學(xué)洪,解慶林,李金城,等,造紙廢水的混凝處理研究[J].桂林工學(xué)院學(xué)報(bào),2000,(4):

      189-191.

      [10] 黃國(guó)林,樂(lè)長(zhǎng)高,粱平.利用聚合物處理造紙廢水的研究[J,環(huán)境科學(xué)與技術(shù),1997,(1):

      24—26.[11] 范懋功.活性 污泥法處理造紙廢水….給水排水,1996,22(12):29—31.

      [12] 朱光燦,呂錫武,宋海亮,等,脫木素一缺氧一好氧生物膜工藝處理造紙廢水試驗(yàn)研究[J],給水排水,2004.30(1):56—59.

      [13] 景 峰,王耀新,宋文菊,試論電化學(xué)一凝聚法處理造紙廢水[J].黑龍江環(huán)境通報(bào),2000,24(2):

      81—82.

      [14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US

      Patent:4543(9).1 985.09.24.

      [15] 朱光燦,呂錫武,宋海亮,等,造紙廢水治理技術(shù)研究現(xiàn)狀及展望[J],污染防治技術(shù),2004.17(4):14.

      [16] 張金紅,廢紙?jiān)旒垙U水回用工藝現(xiàn)狀及改造實(shí)例[J],湖北造紙,2010.3:38.

      第三篇:信息檢索論文

      關(guān)于數(shù)字化學(xué)習(xí)資源利用的思考

      人資1W 學(xué)號(hào):10213103

      姓名:陳磊 班級(jí):10摘 要:隨著教育信息化工程的整體推進(jìn),要求數(shù)字化學(xué)習(xí)資源的建設(shè)也要同步地向前發(fā)展。正確認(rèn)識(shí)數(shù)字化學(xué)習(xí)資源建設(shè)的現(xiàn)狀,并提出正確有效的舉措與做法,對(duì)于數(shù)字化學(xué)習(xí)資源的建設(shè)具有重要的指導(dǎo)作用。

      關(guān) 鍵 詞:數(shù)字化學(xué)習(xí)資源、發(fā)展趨勢(shì)、應(yīng)用與開(kāi)發(fā)、質(zhì)量監(jiān)控

      一、關(guān)于數(shù)字化學(xué)習(xí)資源的內(nèi)容———要關(guān)注國(guó)際上教育思想的轉(zhuǎn)變

      1.1在考慮數(shù)字化學(xué)習(xí)資源建設(shè)的過(guò)程中,首先應(yīng)當(dāng)看到,從上世紀(jì)90年代末到本世紀(jì)初這幾年間,整個(gè)國(guó)際教育界的教育思想有一個(gè)大的轉(zhuǎn)變。[1] 由于在網(wǎng)絡(luò)環(huán)境下既有豐富的學(xué)習(xí)資源,又有很強(qiáng)的交互性,便于自主學(xué)習(xí)、自主探究,所以,隨著網(wǎng)絡(luò)的普及,在建構(gòu)主義理論的支持下,基于網(wǎng)絡(luò)的“以學(xué)生為中心”的教育思想在上世紀(jì)90年代初期、中期甚至到90年代末都一直很流行,而傳統(tǒng)的“以教師為中心”的教育思想則受到嚴(yán)厲的批判。與此同時(shí),在教學(xué)過(guò)程中教師必不可少的主導(dǎo)作用(如正確的啟發(fā)引導(dǎo)、重點(diǎn)與難點(diǎn)的分析把握、促進(jìn)新知與舊知之間的聯(lián)系等等)也被當(dāng)作糟粕扔掉了。

      與國(guó)際教育界上述教育思想觀念的轉(zhuǎn)變相適應(yīng),數(shù)字化學(xué)習(xí)資源建設(shè)的內(nèi)容也要相應(yīng)地實(shí)現(xiàn)由支持“以教為主”或“以學(xué)為主”,轉(zhuǎn)變?yōu)橹С帧皩W(xué)教并重”。1.2 支持“以教為主”的數(shù)字化學(xué)習(xí)資源,由于其主要關(guān)注點(diǎn)是輔助教師解決教學(xué)中的重點(diǎn)、難點(diǎn),提高教學(xué)效率,更好地向?qū)W生傳授知識(shí)(而對(duì)學(xué)生自主學(xué)習(xí)、自主探究等活動(dòng)則缺乏相應(yīng)的關(guān)注與支持),故其內(nèi)容強(qiáng)調(diào)要為一線教師的學(xué)科教學(xué)提供多媒體課件、CAI課件、典型課例、教學(xué)設(shè)計(jì)方案和各類(lèi)試題等資源;支持“以學(xué)為主”的數(shù)字化學(xué)習(xí)資源,由于其主要關(guān)注點(diǎn)是要促進(jìn)學(xué)者的自主學(xué)習(xí)、自主探究活動(dòng)和小組的協(xié)作學(xué)習(xí)、協(xié)作探究活動(dòng)(而對(duì)如何輔助教師的“教”,則缺乏相應(yīng)的關(guān)注與支持),故其內(nèi)容應(yīng)是能起認(rèn)知探究工具作用與協(xié)作交流工具作用的數(shù)字化學(xué)習(xí)資源。

      二、關(guān)于數(shù)字化學(xué)習(xí)資源的管理———要關(guān)注兩個(gè)新的發(fā)展趨勢(shì)

      關(guān)于數(shù)字化學(xué)習(xí)資源的管理,有兩個(gè)新的發(fā)展趨勢(shì)值得我們關(guān)注。

      2.1目前對(duì)數(shù)字化學(xué)習(xí)資源的管理,主要考慮的問(wèn)題是如何通過(guò)數(shù)據(jù)庫(kù)存儲(chǔ)方式對(duì)學(xué)習(xí)資源的數(shù)據(jù)內(nèi)容進(jìn)行有效的管理,但管理數(shù)字化學(xué)習(xí)資源的最終目的,是為了能在教學(xué)過(guò)程中充分地利用這些資源。所以,我們?cè)诮ㄔO(shè)數(shù)字化學(xué)習(xí)資源的過(guò)程中不僅應(yīng)當(dāng)關(guān)注學(xué)習(xí)資源的數(shù)據(jù)內(nèi)容管理,同時(shí)也應(yīng)當(dāng)關(guān)注(甚至更應(yīng)當(dāng)關(guān)注)學(xué)習(xí)資源應(yīng)用環(huán)境的支持與管理。

      學(xué)科群資源網(wǎng)站是以不同學(xué)科的數(shù)字化學(xué)習(xí)資源為核心,建設(shè)起一個(gè)集資源共建共享、在線課件開(kāi)發(fā)、聯(lián)機(jī)備課、學(xué)科信息發(fā)布、互動(dòng)交流等功能于一體的多學(xué)科、多層次的學(xué)科網(wǎng)站群,目的是使數(shù)字化學(xué)習(xí)資源的利用能更加符合教師和學(xué)生的思維方式與行為習(xí)慣。

      2.2目前,絕大部分省、市或地區(qū)的數(shù)字化學(xué)習(xí)資源都是分散存儲(chǔ)于該省、市的各個(gè)學(xué)?;蛟摰貐^(qū)的不同學(xué)習(xí)資源網(wǎng)站上,應(yīng)當(dāng)采用何種機(jī)制才能對(duì)分散存儲(chǔ)的資源進(jìn)行有效管理并進(jìn)行共建、共享,這是數(shù)字化學(xué)習(xí)資源建設(shè)關(guān)注的焦點(diǎn)之一。我們認(rèn)為,建立“區(qū)域內(nèi)分布式資源網(wǎng)絡(luò)管理系統(tǒng)”是有效解決大范圍數(shù)字化學(xué)習(xí)資源整合與共享問(wèn)題的較佳方案。建設(shè)區(qū)域內(nèi)分布式資源網(wǎng)絡(luò)管理系統(tǒng)的核心技術(shù)包括兩項(xiàng)內(nèi)容:

      2.2.1對(duì)資源目錄的集中管理

      本地區(qū)的學(xué)習(xí)資源中心(例如省電教館)要為廣大用戶(hù)提供一個(gè)能覆蓋本地區(qū)所有數(shù)字化學(xué)習(xí)資源網(wǎng)站的資源目錄管理系統(tǒng),以便本地區(qū)不同學(xué)習(xí)資源網(wǎng)站之間的互相訪問(wèn)與資源共享。而且,還要有專(zhuān)人對(duì)該資源目錄系統(tǒng)進(jìn)行經(jīng)常性維護(hù),從而達(dá)到本地區(qū)范圍內(nèi)各資源站點(diǎn)目錄的同步更新與統(tǒng)一管理。與此同時(shí),系統(tǒng)還應(yīng)提供專(zhuān)用的教學(xué)搜索引擎,以實(shí)現(xiàn)對(duì)不同資源站點(diǎn)上相關(guān)信息的快速查詢(xún)與檢索;當(dāng)用戶(hù)需要打開(kāi)某個(gè)資源時(shí),資源目錄管理系統(tǒng)應(yīng)提供重定向功能 2.2.2對(duì)資源數(shù)據(jù)的分布式存儲(chǔ)

      數(shù)字化學(xué)習(xí)資源網(wǎng)絡(luò)系統(tǒng)是由多個(gè)資源站點(diǎn)組成的,資源網(wǎng)內(nèi)每一個(gè)提供資源信息服務(wù)的站點(diǎn)都是資源網(wǎng)中的一個(gè)節(jié)點(diǎn)———用于存儲(chǔ)實(shí)際的物理資源,資源節(jié)點(diǎn)之間基于一定的信任授權(quán)關(guān)系進(jìn)行資源互訪,資源元數(shù)據(jù)信息與本地區(qū)學(xué)習(xí)資源中心目錄管理系統(tǒng)中的目錄信息保持同步,因此可以實(shí)現(xiàn)網(wǎng)絡(luò)系統(tǒng)內(nèi)數(shù)字化學(xué)習(xí)資源的分布式存儲(chǔ)和集中式管理,并在本地區(qū)范圍內(nèi)提供廣泛的基于共享的數(shù)字化學(xué)習(xí)資源服務(wù)。

      三、關(guān)于數(shù)字化學(xué)習(xí)資源的質(zhì)量監(jiān)控———評(píng)審機(jī)制的建立和實(shí)施

      3.1當(dāng)前數(shù)字化學(xué)習(xí)資源的建設(shè)呈無(wú)序狀態(tài),很多單位在組織資源建設(shè)時(shí),只注重?cái)?shù)量而忽視質(zhì)量。應(yīng)該通過(guò)建立有效的數(shù)字化學(xué)習(xí)資源評(píng)審機(jī)制,并提高評(píng)審結(jié)果的科學(xué)性和權(quán)威性來(lái)規(guī)范資源建設(shè)行為。與此同時(shí),還應(yīng)制定具有可操作性的數(shù)字化學(xué)習(xí)資源評(píng)價(jià)指標(biāo)體系,這種評(píng)價(jià)指標(biāo)的制定要突出數(shù)字化學(xué)習(xí)資源的教育特性和新課程標(biāo)準(zhǔn)對(duì)學(xué)習(xí)資源的要求,并要以素質(zhì)教育和創(chuàng)新教育為基本出發(fā)點(diǎn)。3.2 為了保證數(shù)字化學(xué)習(xí)資源評(píng)審的科學(xué)性與有效性,應(yīng)當(dāng)采用專(zhuān)家評(píng)審與群眾(用戶(hù))評(píng)價(jià)相結(jié)合的方式。

      專(zhuān)家評(píng)審應(yīng)建立包括幾方面專(zhuān)業(yè)人員的評(píng)審小組,通常應(yīng)該包括學(xué)科教學(xué)專(zhuān)家、教育技術(shù)專(zhuān)家、信息技術(shù)人員、統(tǒng)計(jì)人員(對(duì)資源評(píng)審結(jié)果進(jìn)行統(tǒng)計(jì))等。在整個(gè)評(píng)審過(guò)程中每個(gè)成員應(yīng)各司其職,把好相應(yīng)環(huán)節(jié)的質(zhì)量關(guān)。

      群眾(用戶(hù))評(píng)價(jià)從時(shí)間上看,分為使用前評(píng)價(jià)和使用后評(píng)價(jià)兩種。使用前評(píng)價(jià)是根據(jù)事先制定的數(shù)字化學(xué)習(xí)資源評(píng)價(jià)指標(biāo)體系,為不同用戶(hù)編寫(xiě)不同的問(wèn)卷來(lái)獲取評(píng)價(jià)信息及相應(yīng)的得分———使用前的評(píng)價(jià)得分。使用后評(píng)價(jià)則主要依據(jù)公開(kāi)發(fā)布該資源后被引用情況的統(tǒng)計(jì)信息(如被點(diǎn)擊次數(shù)、被下載次數(shù)、被引用次數(shù)等)以及用戶(hù)使用該資源后在網(wǎng)上的評(píng)論信息,把二者結(jié)合起來(lái)(即把被引用情況的統(tǒng)計(jì)信息和網(wǎng)上的評(píng)論信息結(jié)合起來(lái))進(jìn)行綜合評(píng)價(jià),才能得出相應(yīng)的得分———使用后的評(píng)價(jià)得分。再對(duì)使用前評(píng)價(jià)和使用后評(píng)價(jià)所產(chǎn)生的兩種得分作加權(quán)統(tǒng)計(jì)———由此即可得出群眾(用戶(hù))評(píng)價(jià)的總得分。

      最后,將專(zhuān)家評(píng)審的結(jié)果與群眾(用戶(hù))評(píng)價(jià)的總得分二者結(jié)合起來(lái),這才是能夠保證數(shù)字化學(xué)習(xí)資源評(píng)審科學(xué)性與有效性的最終結(jié)果,并可以此作為確定該數(shù)字化學(xué)習(xí)資源評(píng)價(jià)等級(jí)以及收費(fèi)標(biāo)準(zhǔn)的主要依據(jù)。

      【參考文獻(xiàn)】

      [1]何克抗,從Blending Learning看教育技術(shù)理論的新發(fā)展[J].電化教育研究,2004,(3):1~6.2

      第四篇:信息檢索論文

      居民用電遠(yuǎn)程抄表系統(tǒng)

      長(zhǎng)期以來(lái),供電企業(yè)電能數(shù)據(jù)的抄算都是基于電能表的手工作業(yè)方式,即每月定期派人到各用戶(hù)那里抄錄電能表的用電數(shù)據(jù)作為電費(fèi)計(jì)算和收繳的依據(jù)。隨著電力負(fù)荷的急劇增長(zhǎng),一戶(hù)一表和直供到戶(hù)等營(yíng)銷(xiāo)舉措的不斷深入,用電企業(yè)紛紛將家屬宿舍的用電治理業(yè)務(wù)交還供電企業(yè),致使供電企業(yè)的電量抄錄的工作量急劇膨脹。白銀供電公司在城網(wǎng)農(nóng)網(wǎng)改造結(jié)束后,僅市區(qū)居民直供用戶(hù)將達(dá)到9萬(wàn)戶(hù),就地分散的手工抄表根本無(wú)法適應(yīng)用電治理的需要。因此,遠(yuǎn)程抄表系統(tǒng)的技術(shù)研究和產(chǎn)品開(kāi)發(fā)勢(shì)在必行。

      1遠(yuǎn)程自動(dòng)抄表系統(tǒng)的現(xiàn)狀及其特點(diǎn)

      一般情況下,一個(gè)家屬樓單元有14~18塊低壓電能表,單元子區(qū)數(shù)據(jù)采集器負(fù)責(zé)采集其下屬的電能表電量數(shù)據(jù),配變集中器則負(fù)責(zé)收集配電變壓器下面的所有單元子區(qū)采集器的數(shù)據(jù)。從數(shù)據(jù)傳輸?shù)慕嵌瓤?,其組網(wǎng)方式有:兩級(jí)純專(zhuān)線組網(wǎng)方式、兩級(jí)混合組網(wǎng)方式、兩級(jí)載波組網(wǎng)方式。

      從組網(wǎng)拓?fù)涞慕嵌戎v,只要在用戶(hù)電能表、單元子區(qū)采集器、配變集中器采用專(zhuān)用信道通信,遠(yuǎn)程自動(dòng)抄表系統(tǒng)的纜線工程量就非常大,有線專(zhuān)用信道的維護(hù)也有一定困難。鑒于這種情況,各科研單位和廠商都在努力做到取消單元子區(qū)采集器,實(shí)現(xiàn)用戶(hù)電能表與配變集中器的直接低壓電力線載波通信,這樣就大大減少了纜線工程量,而且數(shù)據(jù)遠(yuǎn)程傳輸?shù)慕M網(wǎng)拓?fù)渑c低壓配電網(wǎng)保持一致,有利于系統(tǒng)的運(yùn)行維護(hù)和用戶(hù)數(shù)量的模數(shù)化擴(kuò)展。這種拓?fù)湟笠粋€(gè)用戶(hù)終端,不但要實(shí)現(xiàn)電能計(jì)量,還要實(shí)現(xiàn)數(shù)據(jù)信息的編碼、解碼、載波收發(fā)等功能。可以構(gòu)成完全基于低壓電力線信道的載波電能表 配變集中器 營(yíng)業(yè)站主機(jī)的組網(wǎng)拓?fù)?。?shí)踐證實(shí):目前市場(chǎng)上已經(jīng)開(kāi)發(fā)出來(lái)的窄帶調(diào)制的低壓載波表和配變集中器很難保證電量或控制數(shù)據(jù)的可靠傳輸。主要原因是低壓電力線載波信道的特性隨機(jī)性、時(shí)變性很大,非常地不穩(wěn)定。因此,低壓電力線載波技術(shù)是直接通過(guò)電力線組網(wǎng)的遠(yuǎn)程抄表系統(tǒng)進(jìn)一步推廣應(yīng)用的瓶頸。

      2試點(diǎn)居民小區(qū)遠(yuǎn)程抄表系統(tǒng)方案

      在為試點(diǎn)居民小區(qū)遠(yuǎn)程抄表系統(tǒng)做的總體技術(shù)方案設(shè)計(jì)時(shí),本文遵循三條基本原則:

      (1)在試點(diǎn)小區(qū)的配電變壓器和小區(qū)住戶(hù)之間不敷設(shè)任何專(zhuān)用有線信道,數(shù)據(jù)的上行或下行傳送必須使用現(xiàn)成的低壓電力線作為數(shù)據(jù)媒介。

      (2)只在配電變壓器和住戶(hù)地點(diǎn)對(duì)應(yīng)安裝數(shù)據(jù)的收發(fā)裝置,建立起各用戶(hù)電能表終端與配變集中器的直接數(shù)據(jù)鏈路,中間不安裝任何硬件上的中繼或第二級(jí)集中轉(zhuǎn)發(fā)裝置。

      (3)用戶(hù)電能表終端除了記錄電量外,它還應(yīng)該執(zhí)行就地保護(hù)和遠(yuǎn)方監(jiān)控功能。

      2.1系統(tǒng)組成結(jié)構(gòu)

      系統(tǒng)由營(yíng)業(yè)站用電治理主機(jī)、配電變壓器集中器、接在配電變壓器低壓電力線上的多個(gè)用戶(hù)電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。配電變壓器集中器和用戶(hù)電能表終端分別與配電變壓器、用戶(hù)一一對(duì)應(yīng)并就地分布式安裝。用電治理信息只能在系統(tǒng)的上下級(jí)之間傳輸。其中用電治理主機(jī)到配電變壓器集中器的信息傳輸媒介采用擴(kuò)頻無(wú)線信道或公共電話(huà)網(wǎng)(第一級(jí)信道),配電變壓器集中器到用戶(hù)電能表終端的信息傳輸媒介利用低壓電力線載波信道(第二級(jí)信道)。顯然,整個(gè)系統(tǒng)與配電變壓器下面的電壓電力網(wǎng)一樣呈樹(shù)形分布結(jié)構(gòu),可隨用戶(hù)發(fā)展和負(fù)荷增長(zhǎng)任意擴(kuò)展。

      本系統(tǒng)的任務(wù)在于實(shí)現(xiàn)低壓用戶(hù)電量數(shù)據(jù)的遠(yuǎn)程傳輸和抄算,對(duì)低壓電力用戶(hù)的負(fù)荷和用電進(jìn)行遠(yuǎn)程監(jiān)控。

      由于使用了分布式安裝結(jié)構(gòu),在系統(tǒng)建設(shè)上與集中抄表箱用電系統(tǒng)相比,無(wú)須龐大繁瑣的纜線工程,施工難度將會(huì)大幅下降。系統(tǒng)的擴(kuò)展將隨用戶(hù)或配變數(shù)量的遞增而模數(shù)化擴(kuò)展,就象增加一個(gè)用戶(hù)增加一塊電能表那樣簡(jiǎn)單。因此,系統(tǒng)擴(kuò)展極具伸縮性,不會(huì)象集中式系統(tǒng)那樣新建時(shí)資源閑置,用戶(hù)發(fā)展時(shí)容量又不夠。應(yīng)該說(shuō),這個(gè)系統(tǒng)比較符合營(yíng)業(yè)用電治理系統(tǒng)發(fā)展的主流方向。

      2.2網(wǎng)絡(luò)通信協(xié)議的選擇與研究

      在計(jì)算機(jī)網(wǎng)絡(luò)中,信道共享技術(shù)已經(jīng)比較成熟。一般可分為兩類(lèi),即受控接入和隨機(jī)接入。

      隨機(jī)接入共享信道的特點(diǎn)是所有用戶(hù)都可以根據(jù)自己的意愿隨機(jī)地發(fā)送信息。實(shí)際上就是爭(zhēng)用接入,征用勝利者才能獲得總線,從而發(fā)送自己的信息。典型的隨機(jī)接入是載體偵聽(tīng)多重訪問(wèn)/沖突檢測(cè)(CSMA/CD)網(wǎng)絡(luò),其為總線型結(jié)構(gòu),如圖2所示。后文重點(diǎn)介紹的基于CEbus的擴(kuò)頻載波線性?huà)哳l信號(hào)(Chirp)由于具有自相關(guān)性,所以適用于CSMA網(wǎng)絡(luò)。結(jié)合電力線的傳輸特性,綜合比較各種網(wǎng)絡(luò),在本文所要開(kāi)發(fā)的遠(yuǎn)抄系統(tǒng)中選用CSMA協(xié)議應(yīng)該是比較合適的。CSMA協(xié)議網(wǎng)絡(luò)的缺點(diǎn),如時(shí)延不確定、重載時(shí)效率下降,對(duì)數(shù)據(jù)傳輸量較小的遠(yuǎn)程抄表系統(tǒng)來(lái)講,并不是值得考慮的問(wèn)題。

      2.3用戶(hù)電能表終端的總體設(shè)計(jì)

      用戶(hù)電能表終端由AC/DC開(kāi)關(guān)電源模塊、電量傳感器模塊、故障保護(hù)模塊、計(jì)量模塊、負(fù)荷控制模塊、LED顯示模塊、MCU系統(tǒng)模塊、低壓擴(kuò)頻載波通信模塊構(gòu)成。

      多輸出開(kāi)關(guān)電源負(fù)責(zé)為用戶(hù)電能表終端供電,它輸出DC 5V0.5A和DC±15V0.5A電源各一組,其交流輸入的設(shè)計(jì)范圍為AC220V±20。為了降低電源模塊的體積,采用TOP2XX脈寬調(diào)制功率開(kāi)關(guān)為核心器件,構(gòu)成單端反激式電路。

      故障保護(hù)模塊負(fù)責(zé)監(jiān)視低壓用戶(hù)的負(fù)荷電器的運(yùn)行情況,當(dāng)發(fā)生短路、過(guò)流、漏電或電網(wǎng)電壓超標(biāo)時(shí),向MCU系統(tǒng)模塊發(fā)出信號(hào)請(qǐng)求執(zhí)行斷電控制程序。

      計(jì)量模塊負(fù)責(zé)把用戶(hù)的用電功率轉(zhuǎn)化為頻率正比于功率大小的脈沖串,提供給MCU系統(tǒng)模塊進(jìn)行電量計(jì)算。即使用戶(hù)實(shí)施了竊電行為,它仍然可以輸出正確的電量計(jì)算脈沖串,并向MCU系統(tǒng)發(fā)出竊電信號(hào)。

      負(fù)荷控制模塊是一個(gè)受MCU系統(tǒng)輸出的TTL電平控制的大功率交流無(wú)觸點(diǎn)開(kāi)關(guān),能夠過(guò)零關(guān)斷或開(kāi)啟6kW的負(fù)荷功率。

      MCU系統(tǒng)由AT89C528位單片機(jī)、X5045看門(mén)狗芯片和DS1302時(shí)鐘日歷芯片構(gòu)成。它是用戶(hù)電能表終端的計(jì)算監(jiān)控中心,主要負(fù)責(zé)對(duì)電量脈沖串進(jìn)行計(jì)算或處理,執(zhí)行就地或遠(yuǎn)方的負(fù)荷控制程序,與低壓擴(kuò)頻載波通信模塊進(jìn)行數(shù)據(jù)交換并控制其收發(fā)信。

      顯示模塊由一個(gè)8位LED及其動(dòng)態(tài)掃描控制芯片構(gòu)成,主要完成電量數(shù)據(jù)的舊的查詢(xún)顯示,便于用戶(hù)了解自己的電量或電費(fèi)情況。

      低壓擴(kuò)頻載波模塊主要由SSCP200低壓電力線擴(kuò)頻載波網(wǎng)絡(luò)控制器、前置功放和電力線耦合電路構(gòu)成,負(fù)責(zé)對(duì)MCU系統(tǒng)送來(lái)的數(shù)據(jù)進(jìn)行線性?huà)哳l調(diào)制,放大后耦合到電力線上,對(duì)通過(guò)電力線送來(lái)的載波信號(hào)進(jìn)行掃頻解調(diào)后送給MCU系統(tǒng)。這種數(shù)據(jù)通信采用了收發(fā)分時(shí)控制的半雙工通信。該模塊與配變集中器的設(shè)計(jì)通信距離為1000m。在信道特性最?lèi)毫拥那闆r下,也要保證不小于600m。

      2.4配電變壓器集中器的總體設(shè)計(jì)

      配變集中器主要由三個(gè)分相耦合的低壓擴(kuò)頻通信模塊、三個(gè)按相配置的電能表模塊、MCU單片機(jī)系統(tǒng)、3個(gè)雙口RAM和一個(gè)工控機(jī)系統(tǒng)及電話(huà)線調(diào)制解調(diào)器構(gòu)成。

      低壓擴(kuò)頻載波通信模塊分相配置,是為了杜絕跨相耦合載波信號(hào),電能表和MCU電路按相配置是為了使集中器能夠并行處理各相的用戶(hù)終端數(shù)據(jù),增加數(shù)據(jù)傳輸和處理速度。以上電路基本上與用戶(hù)終端類(lèi)似,只是不具備故障保護(hù)、竊電偵測(cè)和負(fù)荷控制電路而已。

      在配變集中器內(nèi)設(shè)置電能表模塊便于對(duì)每一相的總電量進(jìn)行計(jì)量和統(tǒng)計(jì)分析,以作為用電治理部門(mén)考核線損和平衡3相負(fù)荷的依據(jù)。

      工控機(jī)完成與每一相的MCU系統(tǒng)交換數(shù)據(jù),并通過(guò)Modem和公用電話(huà)網(wǎng)與營(yíng)業(yè)站抄算主機(jī)交換數(shù)據(jù)信號(hào)。上行和下行數(shù)據(jù)要經(jīng)過(guò)工控機(jī)的處理,并在不需要數(shù)據(jù)通信的時(shí)候儲(chǔ)存在工控機(jī)的磁盤(pán)中。鑒于數(shù)據(jù)處理量不是很大,選用486工控機(jī)就能滿(mǎn)足要求。

      2.5營(yíng)業(yè)站抄算主站的總體設(shè)計(jì)

      營(yíng)業(yè)站抄算主機(jī)主要由PC機(jī)、電話(huà)線Modem及其軟件構(gòu)成。主要負(fù)責(zé)營(yíng)業(yè)站到配電變壓器集中器之間的數(shù)據(jù)指令的調(diào)制發(fā)送、解調(diào)接受及綜合分析處理。另外,電話(huà)線Modem還可以將營(yíng)業(yè)站用電治理主機(jī)與電費(fèi)托收銀行聯(lián)機(jī)。

      PC微機(jī)主要完成用戶(hù)用電數(shù)據(jù)的采集,送電能表參數(shù)、用電信息、欠費(fèi)警告及斷電控制,不安全和違章用電監(jiān)視報(bào)警,用戶(hù)用電治理及查詢(xún),報(bào)表輸出等功能。

      其中,用電采集程序可以進(jìn)行定時(shí)統(tǒng)抄、不定時(shí)統(tǒng)抄及單用戶(hù)隨時(shí)查抄;用電量可按地址統(tǒng)計(jì),也可按相位統(tǒng)計(jì),以便合理地調(diào)整配電變壓器A、B、C三相負(fù)載的配置,使供電系統(tǒng)的性能發(fā)揮得更好;在電費(fèi)結(jié)算時(shí),可通過(guò)分時(shí)計(jì)費(fèi),合理定價(jià),使負(fù)載基本恒定;電表參數(shù)、用電信息可送到用戶(hù)終端,從而非常方便地修改電能表參數(shù),顯示用戶(hù)的用電量及結(jié)算電費(fèi);欠費(fèi)警告及斷電控制功能可督促用戶(hù)按時(shí)交費(fèi);不安全和違章用電監(jiān)視報(bào)警功能可使用電監(jiān)察人員迅速準(zhǔn)確地維護(hù)用電秩序;日?qǐng)?bào)表、月報(bào)表、年報(bào)表的形成和輸出方便而快捷。

      3結(jié)論與展望

      3.1研究結(jié)論

      我們?cè)趲追N不同的環(huán)境下對(duì)用戶(hù)電能表終端和配變集中器進(jìn)行了測(cè)試,取得了比較滿(mǎn)足的結(jié)果。依照CEBus標(biāo)準(zhǔn)編制的程序,在傳輸過(guò)程中,沒(méi)有發(fā)現(xiàn)誤碼的存在。不同的測(cè)試環(huán)境下,干擾強(qiáng)度與信道輸入阻抗的波動(dòng)范圍是影響擴(kuò)頻載波可靠通信距離的兩個(gè)主要因素,數(shù)據(jù)通信成功的平均幀延遲時(shí)間與平均通信距離的關(guān)系較大。

      戶(hù)表采集器的性能指標(biāo)如下:

      ·載波通信距離:架空網(wǎng)或電纜電網(wǎng)均可達(dá)1000m;

      ·抄表成功率:可達(dá)99.7;

      ·抄表正確率:100;

      ·讀數(shù)準(zhǔn)確度:計(jì)數(shù)精度達(dá)到小數(shù)點(diǎn)后兩位,用戶(hù)電能表讀數(shù)與標(biāo)準(zhǔn)電能表的誤差不大于1個(gè)字(即0.5kWh);

      ·時(shí)鐘誤差:天天小于 1s;

      ·用戶(hù)電能表功耗:待機(jī)時(shí)≤200mW,發(fā)送數(shù)據(jù)時(shí)≤700mW,發(fā)送時(shí)間≤25ms,接收靈敏度≤2mW;

      ·采用工業(yè)級(jí)芯片,環(huán)境溫度:-20~ 85℃;

      ·工作電壓:AC165~260V;

      ·掉電保護(hù):電源斷電情況下,數(shù)據(jù)可保存10年;

      3.2總結(jié)與展望

      電能直供到戶(hù)是供電企業(yè)最重要的營(yíng)銷(xiāo)舉措,這使得電能營(yíng)銷(xiāo)部門(mén)的電能抄算業(yè)務(wù)量成倍增長(zhǎng)。采用新的遠(yuǎn)程抄表技術(shù)來(lái)改善用電治理和電能營(yíng)銷(xiāo)的裝備水平、優(yōu)化電能市場(chǎng)服務(wù)的技術(shù)手段是供電企業(yè)最緊迫的需求。

      我國(guó)的低壓電能供給都是以配電變壓器為一個(gè)臺(tái)區(qū)單元,在配電變壓器和用戶(hù)之間不使用任何獨(dú)立的中繼通信設(shè)備或?qū)S眯诺?,直接利用低壓電力線構(gòu)成與低壓電網(wǎng)系統(tǒng)結(jié)構(gòu)相對(duì)應(yīng)的用戶(hù)電能表終端+配變集中器+營(yíng)業(yè)站電能抄算主機(jī)組網(wǎng)的遠(yuǎn)程抄表系統(tǒng),我們認(rèn)為這符合低壓遠(yuǎn)抄系統(tǒng)的主流發(fā)展方向,因而具有推廣應(yīng)用前景。

      具有低壓擴(kuò)頻載波數(shù)據(jù)遠(yuǎn)傳功能的用戶(hù)電能表終端和配變集中器是構(gòu)成本文所提出的遠(yuǎn)程抄表方案的核心裝置。最終的技術(shù)目的的實(shí)現(xiàn)必須建立在成功地開(kāi)發(fā)用戶(hù)電表終端和配變集中器的基礎(chǔ)之上,還要做營(yíng)業(yè)站抄算主機(jī)的軟件編制和數(shù)據(jù)庫(kù)編制。顯然本文所做的工作還離這一目標(biāo)有相當(dāng)長(zhǎng)的一段距離。本文只是對(duì)用戶(hù)電能表終端及其擴(kuò)頻載波通信模塊作了實(shí)用化開(kāi)發(fā)設(shè)計(jì)和樣機(jī)試制,并且通過(guò)樣機(jī)的現(xiàn)場(chǎng)測(cè)試。配變集中器、軟件只作了一個(gè)方案性的設(shè)計(jì)。

      本文所取得的另一個(gè)成果就是,把用戶(hù)電能表終端設(shè)計(jì)成一個(gè)智能化的綜合性終端,除了完成電能的記錄和計(jì)量外,它還具有用戶(hù)現(xiàn)場(chǎng)防竊電、防誤接線、故障保護(hù)、遠(yuǎn)方停送電、遠(yuǎn)方修改電能表參數(shù)和負(fù)荷控制功能,這些技術(shù)手段對(duì)提高供電企業(yè)的用電治理水平無(wú)疑具有積極的意義。

      參考文獻(xiàn)

      [1]邵源,鐘炬,等.關(guān)于低壓用戶(hù)集中抄表系統(tǒng)綜述.電力系統(tǒng)自動(dòng)化,1999(9).[2]徐平平,邱玉春.電力集中抄表中的通信技術(shù).電力系統(tǒng)通信,1999(4).[3]楊士中.靜電無(wú)繩廣播方法.[4]周世煒,張紹卿,洪文學(xué).一種基于電力配電網(wǎng)絡(luò)的雙向工頻通信技術(shù).電子技術(shù),1999(8).[5]邱玉春.利用電力線組網(wǎng)的監(jiān)控網(wǎng)絡(luò)協(xié)議選擇.現(xiàn)代通信,2000(1).[6]邱玉春,徐平平.低壓電力線載波通信特性分析.電力系統(tǒng)通信,1998:6(48).

      第五篇:信息檢索論文

      論搜索引擎中文自動(dòng)分詞技術(shù)

      【摘要】

      搜索引擎是應(yīng)用在web上的軟件系統(tǒng),它以一定的策略搜集和發(fā)現(xiàn)信息,再對(duì)信息進(jìn)行處理和組織后為用戶(hù)提供web信息查詢(xún)服務(wù)。搜索引擎分三個(gè)大模塊:網(wǎng)頁(yè)搜集,預(yù)處理和查詢(xún)服務(wù)。其中對(duì)搜索信息的預(yù)處理階段的關(guān)鍵技術(shù)是中文分詞和建立倒排文件,本文主要論述搜索引擎工作過(guò)程中的中文自動(dòng)分詞技術(shù)。

      【關(guān)鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】

      信息的飛速增長(zhǎng),使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話(huà)題。目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語(yǔ)言自身的書(shū)寫(xiě)方式不同,這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞。

      一、為什么要進(jìn)行分詞?

      漢語(yǔ)是世界上最古老和最豐富的語(yǔ)言之一,但是漢語(yǔ)語(yǔ)法才有將近一百年的歷史,而且現(xiàn)代漢語(yǔ)白話(huà)文的形成歷史也比較短,加上漢語(yǔ)自身的特點(diǎn),因此它的形式化研究更加困難。對(duì)英文而言,是以詞為單位,詞與詞之間有空格隔開(kāi),而中文是以字為單位,多個(gè)字連在一起才能構(gòu)成一個(gè)表達(dá)具體含義的詞,詞與詞之間沒(méi)有分割,因此,對(duì)于支持自然語(yǔ)言檢索的工具,從語(yǔ)句中劃分出具有獨(dú)立意義的詞的過(guò)程即進(jìn)行中文分詞必不可少。

      二、什么是中文分詞?

      中文分詞技術(shù)就是搜索引擎針對(duì)用戶(hù)提交查詢(xún)的關(guān)鍵串進(jìn)行的查詢(xún)處理后,根據(jù)用戶(hù)的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話(huà),人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。例如,英文句子I am a student,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱(chēng)為切詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是 一個(gè) 學(xué)生。

      三、中文分詞與搜索引擎

      分詞技術(shù)使用在搜索引擎網(wǎng)頁(yè)預(yù)處理階段。搜索引擎網(wǎng)頁(yè)預(yù)處理第一步是為原始網(wǎng)頁(yè)建立索引,形成索引網(wǎng)頁(yè)庫(kù);第二步是對(duì)網(wǎng)頁(yè)進(jìn)行切分,也就是分詞,將每一篇網(wǎng)頁(yè)轉(zhuǎn)化為一組次的集合;最后將網(wǎng)頁(yè)索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁(yè)的映射,形成倒排文件。

      中文分詞到底對(duì)搜索引擎有多大影響?對(duì)于搜索引擎來(lái)說(shuō),最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁(yè)中找到所有結(jié)果沒(méi)有太多的意義,沒(méi)有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱(chēng)為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。而且中文分詞的準(zhǔn)確度,對(duì)搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。

      四、中文分詞技術(shù)的分類(lèi)

      我們討論的分詞算法可分為三大類(lèi):基于字典、詞庫(kù)匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。(一)基于字典、詞庫(kù)匹配的分詞方法

      這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。

      常用的幾種機(jī)械分詞方法如下:

      (1)最大正向匹配法(MaximumMatching Method)通常簡(jiǎn)稱(chēng)為MM法

      其基本思想為:假定分詞詞典中的最長(zhǎng)詞有i個(gè)漢字字符,則用被處理文檔的當(dāng)前字串中的前i個(gè)字作為匹配字段,查找字典。若字典中存在這樣的一個(gè)i字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來(lái)。如果詞典中找不到這樣的一個(gè)i字詞,則匹配失敗,將匹配字段中的最后一個(gè)字去掉,對(duì)剩下的字串重新進(jìn)行匹配處理…… 如此進(jìn)行下去,直到匹配成功,即切分出一個(gè)詞或剩余字串的長(zhǎng)度為零為止。這樣就完成了一輪匹配,然后取下一個(gè)i字字串進(jìn)行匹配處理,直到文檔被掃描完為止。

      (2)逆向最大匹配法(Recerse MaximumMatching Method))通常簡(jiǎn)稱(chēng)為RMM法

      RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開(kāi)始匹配掃描,每次取最末端的2i個(gè)字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個(gè)字,繼續(xù)匹配。相應(yīng)地,它使用的分詞詞典是逆序詞典,其中的每個(gè)詞條都將按逆序方式存放。在實(shí)際處理時(shí),先將文檔進(jìn)行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對(duì)逆序文檔用正向最大匹配法處理即可。

      由于漢語(yǔ)中偏正結(jié)構(gòu)較多,若從后向前匹配,可以適當(dāng)提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統(tǒng)計(jì)結(jié)果表明 ,單純使用正向最大匹配的錯(cuò)誤率為 1/16 9,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。例如切分字段“碩士研究生產(chǎn)”,正向最大匹配法的結(jié)果會(huì)是“碩士研究生 / 產(chǎn)”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結(jié)果“碩士 / 研究 / 生產(chǎn)”。

      (3)最少切分法:使每一句中切出的詞數(shù)最小。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿(mǎn)足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。

      一種方法是改進(jìn)掃描方式,稱(chēng)為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類(lèi)標(biāo)注結(jié)合起來(lái),利用豐富的詞類(lèi)信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。

      (二)全切分和基于詞的頻度統(tǒng)計(jì)的分詞方法

      基于詞的頻度統(tǒng)計(jì)的分詞方法是一種全切分方法。在討論這個(gè)方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。(1)全切分

      全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎(chǔ)上的分詞方法不管采取何種歧義糾正策略,都可能會(huì)遺漏正確的切分,造成分詞錯(cuò)誤或失敗。而建立在全切分基礎(chǔ)上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。

      全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒(méi)有在文本處理中廣泛地采用。(2)基于詞的頻度統(tǒng)計(jì)的分詞方法:

      這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),次數(shù)越高的就可能是一個(gè)詞。它首先切分出與詞表匹配的所有可能的詞,運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來(lái)。

      (三)基于知識(shí)理解的分詞方法

      該方法主要基于句法、語(yǔ)法分析,并結(jié)合語(yǔ)義分析,通過(guò)對(duì)上下文內(nèi)容所提供信息的分析對(duì)詞進(jìn)行定界,它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷。這類(lèi)方法試圖讓機(jī)器具有人類(lèi)的理解能力,需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式。因此目前基于知識(shí)的分詞系統(tǒng)還處在試驗(yàn)階段。

      (四)一種新的分詞方法

      并行分詞方法:這種分詞方法借助于一個(gè)含有分詞詞庫(kù)的管道進(jìn)行 ,比較匹配過(guò)程是分步進(jìn)行的 ,每一步可以對(duì)進(jìn)入管道中的詞同時(shí)與詞庫(kù)中相應(yīng)的詞進(jìn)行比較 ,由于同時(shí)有多個(gè)詞進(jìn)行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級(jí)內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。

      到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來(lái)去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來(lái)處理不同的問(wèn)題。

      五、分詞中的難題

      有了成熟的分詞算法,是否就能容易的解決中文分詞的問(wèn)題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語(yǔ)言,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。在中文分詞過(guò)程中,有兩大難題一直沒(méi)有完全突破。

      (一)切分歧義

      就人對(duì)漢語(yǔ)的理解而言,漢語(yǔ)的分詞是一個(gè)理解的過(guò)程,這個(gè)過(guò)程綜合了詞法、語(yǔ)法、語(yǔ)義等各種信息。因此,一個(gè)理想的分詞系統(tǒng)也應(yīng)綜合運(yùn)用這些信息,而在計(jì)算機(jī)處理中這些信息的提取又是以分詞為前提的。所以,分詞與這些信息的運(yùn)用是既相聯(lián)系又相制約的一種相輔相成的關(guān)系,而純粹的機(jī)械切分必然會(huì)帶來(lái)切分歧義。

      歧義是指同樣的一句話(huà),可能有兩種或者更多的切分方法。例如:學(xué)歷史知識(shí),因?yàn)椤皩W(xué)歷”和“歷史”都是詞,那么這個(gè)短語(yǔ)就可以分成“學(xué)歷”和“歷史”。這種稱(chēng)為交叉歧義。像這種交叉歧義十分常見(jiàn)由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。

      交叉歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來(lái)判斷了。例如,在句子“這個(gè)門(mén)把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開(kāi)”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話(huà),在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話(huà),由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣(mài)完了”,可以切分成“乒乓 球拍 賣(mài) 完 了”、也可切分成“乒乓球 拍賣(mài) 完 了”,如果沒(méi)有上下文其他的句子,恐怕誰(shuí)也不知道“拍賣(mài)”在這里算不算一個(gè)詞。

      (二)新詞

      專(zhuān)業(yè)術(shù)語(yǔ)稱(chēng)為未登錄詞。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱(chēng)為詞的那些詞。最典型的是人名,人可以很容易理解句子“張三虎是山東人”中,“張三虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“張三虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問(wèn)題,例如:在句子“張三虎頭虎腦的”中,“張三虎”還能不能算詞?

      新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等,還有目前網(wǎng)絡(luò)流行語(yǔ)詞,如“有沒(méi)有”、“傷不起”“神馬浮云”、“童鞋們”、“蘿莉”等等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。

      判斷一個(gè)系統(tǒng)的中文分詞功能好壞,主要在于消歧功能和對(duì)未登錄詞識(shí)別功能。并且優(yōu)秀的分詞策略應(yīng)該是盡量不拆分,需要拆分時(shí),先把長(zhǎng)的拆成中的,如果結(jié)果還是少,再把中的拆成短的。

      【參考文獻(xiàn)】

      【1】 吳勝遠(yuǎn);并行分詞方法的研究--《計(jì)算機(jī)研究與發(fā)展》1997年07期

      【2】 張旭;一個(gè)基于詞典與統(tǒng)計(jì)的中文分詞算法[D];電子科技大學(xué);2007年

      【3】 梁斌;走進(jìn)搜索引擎 電子工業(yè)出版社 2007年1月

      【4】(美)克羅夫特;搜索引擎:信息檢索實(shí)踐 機(jī)械工業(yè)出版社

      2010年

      下載武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦)word格式文檔
      下載武漢理工信息檢索論文(寫(xiě)寫(xiě)幫推薦).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        信息檢索論文

        《現(xiàn)代信息檢索》課程心得體會(huì) 摘要:為了培養(yǎng)大學(xué)生對(duì)科技信息資源檢索與利用的能力,我校開(kāi)設(shè)了現(xiàn)代信息檢索這門(mén)課程。人文社科學(xué)院11策劃班在本學(xué)期開(kāi)設(shè)的這門(mén)課程,通過(guò)8周的......

        信息檢索論文

        信息檢索實(shí)驗(yàn)報(bào)告 題目:現(xiàn)代會(huì)計(jì)發(fā)展趨勢(shì)分析 學(xué)院: 班級(jí): 學(xué)號(hào): 姓名: 成績(jī): 遼寧工程技術(shù)大學(xué)基礎(chǔ)教學(xué)部 現(xiàn)代會(huì)計(jì)發(fā)展方向分析 摘要:綜合考慮我國(guó)各級(jí)會(huì)計(jì)人員的主要工作任務(wù)的......

        信息檢索論文(范文大全)

        關(guān)于“基于MATLAB的隨機(jī)信號(hào)分析方法”的科技文獻(xiàn)檢索 (西北大學(xué)信息與科學(xué)技術(shù)學(xué)院,西安,710127) 摘要:隨機(jī)信號(hào)的分析對(duì)現(xiàn)代通信有極其重大的意義。 本設(shè)計(jì)通過(guò)使用MATLAB工具......

        信息檢索論文

        信息檢索與搜索引擎(論文) 網(wǎng)頁(yè)凈化與消重技術(shù) 學(xué)院(系):信息科學(xué)與工程學(xué)院 專(zhuān) 業(yè):計(jì)算機(jī)應(yīng)用技術(shù) 年 級(jí): 學(xué)生 姓名: 學(xué) 號(hào)指導(dǎo) 教師 網(wǎng)頁(yè)凈化(noise reduction):識(shí)別和清除網(wǎng)......

        信息檢索論文

        信息檢索與利用論文 學(xué)院:機(jī)械與電子學(xué)院 專(zhuān)業(yè):機(jī)械電子工程 班級(jí): 093152 姓名: 學(xué)號(hào): 09315205 指導(dǎo)教師: 2012年 04 月日檢索題目:機(jī)械產(chǎn)品綠色設(shè)計(jì) 分析課題:本課題的學(xué)......

        信息檢索期末論文

        在研究“氧化鋅半導(dǎo)體薄膜的制備及表征”課題中,信息檢索的應(yīng)用 首先當(dāng)我們拿到課題“氧化鋅半導(dǎo)體薄膜的制備及表征”課題之后,我們馬上需要做的是查找相關(guān)的文獻(xiàn),獲取相關(guān)的......

        信息檢索論文(完整版)

        信息檢索論文(完整版) 網(wǎng)絡(luò)信息檢索工具研究 摘 要 網(wǎng)絡(luò)信息資源的迅猛增長(zhǎng),使人們獲得有用信息越來(lái)越困難,網(wǎng)絡(luò)檢索工具應(yīng)運(yùn)而生,文章介紹了網(wǎng)絡(luò)信息檢索工具的類(lèi)型和功能,......

        信息檢索論文綜述

        垃圾滲濾液處理技術(shù) 研究進(jìn)展 班級(jí):06級(jí)環(huán)境工程3班 學(xué)號(hào):2006650703 姓名:宋美虹 指導(dǎo)老師:石露 垃圾滲濾液處理技術(shù)研究進(jìn)展 摘要:近年來(lái)城市垃圾的處理處置問(wèn)題已經(jīng)成為人......