第一篇:化學(xué)化工信息檢索論文
學(xué)習(xí)化學(xué)化工信息檢索后的收獲
段志寬
化學(xué)化工學(xué)院
化學(xué)(師范)二班
20100512
摘要:本文概述了學(xué)習(xí)化學(xué)化工信息檢索后的收獲,主要從轉(zhuǎn)變思想觀念、認(rèn)識(shí)到化工信息檢索的重要性、掌握信息檢索的方法和步驟以及對(duì)今后學(xué)習(xí)化工信息檢索的規(guī)劃四方面進(jìn)行論述。
關(guān)鍵字:化學(xué)化工
信息資源
檢索
收獲
通過(guò)一個(gè)學(xué)期對(duì)化學(xué)化工信息檢索與利用的學(xué)習(xí),在老師的指引下感覺(jué)自己在檢索方面得到很大的提高,徹底的改變了自己以前錯(cuò)誤的檢索思想觀念,漸漸的認(rèn)識(shí)到化學(xué)化工信息檢索在學(xué)習(xí)、生活、事業(yè)以及科技中的重要性。學(xué)習(xí)完這門(mén)科目得到收獲主要體現(xiàn)在一下幾方面。
一、接觸到化學(xué)化工信息檢索后轉(zhuǎn)變自己的網(wǎng)絡(luò)搜索思想觀念。
隨著互聯(lián)網(wǎng)的普及和發(fā)展,剛開(kāi)始對(duì)網(wǎng)絡(luò)信息雖然有一定的了解,但是碰到問(wèn)題一般都使用大家常用的搜索引擎和多媒體資源,一般都能得到自己想要的基本結(jié)果,因此心中有個(gè)概念;baidu、biying、google 是萬(wàn)能的信息資源,依靠常用的搜索引擎資源就能解決一切問(wèn)題,沒(méi)有必要學(xué)習(xí)文獻(xiàn)檢索課程,甚至認(rèn)為有點(diǎn)浪費(fèi)時(shí)間和精力。但是經(jīng)過(guò)老師一周課的講解下來(lái),感覺(jué)自己的想法是無(wú)知的。通過(guò)對(duì)本書(shū)的學(xué)習(xí)使我認(rèn)識(shí)到:
(1)二十一世紀(jì)是一個(gè)以信息為主的社會(huì)。這是人類(lèi)經(jīng)由原始社會(huì)、農(nóng)業(yè)生產(chǎn)社會(huì)、工業(yè)生產(chǎn)社會(huì)、進(jìn)入更高層次的信息生產(chǎn)與交流的社會(huì)。任何人和行業(yè)都無(wú)法回避和拒絕對(duì)信息的檢索、接收和交流,既是信息的生產(chǎn)者,又是信息的接收者和傳遞者。各種信息匯聚成廣博而洶涌的信息流,沖擊和推動(dòng)著社會(huì)的各行各業(yè)的發(fā)展?;瘜W(xué)化工信息僅僅是這信息流的一個(gè)支流,同時(shí)又與其他學(xué)科的信息互相滲透、交流。信息的增長(zhǎng)和廣泛已超出人們的想象和領(lǐng)受能力,人們不得不對(duì)信息進(jìn)行分類(lèi)和篩選,從中獲得自己所關(guān)心的及與此相關(guān)聯(lián)的具有應(yīng)用價(jià)值的信息。因此,人們首先提出一個(gè)命題,然后按照一定的規(guī)律和程序向信息的海洋撒開(kāi)大網(wǎng),“撈取”與命題相關(guān)的信息,既要廣博而不疏漏,又要快速準(zhǔn)確而不繁雜混亂,這就是科學(xué)的信息檢索方法。
(2)化學(xué)化工學(xué)科是一個(gè)以實(shí)驗(yàn)和應(yīng)用為主的學(xué)科,是以科學(xué)實(shí)驗(yàn)的現(xiàn)象和數(shù)據(jù)為基石的學(xué)科。若想解決一個(gè)化學(xué)化工的“問(wèn)題”或確立一個(gè)化學(xué)化工的“命題”,則必須查找與此相關(guān)的化學(xué)化工信息。從而了解“問(wèn)題”的過(guò)去、現(xiàn)狀以及可能解決問(wèn)題的幾種途徑。.二、認(rèn)識(shí)到化工信息檢索在各領(lǐng)域起著積極的作用。
信息檢索是存儲(chǔ)和查找信息的方法和手段,它能幫助人們從浩如煙海的信息海洋中迅速、準(zhǔn)確、全面地查找到所需要的信息,從而能夠充分地利用它們。可以說(shuō),信息檢索的主要作用在于它能有效提高人們捕捉信息和利用信息的效率。其主要體現(xiàn)在以下幾方面:
(1)信息檢索在科學(xué)研究中起到承前啟后的作用。科學(xué)技術(shù)的發(fā)展是具有一定繼承性和延續(xù)性的,幾乎任何一項(xiàng)發(fā)明創(chuàng)造都需要積累大量前人的理論經(jīng)驗(yàn)資料,再通過(guò)分析、總結(jié)和升華才能進(jìn)行新的探索,并有所突破。因此,掌握信息檢索技術(shù),以便能快速、準(zhǔn)確地完成科技信息積累工作和及時(shí)獲取到最新術(shù),以便能快速、準(zhǔn)確地完成科技信息積累工作和及時(shí)獲取到最新科研動(dòng)態(tài)信息,對(duì)科技工作者來(lái)說(shuō)意義十分重大。
(2)信息檢索能使科研工作達(dá)到事半功倍的效果。信息的存儲(chǔ)和檢索過(guò)程使雜亂無(wú)章的大量信息有序化,并提供快速查閱的技術(shù)手段??蒲腥藛T一旦掌握了各種檢索方法,便能以盡可能少的時(shí)間和精力完成大量的資料積累工作,大大提高工作效率。
(3)信息檢索能使信息資源得以充分的開(kāi)發(fā)和利用信息的存儲(chǔ)實(shí)質(zhì)上就是信息的采集、加工、分析、整理及優(yōu)化的過(guò)程,它使人類(lèi)豐富的智力資源得以深層次的開(kāi)發(fā);信息的檢索即是信息資源被充分利用的捷徑。因此,信息的存儲(chǔ)與檢索工作會(huì)帶來(lái)顯著的社會(huì)效益。
(4)信息檢索有利于實(shí)現(xiàn)資源共享現(xiàn)代信息檢索與網(wǎng)絡(luò)通訊技術(shù)的高度結(jié)合,使數(shù)量加速增長(zhǎng)、更新頻繁的科技信息得以及時(shí)的傳播和交流,而且真正實(shí)現(xiàn)了資源共享,這是促進(jìn)人類(lèi)社會(huì)科學(xué)技術(shù)發(fā)展的有效手段。
(5)信息檢索是提高人們生活質(zhì)量的“促進(jìn)劑”國(guó)際互聯(lián)網(wǎng)絡(luò)的全球普及以及網(wǎng)上信息的與日俱增,直接影響著人們的日常生活。衣食住行的諸多繁瑣問(wèn)題通過(guò)網(wǎng)絡(luò)就能迎刃而解,坐在家里便能“行走天下”,這已經(jīng)逐步成為現(xiàn)實(shí)。網(wǎng)上信息如此豐富,人們要想從中搜索到各自所需,就必須掌握現(xiàn)代信息檢索技術(shù)?;瘜W(xué)化工信息檢索就是建立在信息存儲(chǔ)與檢索理論基礎(chǔ)上的化學(xué)化工專(zhuān)業(yè)及其相關(guān)專(zhuān)業(yè)信息的檢索過(guò)程?;瘜W(xué)化工信息檢索是隨著化學(xué)化工文獻(xiàn)信息的日益增長(zhǎng)而逐漸發(fā)展起來(lái)的,如今,無(wú)論在手工檢索還是計(jì)算機(jī)檢索方面,化學(xué)化工信息檢索系統(tǒng)和檢索技術(shù)都處于比較領(lǐng)先的地位。
三、學(xué)會(huì)基本檢索策略的步驟和方法
(1)系統(tǒng)分析檢索課題的內(nèi)容實(shí)質(zhì)。包括明確檢索目的和具體要求,需要查找的文獻(xiàn)信息的出版類(lèi)型、文種、時(shí)間范圍,以及課題的學(xué)科領(lǐng)域、專(zhuān)業(yè)范圍、文獻(xiàn)信息外表特征的已知信息等,并對(duì)課題進(jìn)行概念分析,析出主題概念。
(2)在分析課題的基礎(chǔ)上,確定檢索系統(tǒng)。目前,計(jì)算機(jī)檢索系統(tǒng)種類(lèi)繁多,檢索者在根據(jù)課題需要選擇檢索系統(tǒng)時(shí),不僅要了解其信息收錄的內(nèi)容范圍、文獻(xiàn)類(lèi)型和時(shí)間范圍、檢索功能強(qiáng)弱、使用方法等情況,還要考慮所需費(fèi)用的高低以及自己具備的檢索條件、計(jì)算機(jī)技術(shù)條件等。選擇一個(gè)切合實(shí)際的信息檢索系統(tǒng),是檢索成功的先決條件之一。
(3)確定檢索方法。根據(jù)檢索課題的檢索目的和時(shí)間范圍,以及檢索系統(tǒng)所提供的數(shù)據(jù)庫(kù)存儲(chǔ)文獻(xiàn)信息的全面性,確定合適的檢索方法,使檢索過(guò)程有序化。
(4)確定檢索途徑。在數(shù)據(jù)庫(kù)信息集合中是以記錄為存儲(chǔ)單位的。一個(gè)信息記錄包含若干個(gè)字段,包括主題詞字段、分類(lèi)號(hào)字段、題名字段、文摘字段、著者字段、文獻(xiàn)類(lèi)型字段、出版者、出版地及出版時(shí)間等等字段,每一個(gè)字段都是可檢索字段。也就是說(shuō)機(jī)檢中的檢索途徑與字段相對(duì)應(yīng),超過(guò)目前手工檢索所能提供的途徑,例如,出版者、出版時(shí)間、文獻(xiàn)類(lèi)型等都可以作為檢索入口,而且各種途徑還能組配起來(lái),進(jìn)行交叉檢索。因此,確定機(jī)檢檢索途徑需要先了解數(shù)據(jù)庫(kù)文獻(xiàn)信息記錄的字段組成,即有哪些檢索字段。不同數(shù)據(jù)庫(kù)的字段組成都有所區(qū)別,根據(jù)數(shù)據(jù)庫(kù)提供的檢索字段和檢索要求確定合適的檢索途徑,而且要注重多途徑檢索。
(5)確定檢索詞,明確各詞之間的邏輯關(guān)系,構(gòu)造提問(wèn)表達(dá)式。在確定檢索途徑的基礎(chǔ)上,確定檢索用詞。
(6)輸入提問(wèn)表達(dá)式,對(duì)數(shù)據(jù)庫(kù)文檔進(jìn)行檢索,查找出相關(guān)文獻(xiàn)信息,并予以分析篩選。
(7)如果尚未達(dá)到檢索需求,可以對(duì)提問(wèn)表達(dá)式進(jìn)行修改,或調(diào)整檢索途徑等其他環(huán)節(jié),重新檢索,直到達(dá)到檢索要求為止。
(8)索取原文。一般情況下,利用檢索工具查找到的是一次文獻(xiàn)信息的線索,而能否根據(jù)其提供的線索獲取到原文,是達(dá)到最終檢索目的的關(guān)鍵。大多數(shù)檢索工具為了縮小篇幅,常用縮寫(xiě)形式代表引用文獻(xiàn)的全稱(chēng),因此,檢索者要利用檢索工具提供的有關(guān)縮寫(xiě)名稱(chēng)對(duì)照表等工具,查明原文的具體出處,然后利用各種館藏目錄和聯(lián)合目錄查找其館藏單位,并與其聯(lián)系索取原文。
四、今后學(xué)習(xí)網(wǎng)絡(luò)信息檢索的規(guī)劃。
(1)在閑暇時(shí)間里經(jīng)常翻閱有關(guān)信息檢索課本。信息檢索課本基本涵蓋了作者學(xué)分析檢索的方法和策略,通過(guò)學(xué)習(xí)能更好的掌握、學(xué)習(xí)前人的經(jīng)驗(yàn)以及吸取其精華,達(dá)到事半功倍的效果。閱讀過(guò)程中可以適當(dāng)記錄一些作者提供的有用資源網(wǎng)站,便于自己以后需要時(shí)的使用和查詢。
(2)充分利用學(xué)校圖書(shū)館網(wǎng)絡(luò)資源。未接觸到這門(mén)課程前,英語(yǔ)的六級(jí)真題一般都通過(guò)百度搜索然后進(jìn)入相應(yīng)網(wǎng)站下載,有時(shí)可以下載下來(lái)但運(yùn)氣不好時(shí),可能會(huì)需要金幣、積分等約束條件。自從老師點(diǎn)擊進(jìn)入學(xué)校網(wǎng)站首頁(yè),點(diǎn)擊“圖書(shū)館藏”進(jìn)入“中文電子資源”的“銀符考試系統(tǒng)”,進(jìn)入分類(lèi)目錄,有“真題和模擬題的語(yǔ)言類(lèi)、計(jì)算機(jī)類(lèi)、公務(wù)員類(lèi)、法律類(lèi)、經(jīng)濟(jì)類(lèi)、工程類(lèi)”,點(diǎn)擊“語(yǔ)言類(lèi)”的“大學(xué)英語(yǔ)”,進(jìn)入其目錄中就可以看到“大學(xué)英語(yǔ)六級(jí)”,單擊進(jìn)入就可以看到各年份考過(guò)的英語(yǔ)六級(jí)資料,不但可以下載還可以在線做題,省去大量的精力。因此,熟悉自己學(xué)校的網(wǎng)上圖書(shū)館,有利于充分利用學(xué)校資源同時(shí)也提高自己檢索效率。
(3)遇到檢索難題多向周?chē)笥鸦蚶蠋熥稍?。出現(xiàn)問(wèn)題并不可怕,可怕的是自己不能解決問(wèn)題而任其自然。其實(shí)當(dāng)碰到檢索問(wèn)題向周?chē)娜饲笾玫阶约合胍慕Y(jié)果。就拿百度文庫(kù)來(lái)說(shuō)吧,有時(shí)下載期刊需要財(cái)富值,也許就是你一個(gè)煩惱的問(wèn)題,但是有些人就知道進(jìn)入“小木蟲(chóng)”網(wǎng)站搜索就可以得到網(wǎng)友免費(fèi)提供的文庫(kù)。
參考文獻(xiàn):
[1] Hock,Randolph.The Extreme Searcher’s Guild to Web Search Engines: A Handbook for the Serious Search(2nd ed.).Medford , NJ;CyberAge Books ,2001 [2] http:// searchenginewatch.com [3] 李夢(mèng)龍等.Internet 與化學(xué)信息導(dǎo)論.北京:化學(xué)工業(yè)出版社,2001 [4]余向春.化學(xué)化工信息檢索與利用.大連:大連理工大學(xué)出版社,2008
第二篇:信息檢索論文
《現(xiàn)代信息檢索》課程心得體會(huì)
摘要:為了培養(yǎng)大學(xué)生對(duì)科技信息資源檢索與利用的能力,我校開(kāi)設(shè)了現(xiàn)代信息檢索這門(mén)課程。人文社科學(xué)院11策劃班在本學(xué)期開(kāi)設(shè)的這門(mén)課程,通過(guò)8周的學(xué)習(xí),我們掌握的大量有關(guān)信息檢索方面的知識(shí),同時(shí)本人對(duì)于此次課程學(xué)習(xí)也有一些感想和心得。這些對(duì)于我們未來(lái)的學(xué)習(xí)都有很大的幫助。
關(guān)鍵詞:信息檢索、課程學(xué)習(xí)、心得體會(huì)
在信息爆炸的2l世紀(jì),面對(duì)海量信息包圍的困境。除了智商、情商。決定人生成敗與否的關(guān)鍵因素是什么?是搜商——人類(lèi)一種通過(guò)工具獲取新知識(shí)的能力(搜索能力)。因此具備敏感的信息意識(shí),掌握先進(jìn)的信息檢索技術(shù),并能熟練利用各種豐富的信息資源,成為高等院校培養(yǎng)的跨世紀(jì)人才所必備的知識(shí)和技能。為了培養(yǎng)大學(xué)生對(duì)科技信息資源檢索與利用的能力,我校開(kāi)設(shè)了現(xiàn)代信息檢索這門(mén)課程。這是一門(mén)實(shí)用性和操作性很強(qiáng)的課程,以介紹各種信息資源的檢索方法和檢索技巧為主要內(nèi)容,是培養(yǎng)大學(xué)生的學(xué)習(xí)能力、動(dòng)手能力及創(chuàng)新能力的重要工具課程,同時(shí)能使大學(xué)生在短時(shí)間內(nèi)從海量的信息資源中找出符合自己需求的科技信息。作為大四學(xué)生的我們即將迎來(lái)畢業(yè),隨之而來(lái)的是畢業(yè)論文的撰寫(xiě),通過(guò)這門(mén)課的學(xué)習(xí),我們學(xué)會(huì)了論文的收集與整理。下面我從幾點(diǎn)來(lái)闡述我對(duì)這門(mén)課程的理解與感受:
一、大學(xué)生信息素質(zhì)教育的現(xiàn)狀
《現(xiàn)代信息檢索》課的重點(diǎn)是掌握檢索知識(shí)和檢索方法,利用網(wǎng)絡(luò)和虛擬數(shù)據(jù)庫(kù)等信息資源,運(yùn)用檢索工具查閱文獻(xiàn)信息,獲取所需的文獻(xiàn)資料。但如何將這些文獻(xiàn)信息轉(zhuǎn)化為更有價(jià)值的知識(shí),如何將信息檢索與大學(xué)生科技創(chuàng)新緊密結(jié)合起來(lái),促進(jìn)人才的創(chuàng)新培養(yǎng),仍然是有待進(jìn)一步解決的問(wèn)題。就我們學(xué)校而言,如果不是開(kāi)設(shè)這門(mén)課程,我們大多數(shù)情況下都是自己摸索著進(jìn)行信息檢索,并且只會(huì)一些簡(jiǎn)單的檢索方法。通過(guò)這門(mén)課的學(xué)習(xí),我發(fā)現(xiàn)這門(mén)課的實(shí)際用途還是挺大的,不管是進(jìn)圖書(shū)館借閱書(shū)籍還是對(duì)于論文的撰寫(xiě)都有很大的幫助。
二、大學(xué)生信息素質(zhì)教育的目標(biāo)
大學(xué)生信息素質(zhì)教育著力提高學(xué)生敏感主動(dòng)的信息意識(shí),加強(qiáng)學(xué)生對(duì)信息的敏感程度才能使其自覺(jué)地捕捉、分析、判斷和吸收信息,將潛在的信息需求表達(dá)出來(lái),并實(shí)施具體的信息行為。同時(shí)也會(huì)提高學(xué)生獲取信息的能力,制定科學(xué)的檢索策略,通過(guò)各種檢索途徑,用不同的檢索方法獲取信息。最后有利于終身學(xué)習(xí)和信息創(chuàng)新能力的發(fā)展,信息的獲取、分析評(píng)價(jià)和利用能力是終身學(xué)習(xí)必須具備的能力,只有具備了這樣的能力才能實(shí)現(xiàn)終身學(xué)習(xí)的目的。
三、本學(xué)期學(xué)習(xí)的情況
由于課程開(kāi)設(shè)在大四上學(xué)期,我想主要是為了我們畢業(yè)論文的撰寫(xiě)和未來(lái)的長(zhǎng)期發(fā)展做準(zhǔn)備的。理論課,我們主要學(xué)習(xí)了關(guān)于信息的概念、信息檢索原理、檢索語(yǔ)言、檢索技術(shù)、檢索策略等理論知識(shí),老師的講解讓我們充分的理解了有關(guān)信息檢索方面的知識(shí)。理論課程之間也穿插著實(shí)踐課程的學(xué)習(xí),我們進(jìn)入圖書(shū)館閱覽室,以4人為一小組的形式進(jìn)行實(shí)踐操作。我們根據(jù)題目要求進(jìn)行檢索,在這個(gè)過(guò)程中老師給予了我們很大的幫助。
最后一次的實(shí)踐課程我們進(jìn)入機(jī)房進(jìn)行網(wǎng)上信息檢索。由于互聯(lián)網(wǎng)的發(fā)展和普及,也要求我們對(duì)互聯(lián)網(wǎng)信息資源搜索有一定的了解。我們重點(diǎn)學(xué)習(xí)了國(guó)內(nèi)主要的信息檢索系統(tǒng):維普、中國(guó)知網(wǎng)、萬(wàn)方和超星數(shù)字圖書(shū)館,以及特種文獻(xiàn)檢索系統(tǒng)(專(zhuān)利文獻(xiàn)、會(huì)議文獻(xiàn)和學(xué)位論文等)的使用。我們?cè)谧鲱}的過(guò)程中全面地進(jìn)行信息搜索,進(jìn)行綜合分析了解了一些要求,如注明參考文獻(xiàn)、檢索方法和檢索步驟等。
上機(jī)實(shí)際操作的課程,讓我們自己獨(dú)立制定檢索策略,包括檢索詞的擬定、檢索字段的選擇、檢索式的構(gòu)建、檢索年代的限定和檢索方法的選擇等,然后進(jìn)行具體的檢索操作、檢索結(jié)果評(píng)價(jià)分析。根據(jù)分析結(jié)果重新調(diào)整檢索策略,直至最終得到滿意的檢索結(jié)果。課題檢索完成的過(guò)程中.我們將檢索策略、檢索步驟和檢索結(jié)果寫(xiě)在word文檔中,形成檢索報(bào)告,以此來(lái)呈現(xiàn)我們的學(xué)習(xí)效果。整個(gè)實(shí)踐的過(guò)程讓我們體會(huì)到選擇檢索詞不是一蹴而就的,而是一個(gè)反復(fù)修正的過(guò)程,只有這樣才能很好地完成一個(gè)檢索課題。同時(shí)我們也與老師進(jìn)行了交流,可提高了我們的知識(shí)面和參與度。此外通過(guò)上機(jī),我們?cè)诰毩?xí)過(guò)程中能夠檢索到大量的學(xué)科專(zhuān)業(yè)信息,讓我們經(jīng)歷檢索課題的全過(guò)程。學(xué)會(huì)分析課題和調(diào)整檢索策略,使我們的檢索技能得到全面提高,同時(shí)可也激發(fā)了我們強(qiáng)烈的學(xué)習(xí)欲望和科研興趣。
四、信息檢索與畢業(yè)論文開(kāi)展
畢業(yè)設(shè)計(jì)和學(xué)位論文作為一種學(xué)習(xí)、實(shí)踐、探索和創(chuàng)新相結(jié)合的綜合教學(xué),它是對(duì)大學(xué)生所學(xué)知識(shí)深度和廣度的全面檢驗(yàn),是大學(xué)生信息素養(yǎng)水平高低的綜合體現(xiàn)。而信息資源的占有情況.直接關(guān)系到科技論文水準(zhǔn)的高低。因此在大四上學(xué)期學(xué)校給我們開(kāi)設(shè)的這門(mén)課程,有效的提高了我們對(duì)于畢業(yè)論文撰寫(xiě)的認(rèn)識(shí)。從原來(lái)不知道怎么寫(xiě),應(yīng)該從哪收集資料,到現(xiàn)在會(huì)運(yùn)用適當(dāng)?shù)臋z索工具進(jìn)行檢索,我們對(duì)于畢業(yè)論文的撰寫(xiě)已經(jīng)有了一個(gè)很好的開(kāi)始。
五、結(jié)語(yǔ)
信息檢索課作為高等學(xué)校提高學(xué)生信息素質(zhì),培養(yǎng)學(xué)生創(chuàng)新精神和科研創(chuàng)新能力的主要課程,承擔(dān)著培養(yǎng)學(xué)生查找和獲取知識(shí)的信息能力的任務(wù)。本文針對(duì)現(xiàn)階現(xiàn)代信息檢索課程開(kāi)設(shè)的現(xiàn)狀、目標(biāo)以及自己的一些感想和心得體會(huì),以期對(duì)該課程未來(lái)的學(xué)習(xí)有所幫助。
參考文獻(xiàn):
[1] 方彩霞.實(shí)用科技信息資源檢索與利用課程的教學(xué)探索[J].科技視界,2012,,(9):68—69.[2] 王麗蕊.高校信息檢索課程教學(xué)現(xiàn)狀與改革研究[J].科技資訊,2012,:(26):225.[3] 湯凝.《科技信息檢索》教學(xué)新模式的研究[J].江蘇技術(shù)師范學(xué)院學(xué)報(bào),2011,,17(7):78—81.
第三篇:信息檢索論文
應(yīng)用化學(xué)
化學(xué)與化工信息檢索論文
題目:造紙污水處理技術(shù)現(xiàn)狀及進(jìn)展
學(xué)生姓名------學(xué)號(hào)--------專(zhuān)業(yè)應(yīng)用化學(xué)指導(dǎo)教師----
2010年12月 25日
造紙污水處理技術(shù)現(xiàn)狀及進(jìn)展
摘要:本文在查閱相關(guān)資料的基礎(chǔ)上,介紹了國(guó)內(nèi)外的造紙廢水處理的常用方法,并對(duì)各種方法進(jìn)行了評(píng)價(jià)和分析,綜述了造紙廢水處理研究的現(xiàn)狀和進(jìn)展。
關(guān)鍵詞:造紙;廢水處理;治理技術(shù)
隨著造紙工業(yè)的迅速發(fā)展,造紙工業(yè)廢水已經(jīng)成為水環(huán)境的重要污染源之一。在造紙過(guò)程中,除纖維素和部分半纖維素之外的大量有機(jī)物要進(jìn)入廢水中,并且即使經(jīng)過(guò)充分的廢液回收利用,也還是或多或少地會(huì)有一些纖維素和半纖維素流失進(jìn)入廢水中。含有大量有機(jī)物的造紙廢水排入水體,對(duì)水體會(huì)造成不同程度的污染。同時(shí)造紙過(guò)程中通常還需要加入一些必要的化學(xué)藥劑和化學(xué)助劑,這些物質(zhì)流失進(jìn)入水體中更是加重了水體污染[1]。造紙工業(yè)的漂白工段通常是采用含氯化合物漂白,導(dǎo)致排出的漂白廢水中含有大量的氯化有機(jī)物,其中的氯苯酚、氯化脂肪酸、氯化樹(shù)脂酸、dioxin等有毒且難以處理的氯化有 機(jī)物,對(duì)環(huán)境中的生物具有強(qiáng)烈的毒害、致畸、致多發(fā)性腦神經(jīng)病變作用[2],因此如何有效地去除造紙廢 水中的含氯有機(jī)物已經(jīng)成為廢水處理的一大難題。本文在查閱大量文獻(xiàn)資料的基礎(chǔ)上主要介紹國(guó)內(nèi)外處理造紙廢水的方法和新技術(shù),并就國(guó)內(nèi)外治理造紙廢水的現(xiàn)狀和未來(lái)的發(fā)展前景加以評(píng)述。
1概況
據(jù)經(jīng)貿(mào)委粗略估計(jì),目前我國(guó)大小造紙廠約有近萬(wàn)家。造紙工業(yè)總的特點(diǎn)是:使用原料種類(lèi)多、生產(chǎn)工藝類(lèi)型多、中小企業(yè)多、技術(shù)裝備落后者多。調(diào)查統(tǒng)計(jì)表明,造紙工業(yè)廢水年排放總量達(dá)17億t,占工業(yè)廢 水總排放量的10以上。造 紙工業(yè)廢水主要包括黑液或紅液(蒸煮制漿廢水)、中段廢水(制漿洗滌、篩選、漂白廢水)、造紙 白水(抄紙廢水)三大類(lèi),其中蒸煮黑液的環(huán)境污染最為嚴(yán)重,占整個(gè)造紙工業(yè)污染的90%。制漿廢水 BOD、COD、SS、pH、色度、濁度等均嚴(yán)重超標(biāo);中段廢水成分與制漿廢水相近,但濃度低,富含漂白工段產(chǎn)生的對(duì)環(huán)境危害最大的有機(jī)氯化物;抄紙廢水中主要含有細(xì)小纖維、填料(高嶺土等)和膠料(松香等),BOD值較低。造紙工業(yè)廢水的治理是國(guó)內(nèi)外造紙行業(yè)亟待解決的難題[3]。
2治理方法
2.1物理化學(xué)法
物理化學(xué)法是通過(guò)物理或者化學(xué)反應(yīng)的作用來(lái)達(dá)到去除廢水中的污染物的目的,主
要有以下方法:
2.1.1臭氧法
臭氧氧化技術(shù)已問(wèn)世多年,近年來(lái),由于低成本的臭氧發(fā)生裝置和臭氧處理裝置的出現(xiàn)而重新成為研究熱點(diǎn)。臭氧(O3)是一種強(qiáng)氧化劑,O3作為兩性離子,能選擇性地分解發(fā)色基團(tuán)。安郁琴[4]將經(jīng)過(guò)化學(xué)混凝處理后和經(jīng)過(guò)化學(xué)混凝過(guò)濾吸附處理后的麥革漿黑液利用臭氧法處理,處理 20分鐘后脫色率可以達(dá)到 82.1%,但 CODCr去除率僅 15.8%,BOD5去除率為24.8%,F(xiàn)f1此可見(jiàn),臭氧脫色效果顯著,但對(duì) CODCr和 BOD5的去除效果不明顯。臭氧在水中的溶解度較低,如何更有效地使臭氧溶解于水中從而提高其利用率已經(jīng)成為該技術(shù)研究的熱點(diǎn)。使用臭氧法也會(huì)產(chǎn)生其它副產(chǎn)物,其中最受關(guān)注的是羰基化合物中的醛類(lèi),比如甲醛、乙醛,這些物質(zhì)具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。
2.1.2光催化氧化
光催化氧化技術(shù)是近年來(lái)比較活躍的研究領(lǐng)域,光催化氧化技術(shù)是在光化學(xué)氧化技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的。張志軍等[5]利用中壓汞燈作光源,研究了氯代二苯并一對(duì)一二啞英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反應(yīng),在室溫下,4h內(nèi)DCCD、PCDD和OCDD分別降解87.2%、84.6%和91.2%。M.Cristina Yeber等
[6]將 TiO2、Zno同定在玻璃上,對(duì)漂白廢水進(jìn)行了光催化氯化處理,處理 120min后,廢水的色度可完全去除,總酚含量減少了85%,TOC減少了50%,處理后殘留有機(jī)物的急性毒性和AOX比處理前大為減少,高分子化合物幾乎全部降解。
2.1.3混凝法
混凝法是目前國(guó)內(nèi)外重點(diǎn)研究的方向之一,該法適應(yīng)性強(qiáng)、基建投資低、管理簡(jiǎn)單,是水處理常用的方法,在造紙行業(yè)的廢水處理中使用普遍。造紙廢水中由于含有大量纖維和化學(xué)藥劑,所以一般在處理造紙廢水時(shí)首先要用混凝法除去這些物質(zhì)。張學(xué)洪、解慶林[9]等利用聚合氯化鋁處理廣西某造紙廠的造紙終端廢水(CODcf=400mg/L),處理后可以達(dá)到國(guó)家污水排放標(biāo)準(zhǔn)(CODcf<100 mg/L)。黃國(guó)林、樂(lè)長(zhǎng)高等[1O]利用水溶性酚醛樹(shù)脂和硫酸反應(yīng)得到的聚合物處理?yè)嶂菽吃旒垙S制漿車(chē)間排污口的廢水,在最佳工藝條件下反應(yīng)時(shí),CODc和ss去除率分別可以達(dá)到80%一85%和 90% 一95%,處理水可以達(dá)到排放標(biāo)準(zhǔn)。
2.2 生物法
廢水的生物處理方法就是利用微生物的新陳代謝功能使廢水中呈溶解狀和膠體狀的有機(jī)污染物被降解并轉(zhuǎn)化成無(wú)害穩(wěn)定的物質(zhì),使廢水得到凈化。生物法處理廢水因其運(yùn)行成本低,效果較好而在廢水處理中得到了廣泛應(yīng)用。造紙廢水中含有大量有機(jī)物質(zhì),廢水的可生化性較好,可以為生物法的微生物提供大量的營(yíng)養(yǎng)物質(zhì),從而能保證微生物的正常生長(zhǎng)繁殖和生物法處理廢水的正常運(yùn)行。利用生物法對(duì)造紙廢水進(jìn)行二級(jí)處理可有效去除BOD、COD。造紙廢水生物處理法主要有以下幾種:
2.2.1好氧生物處理法
利用好氧微生物(主要為好氧菌)的新陳代謝作用來(lái)降解污染物,其中應(yīng)用最多的主要是活性污泥法,我國(guó)的科研人員對(duì)活性污泥法處理造紙廢水進(jìn)行了大量的研究,取得了許多成功的經(jīng)驗(yàn)。造紙廢水中的木素是不易生物降解的物質(zhì),活性污泥對(duì)木素具有極好的吸附性能,通過(guò)生物降解和活性污泥吸附作用,可達(dá)到除去木素的目的,從而降低溶解木素的濃度。芬蘭OULU紙漿廠[11]利用活性污泥法加污泥曝氣再生處理漂白硫酸鹽紙漿廢水,可使BOD去除率達(dá) 90%,COD去除率達(dá)84%?;钚晕勰喾ㄓ捎谄涮幚沓杀镜?、易于管理、處理效果較好而在廢水處理中的應(yīng)用越來(lái)越多。
2.2.2生物膜法
相對(duì)于活性污泥系統(tǒng)而言,生物膜系統(tǒng)具有如下顯著優(yōu)點(diǎn):高容積負(fù)荷、更強(qiáng)的抗毒能力和耐負(fù)荷沖擊能力、無(wú)須污泥回流且處理設(shè)施緊湊。朱光燦、呂錫武等[12]研究了采用脫木素—缺氧—好氧生物膜工藝處理造紙廢水。其中的脫木素工藝可有效地將黑液中堿木素脫穩(wěn)析出,并提高廢水的可生化性,當(dāng)廢水 pH=5,絕干纖維污泥與廢水 COD質(zhì)量之比為 1.1,硫酸鋁投加量為 160m g/L時(shí),COD去除率大于 63%。生物法在利用微生物處理造紙廢水時(shí)候,如果造紙廢水中含有大量不利于微生物生長(zhǎng)的物質(zhì)時(shí)候,生物法處理效果較差,因此在制漿造紙過(guò)程中可以通過(guò)改變漂白劑的種類(lèi),提高造紙廢水的可生化性,使其更利于生物法處理。
2.3 其他方法
2.3.1電化學(xué)法
利用電化學(xué)法進(jìn)行廢水的處理是電化學(xué)法獲得應(yīng)用的典型領(lǐng)域。通過(guò)電化學(xué)反應(yīng)中的直接或者間接氧化和還原作用,可以破壞有毒或難降解有機(jī)物的結(jié)構(gòu),去除其生物毒性,提高其可生化性。電化學(xué)法處理廢水一般無(wú)需加入化學(xué)藥品,后處理簡(jiǎn)單,占地面積小,管理方便,被稱(chēng)為清潔處理法。景峰、王耀新、朱文菊等將電化學(xué)和凝聚沉淀法兩種方法聯(lián)合起來(lái)處理造紙廢水,使造紙廢水COD去除率達(dá)到55%~70%,色度去除,率達(dá)90%~95%[13]。目前關(guān)于電化學(xué)法的許多問(wèn)題特別是降解機(jī)理、處理速度和經(jīng)濟(jì)
性問(wèn)題尚未完全解決,電化學(xué)處理廢水電耗較高,使該方法的工業(yè)應(yīng)用受到限制。
2.3.2濕式空氣氧化法
濕式空氣氧化法是目前研究較多的新型處理方法,即在高溫、高壓下在液相中利用空氣或者氧氣作為氧化劑,將廢水中的有機(jī)物氧化成二氧化碳和水,從而達(dá)到去除污染物的目的。國(guó)內(nèi)從80年代開(kāi)始進(jìn)行濕式空氣氧化法的研究,先后進(jìn)行了造紙黑液、含硫廢水、酚水及煤制氣廢水、農(nóng)藥廢水、印染廢水等的實(shí)驗(yàn)研究,目前,濕式空氣氧化法在國(guó)內(nèi)尚處于試驗(yàn)階段。與常規(guī)方法相比,濕式空氣氧化法具有適用范圍廣、處理效率高等優(yōu)點(diǎn)。但由于濕式空氣氧化法一般要求在高溫高壓的條件下進(jìn)行,對(duì)設(shè)備材料的要求較高,須耐高溫、高壓并耐腐蝕,因此設(shè)備費(fèi)用高,系統(tǒng)的一次性投資大,在實(shí)際推廣應(yīng)用方面仍存在著一定的局限性。
2.3.3超臨界水氧化法
在處理難降解有機(jī)廢水方面,超臨界水氧化技術(shù)是目前研究較為活躍的新技術(shù)。由于超臨界水氣液 相界面消失.成為一均相體系,因而超臨界水中的有機(jī)物反應(yīng)速度極快。Model等[14]對(duì)有機(jī)炭含量達(dá) 27.33 g/L的廢水進(jìn)行超臨界水氧化處理,在實(shí)驗(yàn)條件下,1分鐘內(nèi)就使有機(jī)氯和有機(jī)炭的去除率分別達(dá)到99.99%和99.97%。超臨界水氧化技術(shù)具有良好的工業(yè)應(yīng)用前景,但是由于對(duì)反應(yīng)條件要求較為苛刻(高溫、高壓),對(duì)設(shè)備要求偏高,因此還有一些實(shí)際的技術(shù)問(wèn)題需要解決。造紙廢水治理技術(shù)展望
隨著全球可持續(xù)發(fā)展戰(zhàn)略的實(shí)施,循環(huán)經(jīng)濟(jì)和 清潔生產(chǎn)技術(shù)越來(lái)越受到人們的關(guān)注,造紙工業(yè)廢水治理從末端治理向清潔生產(chǎn)工藝、物質(zhì)循環(huán)利用、廢水回用綜合防治方向發(fā)展。未來(lái)造紙工業(yè)廢水治理將突出以下幾個(gè)方面:
(1)貫徹循環(huán)經(jīng)濟(jì)理念、重視清潔生產(chǎn)技術(shù)的開(kāi)發(fā)與應(yīng)用,提高物質(zhì)的轉(zhuǎn)化率和循環(huán)使用率,從源頭上削減各污染物的產(chǎn)生量并在廠內(nèi)將大量廢水循環(huán)回用,實(shí)現(xiàn)封閉循環(huán),結(jié)合廢水綜合治理,最終實(shí)現(xiàn)廢水零排放。
(2)綜合目前國(guó)內(nèi)外技術(shù)發(fā)展情況,應(yīng)重視開(kāi)發(fā)和引進(jìn)先進(jìn)的治理技術(shù):重視黑液 處理技術(shù)(主要為堿 回收 技術(shù))、重 視 SS、BOD、COD 的去除技術(shù)及脫色技術(shù)。
(3)應(yīng)重視 生物處理方法在造紙工業(yè)廢水處理中的應(yīng)用,生物技術(shù)具有成本低、效益高、與其他方法組合可大大提高造紙廢水的處理率,隨著分子生物學(xué)技術(shù)、物種微生物技術(shù)的發(fā)展和應(yīng)用,具有高效、耐毒性的菌種不斷培育成功,為生物技術(shù)的廣泛應(yīng)用提供了前提條件。
(4)人工濕地處理系統(tǒng)作為一種成本低廉、節(jié)能降耗、簡(jiǎn)單易行、效果顯著、無(wú)二次污染的廢水處理技術(shù),是造紙廢水處理的新方法[15]。
(5)廢紙?jiān)旒埰髽I(yè)均存在諸多設(shè)計(jì)、建造、管理問(wèn)題,阻礙廢水回用現(xiàn)狀的進(jìn)一步改善。節(jié)水空間仍然很大。生產(chǎn)過(guò)程中,應(yīng)加強(qiáng)管理,培養(yǎng)員工節(jié)水意識(shí)。調(diào)動(dòng)員工積極性,根據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn),提出合理的回改進(jìn)措施[16]。
參考文獻(xiàn)
[1] 張 珂,陳仁銳。丁明秀,等.造紙工業(yè)污染防治技術(shù)與環(huán)境管理[M].北京:輕工業(yè)出版社,1988.14-15.
[2] 謝 澄,陳中豪,疏明君,等.生物流化床~化學(xué)絮凝法處理紙漿漂白廢水[J].工業(yè)用水與廢
水,2002,33(I):27-30.
[3] 黃夏銀,馮彬.造紙廢水處理技術(shù)研究現(xiàn)狀及展望[J].污染防治技術(shù),2004,12:17(4):9-11.
[4] 劉全校,安郁琴.臭氧 用于治理造紙廢水.紙和造紙,2000,7:44.
[5] 張志軍,包志成,王克歐.二氧化鈦催化下的氯代二苯并一對(duì)一二啞英光解反應(yīng)[J].環(huán)境化學(xué),1996,15(1):47.
[6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of
C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.
[9] 張學(xué)洪,解慶林,李金城,等,造紙廢水的混凝處理研究[J].桂林工學(xué)院學(xué)報(bào),2000,(4):
189-191.
[10] 黃國(guó)林,樂(lè)長(zhǎng)高,粱平.利用聚合物處理造紙廢水的研究[J,環(huán)境科學(xué)與技術(shù),1997,(1):
24—26.[11] 范懋功.活性 污泥法處理造紙廢水….給水排水,1996,22(12):29—31.
[12] 朱光燦,呂錫武,宋海亮,等,脫木素一缺氧一好氧生物膜工藝處理造紙廢水試驗(yàn)研究[J],給水排水,2004.30(1):56—59.
[13] 景 峰,王耀新,宋文菊,試論電化學(xué)一凝聚法處理造紙廢水[J].黑龍江環(huán)境通報(bào),2000,24(2):
81—82.
[14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US
Patent:4543(9).1 985.09.24.
[15] 朱光燦,呂錫武,宋海亮,等,造紙廢水治理技術(shù)研究現(xiàn)狀及展望[J],污染防治技術(shù),2004.17(4):14.
[16] 張金紅,廢紙?jiān)旒垙U水回用工藝現(xiàn)狀及改造實(shí)例[J],湖北造紙,2010.3:38.
第四篇:信息檢索論文
居民用電遠(yuǎn)程抄表系統(tǒng)
長(zhǎng)期以來(lái),供電企業(yè)電能數(shù)據(jù)的抄算都是基于電能表的手工作業(yè)方式,即每月定期派人到各用戶那里抄錄電能表的用電數(shù)據(jù)作為電費(fèi)計(jì)算和收繳的依據(jù)。隨著電力負(fù)荷的急劇增長(zhǎng),一戶一表和直供到戶等營(yíng)銷(xiāo)舉措的不斷深入,用電企業(yè)紛紛將家屬宿舍的用電治理業(yè)務(wù)交還供電企業(yè),致使供電企業(yè)的電量抄錄的工作量急劇膨脹。白銀供電公司在城網(wǎng)農(nóng)網(wǎng)改造結(jié)束后,僅市區(qū)居民直供用戶將達(dá)到9萬(wàn)戶,就地分散的手工抄表根本無(wú)法適應(yīng)用電治理的需要。因此,遠(yuǎn)程抄表系統(tǒng)的技術(shù)研究和產(chǎn)品開(kāi)發(fā)勢(shì)在必行。
1遠(yuǎn)程自動(dòng)抄表系統(tǒng)的現(xiàn)狀及其特點(diǎn)
一般情況下,一個(gè)家屬樓單元有14~18塊低壓電能表,單元子區(qū)數(shù)據(jù)采集器負(fù)責(zé)采集其下屬的電能表電量數(shù)據(jù),配變集中器則負(fù)責(zé)收集配電變壓器下面的所有單元子區(qū)采集器的數(shù)據(jù)。從數(shù)據(jù)傳輸?shù)慕嵌瓤?,其組網(wǎng)方式有:兩級(jí)純專(zhuān)線組網(wǎng)方式、兩級(jí)混合組網(wǎng)方式、兩級(jí)載波組網(wǎng)方式。
從組網(wǎng)拓?fù)涞慕嵌戎v,只要在用戶電能表、單元子區(qū)采集器、配變集中器采用專(zhuān)用信道通信,遠(yuǎn)程自動(dòng)抄表系統(tǒng)的纜線工程量就非常大,有線專(zhuān)用信道的維護(hù)也有一定困難。鑒于這種情況,各科研單位和廠商都在努力做到取消單元子區(qū)采集器,實(shí)現(xiàn)用戶電能表與配變集中器的直接低壓電力線載波通信,這樣就大大減少了纜線工程量,而且數(shù)據(jù)遠(yuǎn)程傳輸?shù)慕M網(wǎng)拓?fù)渑c低壓配電網(wǎng)保持一致,有利于系統(tǒng)的運(yùn)行維護(hù)和用戶數(shù)量的模數(shù)化擴(kuò)展。這種拓?fù)湟笠粋€(gè)用戶終端,不但要實(shí)現(xiàn)電能計(jì)量,還要實(shí)現(xiàn)數(shù)據(jù)信息的編碼、解碼、載波收發(fā)等功能??梢詷?gòu)成完全基于低壓電力線信道的載波電能表 配變集中器 營(yíng)業(yè)站主機(jī)的組網(wǎng)拓?fù)洹?shí)踐證實(shí):目前市場(chǎng)上已經(jīng)開(kāi)發(fā)出來(lái)的窄帶調(diào)制的低壓載波表和配變集中器很難保證電量或控制數(shù)據(jù)的可靠傳輸。主要原因是低壓電力線載波信道的特性隨機(jī)性、時(shí)變性很大,非常地不穩(wěn)定。因此,低壓電力線載波技術(shù)是直接通過(guò)電力線組網(wǎng)的遠(yuǎn)程抄表系統(tǒng)進(jìn)一步推廣應(yīng)用的瓶頸。
2試點(diǎn)居民小區(qū)遠(yuǎn)程抄表系統(tǒng)方案
在為試點(diǎn)居民小區(qū)遠(yuǎn)程抄表系統(tǒng)做的總體技術(shù)方案設(shè)計(jì)時(shí),本文遵循三條基本原則:
(1)在試點(diǎn)小區(qū)的配電變壓器和小區(qū)住戶之間不敷設(shè)任何專(zhuān)用有線信道,數(shù)據(jù)的上行或下行傳送必須使用現(xiàn)成的低壓電力線作為數(shù)據(jù)媒介。
(2)只在配電變壓器和住戶地點(diǎn)對(duì)應(yīng)安裝數(shù)據(jù)的收發(fā)裝置,建立起各用戶電能表終端與配變集中器的直接數(shù)據(jù)鏈路,中間不安裝任何硬件上的中繼或第二級(jí)集中轉(zhuǎn)發(fā)裝置。
(3)用戶電能表終端除了記錄電量外,它還應(yīng)該執(zhí)行就地保護(hù)和遠(yuǎn)方監(jiān)控功能。
2.1系統(tǒng)組成結(jié)構(gòu)
系統(tǒng)由營(yíng)業(yè)站用電治理主機(jī)、配電變壓器集中器、接在配電變壓器低壓電力線上的多個(gè)用戶電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。配電變壓器集中器和用戶電能表終端分別與配電變壓器、用戶一一對(duì)應(yīng)并就地分布式安裝。用電治理信息只能在系統(tǒng)的上下級(jí)之間傳輸。其中用電治理主機(jī)到配電變壓器集中器的信息傳輸媒介采用擴(kuò)頻無(wú)線信道或公共電話網(wǎng)(第一級(jí)信道),配電變壓器集中器到用戶電能表終端的信息傳輸媒介利用低壓電力線載波信道(第二級(jí)信道)。顯然,整個(gè)系統(tǒng)與配電變壓器下面的電壓電力網(wǎng)一樣呈樹(shù)形分布結(jié)構(gòu),可隨用戶發(fā)展和負(fù)荷增長(zhǎng)任意擴(kuò)展。
本系統(tǒng)的任務(wù)在于實(shí)現(xiàn)低壓用戶電量數(shù)據(jù)的遠(yuǎn)程傳輸和抄算,對(duì)低壓電力用戶的負(fù)荷和用電進(jìn)行遠(yuǎn)程監(jiān)控。
由于使用了分布式安裝結(jié)構(gòu),在系統(tǒng)建設(shè)上與集中抄表箱用電系統(tǒng)相比,無(wú)須龐大繁瑣的纜線工程,施工難度將會(huì)大幅下降。系統(tǒng)的擴(kuò)展將隨用戶或配變數(shù)量的遞增而模數(shù)化擴(kuò)展,就象增加一個(gè)用戶增加一塊電能表那樣簡(jiǎn)單。因此,系統(tǒng)擴(kuò)展極具伸縮性,不會(huì)象集中式系統(tǒng)那樣新建時(shí)資源閑置,用戶發(fā)展時(shí)容量又不夠。應(yīng)該說(shuō),這個(gè)系統(tǒng)比較符合營(yíng)業(yè)用電治理系統(tǒng)發(fā)展的主流方向。
2.2網(wǎng)絡(luò)通信協(xié)議的選擇與研究
在計(jì)算機(jī)網(wǎng)絡(luò)中,信道共享技術(shù)已經(jīng)比較成熟。一般可分為兩類(lèi),即受控接入和隨機(jī)接入。
隨機(jī)接入共享信道的特點(diǎn)是所有用戶都可以根據(jù)自己的意愿隨機(jī)地發(fā)送信息。實(shí)際上就是爭(zhēng)用接入,征用勝利者才能獲得總線,從而發(fā)送自己的信息。典型的隨機(jī)接入是載體偵聽(tīng)多重訪問(wèn)/沖突檢測(cè)(CSMA/CD)網(wǎng)絡(luò),其為總線型結(jié)構(gòu),如圖2所示。后文重點(diǎn)介紹的基于CEbus的擴(kuò)頻載波線性掃頻信號(hào)(Chirp)由于具有自相關(guān)性,所以適用于CSMA網(wǎng)絡(luò)。結(jié)合電力線的傳輸特性,綜合比較各種網(wǎng)絡(luò),在本文所要開(kāi)發(fā)的遠(yuǎn)抄系統(tǒng)中選用CSMA協(xié)議應(yīng)該是比較合適的。CSMA協(xié)議網(wǎng)絡(luò)的缺點(diǎn),如時(shí)延不確定、重載時(shí)效率下降,對(duì)數(shù)據(jù)傳輸量較小的遠(yuǎn)程抄表系統(tǒng)來(lái)講,并不是值得考慮的問(wèn)題。
2.3用戶電能表終端的總體設(shè)計(jì)
用戶電能表終端由AC/DC開(kāi)關(guān)電源模塊、電量傳感器模塊、故障保護(hù)模塊、計(jì)量模塊、負(fù)荷控制模塊、LED顯示模塊、MCU系統(tǒng)模塊、低壓擴(kuò)頻載波通信模塊構(gòu)成。
多輸出開(kāi)關(guān)電源負(fù)責(zé)為用戶電能表終端供電,它輸出DC 5V0.5A和DC±15V0.5A電源各一組,其交流輸入的設(shè)計(jì)范圍為AC220V±20。為了降低電源模塊的體積,采用TOP2XX脈寬調(diào)制功率開(kāi)關(guān)為核心器件,構(gòu)成單端反激式電路。
故障保護(hù)模塊負(fù)責(zé)監(jiān)視低壓用戶的負(fù)荷電器的運(yùn)行情況,當(dāng)發(fā)生短路、過(guò)流、漏電或電網(wǎng)電壓超標(biāo)時(shí),向MCU系統(tǒng)模塊發(fā)出信號(hào)請(qǐng)求執(zhí)行斷電控制程序。
計(jì)量模塊負(fù)責(zé)把用戶的用電功率轉(zhuǎn)化為頻率正比于功率大小的脈沖串,提供給MCU系統(tǒng)模塊進(jìn)行電量計(jì)算。即使用戶實(shí)施了竊電行為,它仍然可以輸出正確的電量計(jì)算脈沖串,并向MCU系統(tǒng)發(fā)出竊電信號(hào)。
負(fù)荷控制模塊是一個(gè)受MCU系統(tǒng)輸出的TTL電平控制的大功率交流無(wú)觸點(diǎn)開(kāi)關(guān),能夠過(guò)零關(guān)斷或開(kāi)啟6kW的負(fù)荷功率。
MCU系統(tǒng)由AT89C528位單片機(jī)、X5045看門(mén)狗芯片和DS1302時(shí)鐘日歷芯片構(gòu)成。它是用戶電能表終端的計(jì)算監(jiān)控中心,主要負(fù)責(zé)對(duì)電量脈沖串進(jìn)行計(jì)算或處理,執(zhí)行就地或遠(yuǎn)方的負(fù)荷控制程序,與低壓擴(kuò)頻載波通信模塊進(jìn)行數(shù)據(jù)交換并控制其收發(fā)信。
顯示模塊由一個(gè)8位LED及其動(dòng)態(tài)掃描控制芯片構(gòu)成,主要完成電量數(shù)據(jù)的舊的查詢顯示,便于用戶了解自己的電量或電費(fèi)情況。
低壓擴(kuò)頻載波模塊主要由SSCP200低壓電力線擴(kuò)頻載波網(wǎng)絡(luò)控制器、前置功放和電力線耦合電路構(gòu)成,負(fù)責(zé)對(duì)MCU系統(tǒng)送來(lái)的數(shù)據(jù)進(jìn)行線性掃頻調(diào)制,放大后耦合到電力線上,對(duì)通過(guò)電力線送來(lái)的載波信號(hào)進(jìn)行掃頻解調(diào)后送給MCU系統(tǒng)。這種數(shù)據(jù)通信采用了收發(fā)分時(shí)控制的半雙工通信。該模塊與配變集中器的設(shè)計(jì)通信距離為1000m。在信道特性最?lèi)毫拥那闆r下,也要保證不小于600m。
2.4配電變壓器集中器的總體設(shè)計(jì)
配變集中器主要由三個(gè)分相耦合的低壓擴(kuò)頻通信模塊、三個(gè)按相配置的電能表模塊、MCU單片機(jī)系統(tǒng)、3個(gè)雙口RAM和一個(gè)工控機(jī)系統(tǒng)及電話線調(diào)制解調(diào)器構(gòu)成。
低壓擴(kuò)頻載波通信模塊分相配置,是為了杜絕跨相耦合載波信號(hào),電能表和MCU電路按相配置是為了使集中器能夠并行處理各相的用戶終端數(shù)據(jù),增加數(shù)據(jù)傳輸和處理速度。以上電路基本上與用戶終端類(lèi)似,只是不具備故障保護(hù)、竊電偵測(cè)和負(fù)荷控制電路而已。
在配變集中器內(nèi)設(shè)置電能表模塊便于對(duì)每一相的總電量進(jìn)行計(jì)量和統(tǒng)計(jì)分析,以作為用電治理部門(mén)考核線損和平衡3相負(fù)荷的依據(jù)。
工控機(jī)完成與每一相的MCU系統(tǒng)交換數(shù)據(jù),并通過(guò)Modem和公用電話網(wǎng)與營(yíng)業(yè)站抄算主機(jī)交換數(shù)據(jù)信號(hào)。上行和下行數(shù)據(jù)要經(jīng)過(guò)工控機(jī)的處理,并在不需要數(shù)據(jù)通信的時(shí)候儲(chǔ)存在工控機(jī)的磁盤(pán)中。鑒于數(shù)據(jù)處理量不是很大,選用486工控機(jī)就能滿足要求。
2.5營(yíng)業(yè)站抄算主站的總體設(shè)計(jì)
營(yíng)業(yè)站抄算主機(jī)主要由PC機(jī)、電話線Modem及其軟件構(gòu)成。主要負(fù)責(zé)營(yíng)業(yè)站到配電變壓器集中器之間的數(shù)據(jù)指令的調(diào)制發(fā)送、解調(diào)接受及綜合分析處理。另外,電話線Modem還可以將營(yíng)業(yè)站用電治理主機(jī)與電費(fèi)托收銀行聯(lián)機(jī)。
PC微機(jī)主要完成用戶用電數(shù)據(jù)的采集,送電能表參數(shù)、用電信息、欠費(fèi)警告及斷電控制,不安全和違章用電監(jiān)視報(bào)警,用戶用電治理及查詢,報(bào)表輸出等功能。
其中,用電采集程序可以進(jìn)行定時(shí)統(tǒng)抄、不定時(shí)統(tǒng)抄及單用戶隨時(shí)查抄;用電量可按地址統(tǒng)計(jì),也可按相位統(tǒng)計(jì),以便合理地調(diào)整配電變壓器A、B、C三相負(fù)載的配置,使供電系統(tǒng)的性能發(fā)揮得更好;在電費(fèi)結(jié)算時(shí),可通過(guò)分時(shí)計(jì)費(fèi),合理定價(jià),使負(fù)載基本恒定;電表參數(shù)、用電信息可送到用戶終端,從而非常方便地修改電能表參數(shù),顯示用戶的用電量及結(jié)算電費(fèi);欠費(fèi)警告及斷電控制功能可督促用戶按時(shí)交費(fèi);不安全和違章用電監(jiān)視報(bào)警功能可使用電監(jiān)察人員迅速準(zhǔn)確地維護(hù)用電秩序;日?qǐng)?bào)表、月報(bào)表、年報(bào)表的形成和輸出方便而快捷。
3結(jié)論與展望
3.1研究結(jié)論
我們?cè)趲追N不同的環(huán)境下對(duì)用戶電能表終端和配變集中器進(jìn)行了測(cè)試,取得了比較滿足的結(jié)果。依照CEBus標(biāo)準(zhǔn)編制的程序,在傳輸過(guò)程中,沒(méi)有發(fā)現(xiàn)誤碼的存在。不同的測(cè)試環(huán)境下,干擾強(qiáng)度與信道輸入阻抗的波動(dòng)范圍是影響擴(kuò)頻載波可靠通信距離的兩個(gè)主要因素,數(shù)據(jù)通信成功的平均幀延遲時(shí)間與平均通信距離的關(guān)系較大。
戶表采集器的性能指標(biāo)如下:
·載波通信距離:架空網(wǎng)或電纜電網(wǎng)均可達(dá)1000m;
·抄表成功率:可達(dá)99.7;
·抄表正確率:100;
·讀數(shù)準(zhǔn)確度:計(jì)數(shù)精度達(dá)到小數(shù)點(diǎn)后兩位,用戶電能表讀數(shù)與標(biāo)準(zhǔn)電能表的誤差不大于1個(gè)字(即0.5kWh);
·時(shí)鐘誤差:天天小于 1s;
·用戶電能表功耗:待機(jī)時(shí)≤200mW,發(fā)送數(shù)據(jù)時(shí)≤700mW,發(fā)送時(shí)間≤25ms,接收靈敏度≤2mW;
·采用工業(yè)級(jí)芯片,環(huán)境溫度:-20~ 85℃;
·工作電壓:AC165~260V;
·掉電保護(hù):電源斷電情況下,數(shù)據(jù)可保存10年;
3.2總結(jié)與展望
電能直供到戶是供電企業(yè)最重要的營(yíng)銷(xiāo)舉措,這使得電能營(yíng)銷(xiāo)部門(mén)的電能抄算業(yè)務(wù)量成倍增長(zhǎng)。采用新的遠(yuǎn)程抄表技術(shù)來(lái)改善用電治理和電能營(yíng)銷(xiāo)的裝備水平、優(yōu)化電能市場(chǎng)服務(wù)的技術(shù)手段是供電企業(yè)最緊迫的需求。
我國(guó)的低壓電能供給都是以配電變壓器為一個(gè)臺(tái)區(qū)單元,在配電變壓器和用戶之間不使用任何獨(dú)立的中繼通信設(shè)備或?qū)S眯诺?,直接利用低壓電力線構(gòu)成與低壓電網(wǎng)系統(tǒng)結(jié)構(gòu)相對(duì)應(yīng)的用戶電能表終端+配變集中器+營(yíng)業(yè)站電能抄算主機(jī)組網(wǎng)的遠(yuǎn)程抄表系統(tǒng),我們認(rèn)為這符合低壓遠(yuǎn)抄系統(tǒng)的主流發(fā)展方向,因而具有推廣應(yīng)用前景。
具有低壓擴(kuò)頻載波數(shù)據(jù)遠(yuǎn)傳功能的用戶電能表終端和配變集中器是構(gòu)成本文所提出的遠(yuǎn)程抄表方案的核心裝置。最終的技術(shù)目的的實(shí)現(xiàn)必須建立在成功地開(kāi)發(fā)用戶電表終端和配變集中器的基礎(chǔ)之上,還要做營(yíng)業(yè)站抄算主機(jī)的軟件編制和數(shù)據(jù)庫(kù)編制。顯然本文所做的工作還離這一目標(biāo)有相當(dāng)長(zhǎng)的一段距離。本文只是對(duì)用戶電能表終端及其擴(kuò)頻載波通信模塊作了實(shí)用化開(kāi)發(fā)設(shè)計(jì)和樣機(jī)試制,并且通過(guò)樣機(jī)的現(xiàn)場(chǎng)測(cè)試。配變集中器、軟件只作了一個(gè)方案性的設(shè)計(jì)。
本文所取得的另一個(gè)成果就是,把用戶電能表終端設(shè)計(jì)成一個(gè)智能化的綜合性終端,除了完成電能的記錄和計(jì)量外,它還具有用戶現(xiàn)場(chǎng)防竊電、防誤接線、故障保護(hù)、遠(yuǎn)方停送電、遠(yuǎn)方修改電能表參數(shù)和負(fù)荷控制功能,這些技術(shù)手段對(duì)提高供電企業(yè)的用電治理水平無(wú)疑具有積極的意義。
參考文獻(xiàn)
[1]邵源,鐘炬,等.關(guān)于低壓用戶集中抄表系統(tǒng)綜述.電力系統(tǒng)自動(dòng)化,1999(9).[2]徐平平,邱玉春.電力集中抄表中的通信技術(shù).電力系統(tǒng)通信,1999(4).[3]楊士中.靜電無(wú)繩廣播方法.[4]周世煒,張紹卿,洪文學(xué).一種基于電力配電網(wǎng)絡(luò)的雙向工頻通信技術(shù).電子技術(shù),1999(8).[5]邱玉春.利用電力線組網(wǎng)的監(jiān)控網(wǎng)絡(luò)協(xié)議選擇.現(xiàn)代通信,2000(1).[6]邱玉春,徐平平.低壓電力線載波通信特性分析.電力系統(tǒng)通信,1998:6(48).
第五篇:信息檢索論文
論搜索引擎中文自動(dòng)分詞技術(shù)
【摘要】
搜索引擎是應(yīng)用在web上的軟件系統(tǒng),它以一定的策略搜集和發(fā)現(xiàn)信息,再對(duì)信息進(jìn)行處理和組織后為用戶提供web信息查詢服務(wù)。搜索引擎分三個(gè)大模塊:網(wǎng)頁(yè)搜集,預(yù)處理和查詢服務(wù)。其中對(duì)搜索信息的預(yù)處理階段的關(guān)鍵技術(shù)是中文分詞和建立倒排文件,本文主要論述搜索引擎工作過(guò)程中的中文自動(dòng)分詞技術(shù)。
【關(guān)鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】
信息的飛速增長(zhǎng),使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話題。目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語(yǔ)言自身的書(shū)寫(xiě)方式不同,這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞。
一、為什么要進(jìn)行分詞?
漢語(yǔ)是世界上最古老和最豐富的語(yǔ)言之一,但是漢語(yǔ)語(yǔ)法才有將近一百年的歷史,而且現(xiàn)代漢語(yǔ)白話文的形成歷史也比較短,加上漢語(yǔ)自身的特點(diǎn),因此它的形式化研究更加困難。對(duì)英文而言,是以詞為單位,詞與詞之間有空格隔開(kāi),而中文是以字為單位,多個(gè)字連在一起才能構(gòu)成一個(gè)表達(dá)具體含義的詞,詞與詞之間沒(méi)有分割,因此,對(duì)于支持自然語(yǔ)言檢索的工具,從語(yǔ)句中劃分出具有獨(dú)立意義的詞的過(guò)程即進(jìn)行中文分詞必不可少。
二、什么是中文分詞?
中文分詞技術(shù)就是搜索引擎針對(duì)用戶提交查詢的關(guān)鍵串進(jìn)行的查詢處理后,根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。例如,英文句子I am a student,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱(chēng)為切詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是 一個(gè) 學(xué)生。
三、中文分詞與搜索引擎
分詞技術(shù)使用在搜索引擎網(wǎng)頁(yè)預(yù)處理階段。搜索引擎網(wǎng)頁(yè)預(yù)處理第一步是為原始網(wǎng)頁(yè)建立索引,形成索引網(wǎng)頁(yè)庫(kù);第二步是對(duì)網(wǎng)頁(yè)進(jìn)行切分,也就是分詞,將每一篇網(wǎng)頁(yè)轉(zhuǎn)化為一組次的集合;最后將網(wǎng)頁(yè)索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁(yè)的映射,形成倒排文件。
中文分詞到底對(duì)搜索引擎有多大影響?對(duì)于搜索引擎來(lái)說(shuō),最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁(yè)中找到所有結(jié)果沒(méi)有太多的意義,沒(méi)有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱(chēng)為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。而且中文分詞的準(zhǔn)確度,對(duì)搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。
四、中文分詞技術(shù)的分類(lèi)
我們討論的分詞算法可分為三大類(lèi):基于字典、詞庫(kù)匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。(一)基于字典、詞庫(kù)匹配的分詞方法
這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。
常用的幾種機(jī)械分詞方法如下:
(1)最大正向匹配法(MaximumMatching Method)通常簡(jiǎn)稱(chēng)為MM法
其基本思想為:假定分詞詞典中的最長(zhǎng)詞有i個(gè)漢字字符,則用被處理文檔的當(dāng)前字串中的前i個(gè)字作為匹配字段,查找字典。若字典中存在這樣的一個(gè)i字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來(lái)。如果詞典中找不到這樣的一個(gè)i字詞,則匹配失敗,將匹配字段中的最后一個(gè)字去掉,對(duì)剩下的字串重新進(jìn)行匹配處理…… 如此進(jìn)行下去,直到匹配成功,即切分出一個(gè)詞或剩余字串的長(zhǎng)度為零為止。這樣就完成了一輪匹配,然后取下一個(gè)i字字串進(jìn)行匹配處理,直到文檔被掃描完為止。
(2)逆向最大匹配法(Recerse MaximumMatching Method))通常簡(jiǎn)稱(chēng)為RMM法
RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開(kāi)始匹配掃描,每次取最末端的2i個(gè)字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個(gè)字,繼續(xù)匹配。相應(yīng)地,它使用的分詞詞典是逆序詞典,其中的每個(gè)詞條都將按逆序方式存放。在實(shí)際處理時(shí),先將文檔進(jìn)行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對(duì)逆序文檔用正向最大匹配法處理即可。
由于漢語(yǔ)中偏正結(jié)構(gòu)較多,若從后向前匹配,可以適當(dāng)提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統(tǒng)計(jì)結(jié)果表明 ,單純使用正向最大匹配的錯(cuò)誤率為 1/16 9,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。例如切分字段“碩士研究生產(chǎn)”,正向最大匹配法的結(jié)果會(huì)是“碩士研究生 / 產(chǎn)”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結(jié)果“碩士 / 研究 / 生產(chǎn)”。
(3)最少切分法:使每一句中切出的詞數(shù)最小。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。
一種方法是改進(jìn)掃描方式,稱(chēng)為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類(lèi)標(biāo)注結(jié)合起來(lái),利用豐富的詞類(lèi)信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。
(二)全切分和基于詞的頻度統(tǒng)計(jì)的分詞方法
基于詞的頻度統(tǒng)計(jì)的分詞方法是一種全切分方法。在討論這個(gè)方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。(1)全切分
全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎(chǔ)上的分詞方法不管采取何種歧義糾正策略,都可能會(huì)遺漏正確的切分,造成分詞錯(cuò)誤或失敗。而建立在全切分基礎(chǔ)上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。
全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒(méi)有在文本處理中廣泛地采用。(2)基于詞的頻度統(tǒng)計(jì)的分詞方法:
這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),次數(shù)越高的就可能是一個(gè)詞。它首先切分出與詞表匹配的所有可能的詞,運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來(lái)。
(三)基于知識(shí)理解的分詞方法
該方法主要基于句法、語(yǔ)法分析,并結(jié)合語(yǔ)義分析,通過(guò)對(duì)上下文內(nèi)容所提供信息的分析對(duì)詞進(jìn)行定界,它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷。這類(lèi)方法試圖讓機(jī)器具有人類(lèi)的理解能力,需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式。因此目前基于知識(shí)的分詞系統(tǒng)還處在試驗(yàn)階段。
(四)一種新的分詞方法
并行分詞方法:這種分詞方法借助于一個(gè)含有分詞詞庫(kù)的管道進(jìn)行 ,比較匹配過(guò)程是分步進(jìn)行的 ,每一步可以對(duì)進(jìn)入管道中的詞同時(shí)與詞庫(kù)中相應(yīng)的詞進(jìn)行比較 ,由于同時(shí)有多個(gè)詞進(jìn)行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級(jí)內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。
到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來(lái)去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來(lái)處理不同的問(wèn)題。
五、分詞中的難題
有了成熟的分詞算法,是否就能容易的解決中文分詞的問(wèn)題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語(yǔ)言,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。在中文分詞過(guò)程中,有兩大難題一直沒(méi)有完全突破。
(一)切分歧義
就人對(duì)漢語(yǔ)的理解而言,漢語(yǔ)的分詞是一個(gè)理解的過(guò)程,這個(gè)過(guò)程綜合了詞法、語(yǔ)法、語(yǔ)義等各種信息。因此,一個(gè)理想的分詞系統(tǒng)也應(yīng)綜合運(yùn)用這些信息,而在計(jì)算機(jī)處理中這些信息的提取又是以分詞為前提的。所以,分詞與這些信息的運(yùn)用是既相聯(lián)系又相制約的一種相輔相成的關(guān)系,而純粹的機(jī)械切分必然會(huì)帶來(lái)切分歧義。
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:學(xué)歷史知識(shí),因?yàn)椤皩W(xué)歷”和“歷史”都是詞,那么這個(gè)短語(yǔ)就可以分成“學(xué)歷”和“歷史”。這種稱(chēng)為交叉歧義。像這種交叉歧義十分常見(jiàn)由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。
交叉歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來(lái)判斷了。例如,在句子“這個(gè)門(mén)把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開(kāi)”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣(mài)完了”,可以切分成“乒乓 球拍 賣(mài) 完 了”、也可切分成“乒乓球 拍賣(mài) 完 了”,如果沒(méi)有上下文其他的句子,恐怕誰(shuí)也不知道“拍賣(mài)”在這里算不算一個(gè)詞。
(二)新詞
專(zhuān)業(yè)術(shù)語(yǔ)稱(chēng)為未登錄詞。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱(chēng)為詞的那些詞。最典型的是人名,人可以很容易理解句子“張三虎是山東人”中,“張三虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“張三虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問(wèn)題,例如:在句子“張三虎頭虎腦的”中,“張三虎”還能不能算詞?
新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等,還有目前網(wǎng)絡(luò)流行語(yǔ)詞,如“有沒(méi)有”、“傷不起”“神馬浮云”、“童鞋們”、“蘿莉”等等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。
判斷一個(gè)系統(tǒng)的中文分詞功能好壞,主要在于消歧功能和對(duì)未登錄詞識(shí)別功能。并且優(yōu)秀的分詞策略應(yīng)該是盡量不拆分,需要拆分時(shí),先把長(zhǎng)的拆成中的,如果結(jié)果還是少,再把中的拆成短的。
【參考文獻(xiàn)】
【1】 吳勝遠(yuǎn);并行分詞方法的研究--《計(jì)算機(jī)研究與發(fā)展》1997年07期
【2】 張旭;一個(gè)基于詞典與統(tǒng)計(jì)的中文分詞算法[D];電子科技大學(xué);2007年
【3】 梁斌;走進(jìn)搜索引擎 電子工業(yè)出版社 2007年1月
【4】(美)克羅夫特;搜索引擎:信息檢索實(shí)踐 機(jī)械工業(yè)出版社
2010年