欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      信息檢索論文(完整版)

      時間:2019-05-13 21:42:49下載本文作者:會員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《信息檢索論文(完整版)》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《信息檢索論文(完整版)》。

      第一篇:信息檢索論文(完整版)

      信息檢索論文(完整版)

      網(wǎng)絡(luò)信息檢索工具研究

      摘 要 網(wǎng)絡(luò)信息資源的迅猛增長,使人們獲得有用信息越來越困難,網(wǎng)絡(luò)檢索工具應(yīng)運而生,文章介紹了網(wǎng)絡(luò)信息檢索工具的類型和功能,提出了檢索工具的發(fā)展趨勢。

      關(guān)鍵詞 因特網(wǎng);網(wǎng)絡(luò)檢索;檢索工具

      Abstract The quick increase of net in formation makes it more and more difficult for people to get useful information.Net search tools emerged as the times require.The paper introduce several kinds and functions of net search tools , put forward the development tendency of net search tools.Key words Internet;net search;search tool

      席卷而來的因特網(wǎng)正將全世界的豐富信息資源帶到我們每一個人面前,已成為知識經(jīng)濟時代不可或缺的基本工具。然而在這樣無邊無盡的信息世界,找尋所需要的信息卻成為一個極大的難題。網(wǎng)絡(luò)信息檢索工具由此產(chǎn)生并迅速繁榮發(fā)展,毫無疑問地成為這一信息海洋的航標與燈塔。了解網(wǎng)絡(luò)信息檢索工具,熟悉其功能,將大大提高我們的檢索效率。

      網(wǎng)絡(luò)信息檢索工具的類型

      網(wǎng)絡(luò)信息檢索工具是指在因特網(wǎng)上提供信息檢索服務(wù)的計算機系統(tǒng),其檢索的對象是存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡(luò)信息資源。按檢索資源的類型,可分為兩大類:即非web資源檢索工具和web資源檢索工具。

      1.1非web資源檢索工具

      非web 資源檢索工具是以 FTP、Telnet、Gopher等為檢索對象。

      (1)FTP類的檢索工具

      這是一種實時的聯(lián)機檢索工具,用戶首先要登陸到對方的計算機,登陸后即可以進行文獻搜索及文獻傳輸有關(guān)的操作。使用 FTP(文件傳輸協(xié)議)幾乎可以傳輸任何類型的正文文件、二進制文件、圖像文件、聲音文件、數(shù)據(jù)壓縮文件等。在這類檢索工具中,Archie是最常用的。Archie是自動標題檢索軟件,它借助于 FTP來訪問。用戶只需告訴其要檢索文件名的有關(guān)信息便可獲得文件所在的主機名、路徑。與一般檢索工具不同的是,它不用主題來實現(xiàn)相應(yīng)的檢索,而只能根據(jù)文件名和目錄名進行檢索。它是獲取免費軟件和共享軟件資源不可缺少的工具。

      (2)Telnet 類的檢索工具

      它指的是借助遠程登陸在網(wǎng)絡(luò)通信協(xié)議的支持下,在遠程計算機上登陸,使自己的計算機暫時成為遠程計算機的終端,進而可以實時訪問,使用遠程計算機中對外開放的資源。

      使用Telnet協(xié)議進行遠程登陸時需要滿足以下條件:本地計算機上必須裝有包含Telnet協(xié)議的客戶程序;必須知道遠程主機的IP地址或域名;必須知道登錄標識與口令。Telnet遠程登錄服務(wù)分為以下4個過程:

      a.本地與遠程主機建立連接。該過程實際上是建立一個TCP連接,用戶必須知道遠程主機的IP地址或域名;

      b.將本地終端上輸入的用戶名和口令及以后輸入的任何命令或字符以 NVT(Net Virtual Termin al)格式傳送到遠程主機。該過程實際上是從本地主機向遠程主機發(fā)送一個IP數(shù)據(jù)報;

      c.將遠程主機輸出的NVT格式的數(shù)據(jù)轉(zhuǎn)化為本地所接受的格式送回本地終端,包括輸入命令回顯和命令執(zhí)行結(jié)果;

      Telnet類的檢索工具的特點為只有文字模式,缺乏展現(xiàn)多媒體的能力;不同的系統(tǒng),采用不同的指令與操作方式;必須擁有登陸口令和密碼;使用者人數(shù)受到限制;查得的資料需逐頁的顯示,不利于大幅度的翻頁檢視。

      HYTE LNET是用于 Telnet 信息資源的檢索工具。它以超文本形式分門別類的匯集并羅列了數(shù)量相當多的 Telnet信息資源,在遠程登錄后,對方系統(tǒng)往往設(shè)有專門的檢索型工具,以方便用戶查找和利用。

      (3)基于菜單式的檢索工具----Gopher

      Gopher是一種交互式、菜單式信息查詢軟件,它將各種信息資源加以分類,再用菜單的形式顯示給用戶。Gopher采用客戶機/服務(wù)模式。當用戶啟動一Gopher 客戶程序時,建立與Gopher服務(wù)器的連接,Gopher 服務(wù)器發(fā)送一 Gopher 菜單給用戶的客戶程序。菜單中的每一項都對應(yīng)一個信息文件或另一個菜單。若用戶選定的菜單項對應(yīng)一個信息文件,則Gopher 將檢索這個文件并顯示其內(nèi)容;若選定的菜單項對應(yīng)另一個菜單,Gopher 將檢索這個新菜單,使用戶能夠在這個新菜單中挑選一個新菜單項。這樣,在菜單的引導下,當用戶選擇了一個菜單項時,Gopher軟件將自動確定該菜單項所駐留的計算機,用戶可以對因特網(wǎng)上的遠程聯(lián)機系統(tǒng)進行實時訪問。Gopher只支持純文字環(huán)境,無法提供影像、聲音服務(wù)。目前通過Gopher可以進行以下類型信息查詢:文本文件信息查詢、Telnet信息查詢、電話簿查詢、專有格式文件查詢。

      這類檢索工具是一種分布式信息查詢工具,它將用戶的請求自動轉(zhuǎn)換成FTP或Telnet 命令,在一級一級的菜單引導下,用戶可以選取自己感興趣的信息資源。這對于不熟悉網(wǎng)絡(luò)資源、網(wǎng)絡(luò)地址和查詢命令的用戶是十分簡便的方法。在這類檢索工具中最常見的是 Veronica和Jughead。如Veronica用于檢索可由 G opher 菜單訪問的信息資源,是與Gopher配套的檢索工具。它根據(jù)用戶給出的檢索詞進行檢索,可檢索文件名、目錄名、文檔及其他信息資源。d.最后,本地終端對遠程主機進行撤消連接。該過程是撤銷一個TCP連接。

      1.2 web資源檢索工具

      web信息資源是指建立在超文本、超媒體技術(shù)基礎(chǔ)上,集文本、圖形、圖像、聲音為一體,并以直觀的圖形用戶界面展現(xiàn)和提供信息的網(wǎng)絡(luò)資源形式,與之對應(yīng)的 web 檢索工具多種多樣,大體分為三類:搜索引擎、目錄型檢索工具、多元搜索引擎。

      (1)搜索引擎

      搜索引擎使用自動索引軟件來發(fā)現(xiàn)、收集并標引網(wǎng)頁 ,建立數(shù)據(jù)庫;以 Web形式提供給用戶一個檢索界面,供用戶輸入檢索關(guān)鍵詞、詞組或短語等檢索項;代替用戶在數(shù)據(jù)庫中找出與提問匹配的記錄 , 并返回結(jié)果且按相關(guān)度排序輸出。使用此類工具的檢索方法被稱為“關(guān)鍵詞搜索”,可以在主頁查詢,也可以在類目下查詢。此類檢索工具的優(yōu)點是信息量大且新 , 速度快;缺點是準確性較差。著名的搜索引擎如Meta Vista、Excite、天網(wǎng)、悠游等。

      根據(jù)其邏輯功能的不同,可分為:搜索器、分析器、索引器、檢索器、用戶接口。搜索器,也稱為蜘蛛系統(tǒng)(Spider)或爬蟲系統(tǒng)(Crawler),其功能是遵循一定的協(xié)議,在互聯(lián)網(wǎng)中及時發(fā)現(xiàn)、搜索新的網(wǎng)頁信息,并更新索引數(shù)據(jù)庫中的已有網(wǎng)頁信息,避免死鏈接。分析器的功能是借助于詞頻統(tǒng)計、詞語位置認定和一些特殊的算法,對搜索器抓回的網(wǎng)頁進行標引,并對其中的網(wǎng)頁超鏈接進行關(guān)聯(lián)。索引器的功能是根據(jù)分析器生成的關(guān)鍵詞,建立從關(guān)鍵詞到網(wǎng)頁 URL 的關(guān)系索引倒排文檔,即建立索引數(shù)據(jù)庫。檢索的功能是根據(jù)用戶輸入的提問詞,在索引數(shù)據(jù)庫中進行提問詞與索引詞的匹配運算,然后將查詢結(jié)果按相關(guān)程度排序并輸出到用戶接口子系統(tǒng)。用戶接口,其功能是提供人機交互的檢索接口,接收輸入的用戶檢索提問并輸出檢索結(jié)果。搜索引擎是自動標引,故收錄、加工信息的范圍廣、速度快,能及時地向用戶提供新增信息。但由于缺乏人工干預,準確性較差,信息重復率高,誤檢率較高;另外,檢索策略的構(gòu)造和輸入方式也會直接影響其檢索結(jié)果。一般來說,搜索引擎適合于檢索特定的信息及較為專、深、具體或類屬不明確的課題。

      (2)目錄型檢索工具

      它是按照某種分類體系編制的一種可供檢索的等級結(jié)構(gòu)式目錄。分類方法以學科分類為主,也有采用圖書分類方法的。使用此類工具的檢索方法被稱為“分類搜索”,這是一種“自頂向下、逐步細化”的搜索方法。自頂開始,每一層都分布有若干“鏈接點”,選擇其中一個,就可沿此分支進入下一層,直到出現(xiàn)所需目標。此類檢索工具的優(yōu)點是檢索質(zhì)量較高,缺點是檢索到的信息數(shù)量有限,且新穎性不夠。有代表性的目錄型檢索工具如 Y ahoo、G alaxy、Lycos、網(wǎng)易、263 等?,F(xiàn)在,搜索引擎和目錄型檢索工具逐漸整合在一起,以增強檢索能力。

      (3)多元搜索引擎

      多元搜索引擎是將多個搜索引擎集成在一起,并提供一個統(tǒng)一的檢索界面 , 且將一個檢索提問同時發(fā)送給多個搜索引擎,同時檢索多個數(shù)據(jù)庫,再經(jīng)過聚合、去重之后輸出檢索結(jié)果。其優(yōu)點是省時,缺點是由于不同搜索引擎的檢索機制、所支持的檢索算法、對提問式的解讀等均不相同,導致檢索結(jié)果的準確性差。常用的多元搜索引擎有DOGPI LE、INFEREN等。

      多元搜索引擎分為并行處理式和串行處理式兩大類。并行處理式元搜索引擎將用戶的查詢請求同時轉(zhuǎn)送給它調(diào)用鏈接的多個獨立型搜索引擎進行查詢處理,串行處理式元搜索引擎將用戶的查詢請求依次轉(zhuǎn)送給它調(diào)用鏈接的每一個獨立型搜索引擎進行查詢處理。

      多元搜索引擎雖沒有網(wǎng)頁搜尋機制,亦無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。如提交檢索請求時,根據(jù)源搜索引擎的特點和技術(shù)參數(shù), 指定優(yōu)先順序,并對檢索時間、檢索結(jié)果數(shù)量進行控制;作為若干源搜索引擎的檢索接口代理,多元搜索引擎必須具有較強的字符和語法轉(zhuǎn)換功能,使用戶的檢索請求為各具語法特點的不同的源搜索引擎所人知和接受;而對檢索結(jié)果的顯示,不同的多元搜索引擎有不同的處理技術(shù),由于多元搜索引擎設(shè)定的檢索結(jié)果排序依據(jù)、最大返回結(jié)果數(shù)量、相關(guān)度參數(shù)及優(yōu)化機制等不同,調(diào)用相同的源搜索引擎的不同多元搜索引擎顯示檢索結(jié)果的數(shù)量多少、排序先后、結(jié)果信息描述選擇亦有較大差異。多元搜索引擎搜索將用戶的檢索式同時轉(zhuǎn)給不同的引擎幫助檢索,并將檢索結(jié)果中重復的部分刪去。這樣,既擴大了檢索范圍,又節(jié)省了在不同的搜索引擎之間轉(zhuǎn)換的時間,節(jié)省了時間,查全率高,漏檢率低;但是由于不同搜索引擎的檢索機制、所支持的檢索算法、對提問式的解讀等均不相同,導致檢索結(jié)果的準確性差,查準率低。

      網(wǎng)絡(luò)信息檢索工具的功能

      網(wǎng)絡(luò)檢索工具產(chǎn)生和發(fā)展的歷史雖然不長,但它的功能卻非常強大,關(guān)鍵詞檢索(Keyword)是最基本功能,包括以下幾個方面:

      2.1布爾邏輯檢索

      布爾檢索在網(wǎng)絡(luò)信息資源檢索中使用的相當廣泛,常用的布爾邏輯算符有 3 種: 邏輯或(運算符為 OR/ or ,有時也可用“|”符號表示)、邏輯與(運算符為 AND/ and ,有時也可用“&”、“+ ”號表示)、邏輯非(運算符為NOT/ not,有時也可用“!”、“-”號表示)。檢索中使用邏輯算符是最頻繁的,對邏輯算符使用的技巧決定檢索結(jié)果的滿意程度。用布爾邏輯算符表達檢索要求,除要掌握檢索課題的相關(guān)因素外,還應(yīng)注意布爾算符對檢索結(jié)果的影響。對同一個布爾邏輯提問式來說,不同的運算次序,其檢索結(jié)果亦不同。

      2.2 詞組檢索

      詞組檢索是將一個詞組作為一個獨立運算單元,進行嚴格匹配以提高檢索的精度和準確度。詞組檢索是一般數(shù)據(jù)庫中最常用的方法,是通過使用逗號、雙引號和括號進行檢索。逗號的作用類似于 OR ,但“越多越好”,因為查尋時找到的關(guān)鍵詞越多,文檔排列的位置越靠前,例如:查尋輸入“計算機”、“辦公自動化”和“WORD2000”,則查尋結(jié)果中,同時包含“計算機”、“辦公自動化”和“Word2000”的文檔將出現(xiàn)在搜索結(jié)果的最前邊。雙引號的作用就是把引號內(nèi)的關(guān)鍵詞的組合當作一個字符串看待,然后進行檢索。例如,要檢索有關(guān)古典音樂方面的信息 ,可以連同引號在內(nèi)鍵入“classic music”,檢索時就把“c1assic music”作為一個詞來進行檢索。括號的作用與數(shù)學的括號相一致,使括號內(nèi)的操作符先起作用。例如 , 如果輸入的關(guān)鍵詞是:(網(wǎng)址OR文檔)AND(搜索OR查找),則實際檢索時,關(guān)鍵詞就是“網(wǎng)址搜索”、“網(wǎng)址查找”或“文檔搜索”、“文檔查找”。

      2.3 字段檢索

      字段檢索是一種用于限定提問關(guān)鍵詞在數(shù)據(jù)庫記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,提高檢索效果的手段,多以字段限定方式實現(xiàn)。搜索引擎常用的字段有: Ti2tle/t(表示查找標題中包含檢索提問式的頁面)、Subjec(表示查找主題中包含檢索提問式的頁面)、Text(表示文本中包含檢索提問式的頁面)、bost(主機。表示在指定的服務(wù)器上查找頁面)、URL/ u(表示查找URL 中包含檢索提問式的頁面)、domain(域名表示查找指定域名的各頁面)、1ihk(鏈接。表示查找含有鏈接至URL 的頁面)等。

      2.4 截詞檢索

      為提高查全率而設(shè)計,絕大多數(shù)網(wǎng)絡(luò)檢索都支持這一功能,有的是自動截詞 , 有的是有條件的截詞,尤其在西文檢索工具中更是廣泛使用。因為西方語言的構(gòu)詞靈活,在詞干上加上不同性質(zhì)的前綴和后綴,就可以派生出很多新的詞匯,這些詞之間的基本含義是一致的,如果不采取措施在檢索式中列出一個詞的所有派生形式,就容易出現(xiàn)漏撿。截詞檢索按截斷的位置分后截斷、前截斷、中截斷3種類型。不同的系統(tǒng)所使用的截詞符也不同,常用的有“?”、“| S”、“3 ”等,因此 , 截詞檢索也稱為通配符檢索。例如,熱點 3代表“熱點問題”、“熱點新聞”、“熱點報道”等詞。

      2.5 位置檢索

      位置檢索是指允許指定 2 個單詞之間的詞序和詞距的檢索。詞序指單詞之間前后順序 , 詞距指 2 個單詞之間間隔單詞數(shù)。其操作符多為“NEAR”。例如 , 網(wǎng)絡(luò) NEAR 圖書館 , 表示檢索結(jié)果中網(wǎng)絡(luò)與圖書館二詞之間的位置比較臨近。每個支持位置檢索的搜索引擎對 NEAR 操作的字段間隔數(shù)的設(shè)置是不同的 , 有的設(shè)置在25個單詞之內(nèi)。

      2.6 概念檢索

      概念檢索是指使用某一檢索提問詞進行檢索時 , 能同時對該詞的同義詞、近義詞、廣義詞、狹義詞同樣進行檢索 , 以達到擴大檢索 , 避免漏檢的目的。例如 , 當您使用自行車檢索時 , 檢索結(jié)果不僅包括自行車的內(nèi)容 , 還包含腳踏車、單車等的內(nèi)容。

      網(wǎng)絡(luò)信息檢索工具性能分析方法

      3.1檢索工具性能分析的內(nèi)容

      網(wǎng)絡(luò)信息檢索工具在標引過程中,大多數(shù)采用了傳統(tǒng)檢索工具的標引技術(shù)。它包括:分類標引技術(shù)、主題詞標引技術(shù)和關(guān)鍵詞標引技術(shù)等。其實現(xiàn)方法大多是使用計算機自動標引技術(shù)來實現(xiàn)的。因此網(wǎng)絡(luò)信息檢索工具的性能分析方法和內(nèi)容也主要參考傳統(tǒng)檢索工具標準來進行。同時,根據(jù)網(wǎng)絡(luò)信息的特點,適當增加相應(yīng)的性能指標和技術(shù)指標。

      (1)收錄信息范圍。收錄范圍主要指該搜索引擎網(wǎng)絡(luò)信息的搜集范圍和報道范圍,網(wǎng)絡(luò)搜索引擎從收錄范圍分為專用搜索引擎和通用搜索引擎。

      (2)查全率。查全率指在查詢主題的所有信息中,查出信息和全部信息的比率。它是評價網(wǎng)絡(luò)信息檢索工具的一個重要定量指標。但是,無論是傳統(tǒng)文獻檢索工具還是網(wǎng)絡(luò)信息搜索引擎,這都是一個難于計算的指標,主要原因在于信息的總量是未知的,通常是一個大概數(shù)字,在網(wǎng)絡(luò)信息中信息的總量更加難于計算。

      (3)查準率。查準率是在查到的全部信息中,符合查詢要求的信息數(shù)量所占的比率。

      (4)檢索速度。檢索速度是衡量搜索引擎的一個重要指標,它包括網(wǎng)絡(luò)傳輸速度和查詢速度組成。

      (5)檢索方法。檢索方法指搜索引擎提供的檢索組合方法,主要指邏輯組配(and、or、not 等)方法,是否提供截詞檢索等。

      (6)檢索途徑。檢索途徑指檢索的人口點。對于網(wǎng)絡(luò)檢索工具,其檢索途徑主要是關(guān)鍵詞檢索和分類檢索%由于網(wǎng)絡(luò)信息類型的復雜性,檢索工具通常提供網(wǎng)站檢索、網(wǎng)頁檢索、新聞檢索等,主要是按照信息類型提供檢索途徑。

      (7)死鏈率。死鏈率指在查到的信息中,不能鏈接的占查到總數(shù)的比率。用來反映網(wǎng)絡(luò)信息檢索工具的可靠性。

      (8)錯鏈率。錯鏈率指在查到的信息中,不能鏈接到正確站點的鏈接數(shù)占查到總數(shù)的比率。用來反映網(wǎng)絡(luò)信息檢索工具的可靠性和準確性。

      (9)結(jié)果處理。結(jié)果處理主要指是否將檢索結(jié)果排序,排序的主要方法是按照與檢索關(guān)鍵詞的相關(guān)程度,或者是關(guān)鍵詞出現(xiàn)的頻數(shù)排序。經(jīng)過排序的檢索結(jié)果,用戶首先看到的是最接近用戶需要的信息。需要注意的是,關(guān)鍵詞出現(xiàn)頻率高的網(wǎng)絡(luò)信息并不一定和用戶的檢索要求相吻合。

      除了這些主要的技術(shù)指標外,網(wǎng)絡(luò)信息檢索工具的評價和性能分析還包括?更新周期、信息搜集方式、界面設(shè)計和幫助等%評價的方法主要包括定性分析評價和定量分析評價兩種。

      3.2統(tǒng)計分析法評價網(wǎng)絡(luò)信息檢索工具

      在對網(wǎng)絡(luò)檢索工具的定量分析評價中,統(tǒng)計分析是最常用的方法之一。在用統(tǒng)計分析方法對網(wǎng)絡(luò)信息檢索工具進行分析評價時,應(yīng)采用以下步驟:

      (1)確定評價目標

      (2)確定評價項目。根據(jù)評價的目的要求,確定分析評價的項目和需要調(diào)查統(tǒng)計的項目,并制作調(diào)查表格。

      (3)瀏覽網(wǎng)站。通過對網(wǎng)站的瀏覽,確定該檢索工具的收錄范圍,包括主題范圍和信息類型范圍。

      (4)選擇關(guān)鍵詞。對網(wǎng)絡(luò)檢索工具進行統(tǒng)計分析,必須用實際的關(guān)鍵詞在檢索土具中查找,然后對查找結(jié)果進行分析,因此必須有檢索的關(guān)鍵詞。同時,在統(tǒng)計時,不可能對所有的關(guān)鍵詞和網(wǎng)絡(luò)中的所有信息進行統(tǒng)計,通常采用抽樣調(diào)查的方法,選取若干關(guān)鍵詞,通過對若干關(guān)鍵詞查詢結(jié)果的統(tǒng)計分析,來分析網(wǎng)絡(luò)信息檢索工具的一般情況。

      (5)計算統(tǒng)計結(jié)果 %根據(jù)統(tǒng)計結(jié)果計算查全率和查準率等,其計算方法如下 設(shè)樣本數(shù)為n ,單個關(guān)鍵詞的查準率為C1,死鏈率為 D1,錯鏈率為 E1,則平均查準率

      平均死鏈率

      平均錯鏈率

      上述結(jié)果通??梢苑从吃撍阉饕娴幕拘阅?但是由于樣本的選取范圍和選取數(shù)量的限制,這些數(shù)字往往有可能與實際的查詢結(jié)果有一定出入。

      (6)匯總分析結(jié)果,得出結(jié)論。對統(tǒng)計結(jié)果進行分析,進而分析該檢索工具的信息數(shù)量、信息質(zhì)量和可靠性 ,并做出判斷和結(jié)論。

      網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢

      科學技術(shù)的日新月異和用戶需求的不斷提高促使網(wǎng)絡(luò)檢索工具相應(yīng)發(fā)展,其發(fā)展趨勢大致可以分為以下幾個方面:

      一是檢索工具的智能化。智能檢索是基于自然語言的檢索形式,機器根據(jù)用戶所提供的以自然語言表達的檢索要求進行分析,形成檢索策略進行檢索。它主要包括智能搜索引擎、智能瀏覽器、智能化自動索引軟件。檢索工具的智能化的內(nèi)涵在于檢索工具具有學習、分析、辨別推理的能力,它們按照用戶的要求,對信息進行更深一步的分析,然后交由用戶。

      二是用戶友好化進一步提高。未來科技的發(fā)展都要以人為本,網(wǎng)絡(luò)信息檢索也不例外,用戶友好化是一個重要的發(fā)展趨勢。它主要包括兩個方面的內(nèi)容,一是用戶界面友好化,使用戶更方便、快捷的使用各種檢索工具,滿足用戶各種檢索要求。另一方面是更好的檢索結(jié)果提供方式,使用戶方便的進行瀏覽、選擇和利用。

      三是信息提供的深入化。這也包括兩個方面,一是檢索深度的提高,現(xiàn)階段,網(wǎng)絡(luò)檢索大多實行相關(guān)性檢索,其結(jié)果往往是海量的,這會分散用戶的注意力,背離原有的目的。為避免這種情況,就要求提高檢索深度,由相關(guān)性檢索向直接性檢索發(fā)展。另一方面是檢索內(nèi)容的綜合化與專業(yè)化相結(jié)合。網(wǎng)絡(luò)既提供廣泛的信息,又提供更深的內(nèi)容,依次服務(wù)于用戶。

      5.網(wǎng)絡(luò)信息檢索工具的競爭力要素

      5.1眾多的網(wǎng)絡(luò)信息檢索工具面臨著競爭的局面

      雖然網(wǎng)絡(luò)信息檢索工具幾乎都供免費使用,但實際上,開發(fā)、維護這些檢索工具的信息服務(wù)機構(gòu)多數(shù)以盈利為目的。

      每一個商業(yè)性信息服務(wù)機構(gòu)為了收回開發(fā)網(wǎng)絡(luò)信息檢索工具所投入的資金,為維護和進一步發(fā)展所開發(fā)的檢索工具還需繼續(xù)投人,并力求獲得更多盈利而信息市場空間是有限的,故各種網(wǎng)絡(luò)信息檢索工具都面臨著競爭的局面。網(wǎng)絡(luò)信息檢索服務(wù)機構(gòu)股票的上市,正說明了網(wǎng)絡(luò)信息檢索服務(wù)是一種商業(yè)活動,以盈利為目的而不可避免市場競爭。

      也有一些屬于非盈利性的開發(fā)機構(gòu),它們所開發(fā)的網(wǎng)絡(luò)信息檢索工具一般僅為本單位 如高等學校人員服務(wù),并且規(guī)模也不大,投入資金有保障,但也有一個保證質(zhì)量以取得實效的問題。現(xiàn)在,這類檢索工具中一些投人較大而有相當規(guī)模者,也要求推向市場 ,作為第三產(chǎn)業(yè)經(jīng)營管理,因而也要面臨市場競爭。

      5.2有效服務(wù)是增強網(wǎng)絡(luò)信息檢索工具競爭力的核心

      網(wǎng)絡(luò)信息檢索工具競爭取勝的主要標志是擁有更多的用戶,提高檢索工具的聲譽和權(quán)威性。用戶數(shù)量及他們對檢索工具的評價是關(guān)鍵。

      一個網(wǎng)絡(luò)信息檢索工具實際上有兩部分用戶一部分是希望利用檢索工具獲取信息以解決自己問題的用戶(這是在明面上的用戶),一般為其免費服務(wù),但也有少數(shù)項目可以收費;另一部分是希望利用檢索工具傳播自身信息的用戶(這是在其背后的用戶),其中多數(shù)用戶要付費,是網(wǎng)絡(luò)信息服務(wù)機構(gòu)收益的主要來源。但這兩部分用戶都很重要,缺一不可,而且互相影響。很明顯,一個用戶很少、聲譽不高、沒有權(quán)威性的網(wǎng)絡(luò)信息檢索工具,它的各種收入是不可能很多的。

      用戶數(shù)量的增長和聲譽的提高來自于有效的服務(wù),特別是對希望利用檢索工具獲取信息以解決自己問題的那一部分用戶的有效服務(wù)。有效服務(wù)是增強網(wǎng)絡(luò)信息檢索工具競爭力的核心。有效服務(wù)是以 網(wǎng)絡(luò)信息檢索工具的各種競爭力要素為基礎(chǔ)的。

      5.3網(wǎng)絡(luò)信息檢索工具競爭力諸要素

      (1)檢索工具對服務(wù)對象的適應(yīng)能力

      (2)覆蓋率和信息量

      (3)標引深度和標引準確率

      (4)檢索功能的多樣性和高效性

      (5)數(shù)據(jù)庫提供信息的時效性

      (6)檢索工具的易用程度

      (7)導航服務(wù)、文獻數(shù)據(jù)庫服務(wù)、具體信息發(fā)布傳遞服務(wù)相結(jié)合

      (8)特色服務(wù)項目

      (9)注重中國特色

      (10)減負原則的貫徹

      (11)聯(lián)合經(jīng)營

      (12)價格策略

      網(wǎng)絡(luò)信息檢索工具的研究具有非常重要的意義 , 隨著信息技術(shù)和新一代因特網(wǎng)的發(fā)展 , 它的研究和應(yīng)用也將邁上一個新的臺階 , 我們期待著網(wǎng)絡(luò)信息檢索工具的發(fā)展為網(wǎng)絡(luò)信息資源檢索帶來一個美好的明天。

      參 考 文 獻

      [1 ] 彭麗喃.專門、專業(yè)網(wǎng)絡(luò)檢索工具研究 [J ].現(xiàn)代情報 , 2004 ,(1): 89— 90.[2 ] 王相華.網(wǎng)絡(luò)信息檢索工具發(fā)展現(xiàn)狀及趨勢 [J ].今日科技 , 2002 ,(8): 27— 29.[3 ] 高凡.基于關(guān)鍵詞的網(wǎng)絡(luò)信息資源檢索 [J ].情報雜志 , 2003 ,(11): 90— 92.[4 ] 張彥潔 , 張向華.網(wǎng)絡(luò)信息資源的檢索方法和技巧[J ].現(xiàn)代情報 , 2003 ,(6): 22— 24.[5 ] 諶新華.網(wǎng)絡(luò)信息資源搜索方法 [ J ].現(xiàn)代情報 ,

      第二篇:信息檢索論文

      應(yīng)用化學

      化學與化工信息檢索論文

      題目:造紙污水處理技術(shù)現(xiàn)狀及進展

      學生姓名------學號--------專業(yè)應(yīng)用化學指導教師----

      2010年12月 25日

      造紙污水處理技術(shù)現(xiàn)狀及進展

      摘要:本文在查閱相關(guān)資料的基礎(chǔ)上,介紹了國內(nèi)外的造紙廢水處理的常用方法,并對各種方法進行了評價和分析,綜述了造紙廢水處理研究的現(xiàn)狀和進展。

      關(guān)鍵詞:造紙;廢水處理;治理技術(shù)

      隨著造紙工業(yè)的迅速發(fā)展,造紙工業(yè)廢水已經(jīng)成為水環(huán)境的重要污染源之一。在造紙過程中,除纖維素和部分半纖維素之外的大量有機物要進入廢水中,并且即使經(jīng)過充分的廢液回收利用,也還是或多或少地會有一些纖維素和半纖維素流失進入廢水中。含有大量有機物的造紙廢水排入水體,對水體會造成不同程度的污染。同時造紙過程中通常還需要加入一些必要的化學藥劑和化學助劑,這些物質(zhì)流失進入水體中更是加重了水體污染[1]。造紙工業(yè)的漂白工段通常是采用含氯化合物漂白,導致排出的漂白廢水中含有大量的氯化有機物,其中的氯苯酚、氯化脂肪酸、氯化樹脂酸、dioxin等有毒且難以處理的氯化有 機物,對環(huán)境中的生物具有強烈的毒害、致畸、致多發(fā)性腦神經(jīng)病變作用[2],因此如何有效地去除造紙廢 水中的含氯有機物已經(jīng)成為廢水處理的一大難題。本文在查閱大量文獻資料的基礎(chǔ)上主要介紹國內(nèi)外處理造紙廢水的方法和新技術(shù),并就國內(nèi)外治理造紙廢水的現(xiàn)狀和未來的發(fā)展前景加以評述。

      1概況

      據(jù)經(jīng)貿(mào)委粗略估計,目前我國大小造紙廠約有近萬家。造紙工業(yè)總的特點是:使用原料種類多、生產(chǎn)工藝類型多、中小企業(yè)多、技術(shù)裝備落后者多。調(diào)查統(tǒng)計表明,造紙工業(yè)廢水年排放總量達17億t,占工業(yè)廢 水總排放量的10以上。造 紙工業(yè)廢水主要包括黑液或紅液(蒸煮制漿廢水)、中段廢水(制漿洗滌、篩選、漂白廢水)、造紙 白水(抄紙廢水)三大類,其中蒸煮黑液的環(huán)境污染最為嚴重,占整個造紙工業(yè)污染的90%。制漿廢水 BOD、COD、SS、pH、色度、濁度等均嚴重超標;中段廢水成分與制漿廢水相近,但濃度低,富含漂白工段產(chǎn)生的對環(huán)境危害最大的有機氯化物;抄紙廢水中主要含有細小纖維、填料(高嶺土等)和膠料(松香等),BOD值較低。造紙工業(yè)廢水的治理是國內(nèi)外造紙行業(yè)亟待解決的難題[3]。

      2治理方法

      2.1物理化學法

      物理化學法是通過物理或者化學反應(yīng)的作用來達到去除廢水中的污染物的目的,主

      要有以下方法:

      2.1.1臭氧法

      臭氧氧化技術(shù)已問世多年,近年來,由于低成本的臭氧發(fā)生裝置和臭氧處理裝置的出現(xiàn)而重新成為研究熱點。臭氧(O3)是一種強氧化劑,O3作為兩性離子,能選擇性地分解發(fā)色基團。安郁琴[4]將經(jīng)過化學混凝處理后和經(jīng)過化學混凝過濾吸附處理后的麥革漿黑液利用臭氧法處理,處理 20分鐘后脫色率可以達到 82.1%,但 CODCr去除率僅 15.8%,BOD5去除率為24.8%,F(xiàn)f1此可見,臭氧脫色效果顯著,但對 CODCr和 BOD5的去除效果不明顯。臭氧在水中的溶解度較低,如何更有效地使臭氧溶解于水中從而提高其利用率已經(jīng)成為該技術(shù)研究的熱點。使用臭氧法也會產(chǎn)生其它副產(chǎn)物,其中最受關(guān)注的是羰基化合物中的醛類,比如甲醛、乙醛,這些物質(zhì)具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。

      2.1.2光催化氧化

      光催化氧化技術(shù)是近年來比較活躍的研究領(lǐng)域,光催化氧化技術(shù)是在光化學氧化技術(shù)的基礎(chǔ)上發(fā)展起來的。張志軍等[5]利用中壓汞燈作光源,研究了氯代二苯并一對一二啞英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反應(yīng),在室溫下,4h內(nèi)DCCD、PCDD和OCDD分別降解87.2%、84.6%和91.2%。M.Cristina Yeber等

      [6]將 TiO2、Zno同定在玻璃上,對漂白廢水進行了光催化氯化處理,處理 120min后,廢水的色度可完全去除,總酚含量減少了85%,TOC減少了50%,處理后殘留有機物的急性毒性和AOX比處理前大為減少,高分子化合物幾乎全部降解。

      2.1.3混凝法

      混凝法是目前國內(nèi)外重點研究的方向之一,該法適應(yīng)性強、基建投資低、管理簡單,是水處理常用的方法,在造紙行業(yè)的廢水處理中使用普遍。造紙廢水中由于含有大量纖維和化學藥劑,所以一般在處理造紙廢水時首先要用混凝法除去這些物質(zhì)。張學洪、解慶林[9]等利用聚合氯化鋁處理廣西某造紙廠的造紙終端廢水(CODcf=400mg/L),處理后可以達到國家污水排放標準(CODcf<100 mg/L)。黃國林、樂長高等[1O]利用水溶性酚醛樹脂和硫酸反應(yīng)得到的聚合物處理撫州某造紙廠制漿車間排污口的廢水,在最佳工藝條件下反應(yīng)時,CODc和ss去除率分別可以達到80%一85%和 90% 一95%,處理水可以達到排放標準。

      2.2 生物法

      廢水的生物處理方法就是利用微生物的新陳代謝功能使廢水中呈溶解狀和膠體狀的有機污染物被降解并轉(zhuǎn)化成無害穩(wěn)定的物質(zhì),使廢水得到凈化。生物法處理廢水因其運行成本低,效果較好而在廢水處理中得到了廣泛應(yīng)用。造紙廢水中含有大量有機物質(zhì),廢水的可生化性較好,可以為生物法的微生物提供大量的營養(yǎng)物質(zhì),從而能保證微生物的正常生長繁殖和生物法處理廢水的正常運行。利用生物法對造紙廢水進行二級處理可有效去除BOD、COD。造紙廢水生物處理法主要有以下幾種:

      2.2.1好氧生物處理法

      利用好氧微生物(主要為好氧菌)的新陳代謝作用來降解污染物,其中應(yīng)用最多的主要是活性污泥法,我國的科研人員對活性污泥法處理造紙廢水進行了大量的研究,取得了許多成功的經(jīng)驗。造紙廢水中的木素是不易生物降解的物質(zhì),活性污泥對木素具有極好的吸附性能,通過生物降解和活性污泥吸附作用,可達到除去木素的目的,從而降低溶解木素的濃度。芬蘭OULU紙漿廠[11]利用活性污泥法加污泥曝氣再生處理漂白硫酸鹽紙漿廢水,可使BOD去除率達 90%,COD去除率達84%?;钚晕勰喾ㄓ捎谄涮幚沓杀镜汀⒁子诠芾?、處理效果較好而在廢水處理中的應(yīng)用越來越多。

      2.2.2生物膜法

      相對于活性污泥系統(tǒng)而言,生物膜系統(tǒng)具有如下顯著優(yōu)點:高容積負荷、更強的抗毒能力和耐負荷沖擊能力、無須污泥回流且處理設(shè)施緊湊。朱光燦、呂錫武等[12]研究了采用脫木素—缺氧—好氧生物膜工藝處理造紙廢水。其中的脫木素工藝可有效地將黑液中堿木素脫穩(wěn)析出,并提高廢水的可生化性,當廢水 pH=5,絕干纖維污泥與廢水 COD質(zhì)量之比為 1.1,硫酸鋁投加量為 160m g/L時,COD去除率大于 63%。生物法在利用微生物處理造紙廢水時候,如果造紙廢水中含有大量不利于微生物生長的物質(zhì)時候,生物法處理效果較差,因此在制漿造紙過程中可以通過改變漂白劑的種類,提高造紙廢水的可生化性,使其更利于生物法處理。

      2.3 其他方法

      2.3.1電化學法

      利用電化學法進行廢水的處理是電化學法獲得應(yīng)用的典型領(lǐng)域。通過電化學反應(yīng)中的直接或者間接氧化和還原作用,可以破壞有毒或難降解有機物的結(jié)構(gòu),去除其生物毒性,提高其可生化性。電化學法處理廢水一般無需加入化學藥品,后處理簡單,占地面積小,管理方便,被稱為清潔處理法。景峰、王耀新、朱文菊等將電化學和凝聚沉淀法兩種方法聯(lián)合起來處理造紙廢水,使造紙廢水COD去除率達到55%~70%,色度去除,率達90%~95%[13]。目前關(guān)于電化學法的許多問題特別是降解機理、處理速度和經(jīng)濟

      性問題尚未完全解決,電化學處理廢水電耗較高,使該方法的工業(yè)應(yīng)用受到限制。

      2.3.2濕式空氣氧化法

      濕式空氣氧化法是目前研究較多的新型處理方法,即在高溫、高壓下在液相中利用空氣或者氧氣作為氧化劑,將廢水中的有機物氧化成二氧化碳和水,從而達到去除污染物的目的。國內(nèi)從80年代開始進行濕式空氣氧化法的研究,先后進行了造紙黑液、含硫廢水、酚水及煤制氣廢水、農(nóng)藥廢水、印染廢水等的實驗研究,目前,濕式空氣氧化法在國內(nèi)尚處于試驗階段。與常規(guī)方法相比,濕式空氣氧化法具有適用范圍廣、處理效率高等優(yōu)點。但由于濕式空氣氧化法一般要求在高溫高壓的條件下進行,對設(shè)備材料的要求較高,須耐高溫、高壓并耐腐蝕,因此設(shè)備費用高,系統(tǒng)的一次性投資大,在實際推廣應(yīng)用方面仍存在著一定的局限性。

      2.3.3超臨界水氧化法

      在處理難降解有機廢水方面,超臨界水氧化技術(shù)是目前研究較為活躍的新技術(shù)。由于超臨界水氣液 相界面消失.成為一均相體系,因而超臨界水中的有機物反應(yīng)速度極快。Model等[14]對有機炭含量達 27.33 g/L的廢水進行超臨界水氧化處理,在實驗條件下,1分鐘內(nèi)就使有機氯和有機炭的去除率分別達到99.99%和99.97%。超臨界水氧化技術(shù)具有良好的工業(yè)應(yīng)用前景,但是由于對反應(yīng)條件要求較為苛刻(高溫、高壓),對設(shè)備要求偏高,因此還有一些實際的技術(shù)問題需要解決。造紙廢水治理技術(shù)展望

      隨著全球可持續(xù)發(fā)展戰(zhàn)略的實施,循環(huán)經(jīng)濟和 清潔生產(chǎn)技術(shù)越來越受到人們的關(guān)注,造紙工業(yè)廢水治理從末端治理向清潔生產(chǎn)工藝、物質(zhì)循環(huán)利用、廢水回用綜合防治方向發(fā)展。未來造紙工業(yè)廢水治理將突出以下幾個方面:

      (1)貫徹循環(huán)經(jīng)濟理念、重視清潔生產(chǎn)技術(shù)的開發(fā)與應(yīng)用,提高物質(zhì)的轉(zhuǎn)化率和循環(huán)使用率,從源頭上削減各污染物的產(chǎn)生量并在廠內(nèi)將大量廢水循環(huán)回用,實現(xiàn)封閉循環(huán),結(jié)合廢水綜合治理,最終實現(xiàn)廢水零排放。

      (2)綜合目前國內(nèi)外技術(shù)發(fā)展情況,應(yīng)重視開發(fā)和引進先進的治理技術(shù):重視黑液 處理技術(shù)(主要為堿 回收 技術(shù))、重 視 SS、BOD、COD 的去除技術(shù)及脫色技術(shù)。

      (3)應(yīng)重視 生物處理方法在造紙工業(yè)廢水處理中的應(yīng)用,生物技術(shù)具有成本低、效益高、與其他方法組合可大大提高造紙廢水的處理率,隨著分子生物學技術(shù)、物種微生物技術(shù)的發(fā)展和應(yīng)用,具有高效、耐毒性的菌種不斷培育成功,為生物技術(shù)的廣泛應(yīng)用提供了前提條件。

      (4)人工濕地處理系統(tǒng)作為一種成本低廉、節(jié)能降耗、簡單易行、效果顯著、無二次污染的廢水處理技術(shù),是造紙廢水處理的新方法[15]。

      (5)廢紙造紙企業(yè)均存在諸多設(shè)計、建造、管理問題,阻礙廢水回用現(xiàn)狀的進一步改善。節(jié)水空間仍然很大。生產(chǎn)過程中,應(yīng)加強管理,培養(yǎng)員工節(jié)水意識。調(diào)動員工積極性,根據(jù)實際生產(chǎn)經(jīng)驗,提出合理的回改進措施[16]。

      參考文獻

      [1] 張 珂,陳仁銳。丁明秀,等.造紙工業(yè)污染防治技術(shù)與環(huán)境管理[M].北京:輕工業(yè)出版社,1988.14-15.

      [2] 謝 澄,陳中豪,疏明君,等.生物流化床~化學絮凝法處理紙漿漂白廢水[J].工業(yè)用水與廢

      水,2002,33(I):27-30.

      [3] 黃夏銀,馮彬.造紙廢水處理技術(shù)研究現(xiàn)狀及展望[J].污染防治技術(shù),2004,12:17(4):9-11.

      [4] 劉全校,安郁琴.臭氧 用于治理造紙廢水.紙和造紙,2000,7:44.

      [5] 張志軍,包志成,王克歐.二氧化鈦催化下的氯代二苯并一對一二啞英光解反應(yīng)[J].環(huán)境化學,1996,15(1):47.

      [6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of

      C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.

      [9] 張學洪,解慶林,李金城,等,造紙廢水的混凝處理研究[J].桂林工學院學報,2000,(4):

      189-191.

      [10] 黃國林,樂長高,粱平.利用聚合物處理造紙廢水的研究[J,環(huán)境科學與技術(shù),1997,(1):

      24—26.[11] 范懋功.活性 污泥法處理造紙廢水….給水排水,1996,22(12):29—31.

      [12] 朱光燦,呂錫武,宋海亮,等,脫木素一缺氧一好氧生物膜工藝處理造紙廢水試驗研究[J],給水排水,2004.30(1):56—59.

      [13] 景 峰,王耀新,宋文菊,試論電化學一凝聚法處理造紙廢水[J].黑龍江環(huán)境通報,2000,24(2):

      81—82.

      [14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US

      Patent:4543(9).1 985.09.24.

      [15] 朱光燦,呂錫武,宋海亮,等,造紙廢水治理技術(shù)研究現(xiàn)狀及展望[J],污染防治技術(shù),2004.17(4):14.

      [16] 張金紅,廢紙造紙廢水回用工藝現(xiàn)狀及改造實例[J],湖北造紙,2010.3:38.

      第三篇:信息檢索論文

      關(guān)于數(shù)字化學習資源利用的思考

      人資1W 學號:10213103

      姓名:陳磊 班級:10摘 要:隨著教育信息化工程的整體推進,要求數(shù)字化學習資源的建設(shè)也要同步地向前發(fā)展。正確認識數(shù)字化學習資源建設(shè)的現(xiàn)狀,并提出正確有效的舉措與做法,對于數(shù)字化學習資源的建設(shè)具有重要的指導作用。

      關(guān) 鍵 詞:數(shù)字化學習資源、發(fā)展趨勢、應(yīng)用與開發(fā)、質(zhì)量監(jiān)控

      一、關(guān)于數(shù)字化學習資源的內(nèi)容———要關(guān)注國際上教育思想的轉(zhuǎn)變

      1.1在考慮數(shù)字化學習資源建設(shè)的過程中,首先應(yīng)當看到,從上世紀90年代末到本世紀初這幾年間,整個國際教育界的教育思想有一個大的轉(zhuǎn)變。[1] 由于在網(wǎng)絡(luò)環(huán)境下既有豐富的學習資源,又有很強的交互性,便于自主學習、自主探究,所以,隨著網(wǎng)絡(luò)的普及,在建構(gòu)主義理論的支持下,基于網(wǎng)絡(luò)的“以學生為中心”的教育思想在上世紀90年代初期、中期甚至到90年代末都一直很流行,而傳統(tǒng)的“以教師為中心”的教育思想則受到嚴厲的批判。與此同時,在教學過程中教師必不可少的主導作用(如正確的啟發(fā)引導、重點與難點的分析把握、促進新知與舊知之間的聯(lián)系等等)也被當作糟粕扔掉了。

      與國際教育界上述教育思想觀念的轉(zhuǎn)變相適應(yīng),數(shù)字化學習資源建設(shè)的內(nèi)容也要相應(yīng)地實現(xiàn)由支持“以教為主”或“以學為主”,轉(zhuǎn)變?yōu)橹С帧皩W教并重”。1.2 支持“以教為主”的數(shù)字化學習資源,由于其主要關(guān)注點是輔助教師解決教學中的重點、難點,提高教學效率,更好地向?qū)W生傳授知識(而對學生自主學習、自主探究等活動則缺乏相應(yīng)的關(guān)注與支持),故其內(nèi)容強調(diào)要為一線教師的學科教學提供多媒體課件、CAI課件、典型課例、教學設(shè)計方案和各類試題等資源;支持“以學為主”的數(shù)字化學習資源,由于其主要關(guān)注點是要促進學者的自主學習、自主探究活動和小組的協(xié)作學習、協(xié)作探究活動(而對如何輔助教師的“教”,則缺乏相應(yīng)的關(guān)注與支持),故其內(nèi)容應(yīng)是能起認知探究工具作用與協(xié)作交流工具作用的數(shù)字化學習資源。

      二、關(guān)于數(shù)字化學習資源的管理———要關(guān)注兩個新的發(fā)展趨勢

      關(guān)于數(shù)字化學習資源的管理,有兩個新的發(fā)展趨勢值得我們關(guān)注。

      2.1目前對數(shù)字化學習資源的管理,主要考慮的問題是如何通過數(shù)據(jù)庫存儲方式對學習資源的數(shù)據(jù)內(nèi)容進行有效的管理,但管理數(shù)字化學習資源的最終目的,是為了能在教學過程中充分地利用這些資源。所以,我們在建設(shè)數(shù)字化學習資源的過程中不僅應(yīng)當關(guān)注學習資源的數(shù)據(jù)內(nèi)容管理,同時也應(yīng)當關(guān)注(甚至更應(yīng)當關(guān)注)學習資源應(yīng)用環(huán)境的支持與管理。

      學科群資源網(wǎng)站是以不同學科的數(shù)字化學習資源為核心,建設(shè)起一個集資源共建共享、在線課件開發(fā)、聯(lián)機備課、學科信息發(fā)布、互動交流等功能于一體的多學科、多層次的學科網(wǎng)站群,目的是使數(shù)字化學習資源的利用能更加符合教師和學生的思維方式與行為習慣。

      2.2目前,絕大部分省、市或地區(qū)的數(shù)字化學習資源都是分散存儲于該省、市的各個學?;蛟摰貐^(qū)的不同學習資源網(wǎng)站上,應(yīng)當采用何種機制才能對分散存儲的資源進行有效管理并進行共建、共享,這是數(shù)字化學習資源建設(shè)關(guān)注的焦點之一。我們認為,建立“區(qū)域內(nèi)分布式資源網(wǎng)絡(luò)管理系統(tǒng)”是有效解決大范圍數(shù)字化學習資源整合與共享問題的較佳方案。建設(shè)區(qū)域內(nèi)分布式資源網(wǎng)絡(luò)管理系統(tǒng)的核心技術(shù)包括兩項內(nèi)容:

      2.2.1對資源目錄的集中管理

      本地區(qū)的學習資源中心(例如省電教館)要為廣大用戶提供一個能覆蓋本地區(qū)所有數(shù)字化學習資源網(wǎng)站的資源目錄管理系統(tǒng),以便本地區(qū)不同學習資源網(wǎng)站之間的互相訪問與資源共享。而且,還要有專人對該資源目錄系統(tǒng)進行經(jīng)常性維護,從而達到本地區(qū)范圍內(nèi)各資源站點目錄的同步更新與統(tǒng)一管理。與此同時,系統(tǒng)還應(yīng)提供專用的教學搜索引擎,以實現(xiàn)對不同資源站點上相關(guān)信息的快速查詢與檢索;當用戶需要打開某個資源時,資源目錄管理系統(tǒng)應(yīng)提供重定向功能 2.2.2對資源數(shù)據(jù)的分布式存儲

      數(shù)字化學習資源網(wǎng)絡(luò)系統(tǒng)是由多個資源站點組成的,資源網(wǎng)內(nèi)每一個提供資源信息服務(wù)的站點都是資源網(wǎng)中的一個節(jié)點———用于存儲實際的物理資源,資源節(jié)點之間基于一定的信任授權(quán)關(guān)系進行資源互訪,資源元數(shù)據(jù)信息與本地區(qū)學習資源中心目錄管理系統(tǒng)中的目錄信息保持同步,因此可以實現(xiàn)網(wǎng)絡(luò)系統(tǒng)內(nèi)數(shù)字化學習資源的分布式存儲和集中式管理,并在本地區(qū)范圍內(nèi)提供廣泛的基于共享的數(shù)字化學習資源服務(wù)。

      三、關(guān)于數(shù)字化學習資源的質(zhì)量監(jiān)控———評審機制的建立和實施

      3.1當前數(shù)字化學習資源的建設(shè)呈無序狀態(tài),很多單位在組織資源建設(shè)時,只注重數(shù)量而忽視質(zhì)量。應(yīng)該通過建立有效的數(shù)字化學習資源評審機制,并提高評審結(jié)果的科學性和權(quán)威性來規(guī)范資源建設(shè)行為。與此同時,還應(yīng)制定具有可操作性的數(shù)字化學習資源評價指標體系,這種評價指標的制定要突出數(shù)字化學習資源的教育特性和新課程標準對學習資源的要求,并要以素質(zhì)教育和創(chuàng)新教育為基本出發(fā)點。3.2 為了保證數(shù)字化學習資源評審的科學性與有效性,應(yīng)當采用專家評審與群眾(用戶)評價相結(jié)合的方式。

      專家評審應(yīng)建立包括幾方面專業(yè)人員的評審小組,通常應(yīng)該包括學科教學專家、教育技術(shù)專家、信息技術(shù)人員、統(tǒng)計人員(對資源評審結(jié)果進行統(tǒng)計)等。在整個評審過程中每個成員應(yīng)各司其職,把好相應(yīng)環(huán)節(jié)的質(zhì)量關(guān)。

      群眾(用戶)評價從時間上看,分為使用前評價和使用后評價兩種。使用前評價是根據(jù)事先制定的數(shù)字化學習資源評價指標體系,為不同用戶編寫不同的問卷來獲取評價信息及相應(yīng)的得分———使用前的評價得分。使用后評價則主要依據(jù)公開發(fā)布該資源后被引用情況的統(tǒng)計信息(如被點擊次數(shù)、被下載次數(shù)、被引用次數(shù)等)以及用戶使用該資源后在網(wǎng)上的評論信息,把二者結(jié)合起來(即把被引用情況的統(tǒng)計信息和網(wǎng)上的評論信息結(jié)合起來)進行綜合評價,才能得出相應(yīng)的得分———使用后的評價得分。再對使用前評價和使用后評價所產(chǎn)生的兩種得分作加權(quán)統(tǒng)計———由此即可得出群眾(用戶)評價的總得分。

      最后,將專家評審的結(jié)果與群眾(用戶)評價的總得分二者結(jié)合起來,這才是能夠保證數(shù)字化學習資源評審科學性與有效性的最終結(jié)果,并可以此作為確定該數(shù)字化學習資源評價等級以及收費標準的主要依據(jù)。

      【參考文獻】

      [1]何克抗,從Blending Learning看教育技術(shù)理論的新發(fā)展[J].電化教育研究,2004,(3):1~6.2

      第四篇:信息檢索論文

      居民用電遠程抄表系統(tǒng)

      長期以來,供電企業(yè)電能數(shù)據(jù)的抄算都是基于電能表的手工作業(yè)方式,即每月定期派人到各用戶那里抄錄電能表的用電數(shù)據(jù)作為電費計算和收繳的依據(jù)。隨著電力負荷的急劇增長,一戶一表和直供到戶等營銷舉措的不斷深入,用電企業(yè)紛紛將家屬宿舍的用電治理業(yè)務(wù)交還供電企業(yè),致使供電企業(yè)的電量抄錄的工作量急劇膨脹。白銀供電公司在城網(wǎng)農(nóng)網(wǎng)改造結(jié)束后,僅市區(qū)居民直供用戶將達到9萬戶,就地分散的手工抄表根本無法適應(yīng)用電治理的需要。因此,遠程抄表系統(tǒng)的技術(shù)研究和產(chǎn)品開發(fā)勢在必行。

      1遠程自動抄表系統(tǒng)的現(xiàn)狀及其特點

      一般情況下,一個家屬樓單元有14~18塊低壓電能表,單元子區(qū)數(shù)據(jù)采集器負責采集其下屬的電能表電量數(shù)據(jù),配變集中器則負責收集配電變壓器下面的所有單元子區(qū)采集器的數(shù)據(jù)。從數(shù)據(jù)傳輸?shù)慕嵌瓤?,其組網(wǎng)方式有:兩級純專線組網(wǎng)方式、兩級混合組網(wǎng)方式、兩級載波組網(wǎng)方式。

      從組網(wǎng)拓撲的角度講,只要在用戶電能表、單元子區(qū)采集器、配變集中器采用專用信道通信,遠程自動抄表系統(tǒng)的纜線工程量就非常大,有線專用信道的維護也有一定困難。鑒于這種情況,各科研單位和廠商都在努力做到取消單元子區(qū)采集器,實現(xiàn)用戶電能表與配變集中器的直接低壓電力線載波通信,這樣就大大減少了纜線工程量,而且數(shù)據(jù)遠程傳輸?shù)慕M網(wǎng)拓撲與低壓配電網(wǎng)保持一致,有利于系統(tǒng)的運行維護和用戶數(shù)量的模數(shù)化擴展。這種拓撲要求一個用戶終端,不但要實現(xiàn)電能計量,還要實現(xiàn)數(shù)據(jù)信息的編碼、解碼、載波收發(fā)等功能??梢詷?gòu)成完全基于低壓電力線信道的載波電能表 配變集中器 營業(yè)站主機的組網(wǎng)拓撲。實踐證實:目前市場上已經(jīng)開發(fā)出來的窄帶調(diào)制的低壓載波表和配變集中器很難保證電量或控制數(shù)據(jù)的可靠傳輸。主要原因是低壓電力線載波信道的特性隨機性、時變性很大,非常地不穩(wěn)定。因此,低壓電力線載波技術(shù)是直接通過電力線組網(wǎng)的遠程抄表系統(tǒng)進一步推廣應(yīng)用的瓶頸。

      2試點居民小區(qū)遠程抄表系統(tǒng)方案

      在為試點居民小區(qū)遠程抄表系統(tǒng)做的總體技術(shù)方案設(shè)計時,本文遵循三條基本原則:

      (1)在試點小區(qū)的配電變壓器和小區(qū)住戶之間不敷設(shè)任何專用有線信道,數(shù)據(jù)的上行或下行傳送必須使用現(xiàn)成的低壓電力線作為數(shù)據(jù)媒介。

      (2)只在配電變壓器和住戶地點對應(yīng)安裝數(shù)據(jù)的收發(fā)裝置,建立起各用戶電能表終端與配變集中器的直接數(shù)據(jù)鏈路,中間不安裝任何硬件上的中繼或第二級集中轉(zhuǎn)發(fā)裝置。

      (3)用戶電能表終端除了記錄電量外,它還應(yīng)該執(zhí)行就地保護和遠方監(jiān)控功能。

      2.1系統(tǒng)組成結(jié)構(gòu)

      系統(tǒng)由營業(yè)站用電治理主機、配電變壓器集中器、接在配電變壓器低壓電力線上的多個用戶電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。配電變壓器集中器和用戶電能表終端分別與配電變壓器、用戶一一對應(yīng)并就地分布式安裝。用電治理信息只能在系統(tǒng)的上下級之間傳輸。其中用電治理主機到配電變壓器集中器的信息傳輸媒介采用擴頻無線信道或公共電話網(wǎng)(第一級信道),配電變壓器集中器到用戶電能表終端的信息傳輸媒介利用低壓電力線載波信道(第二級信道)。顯然,整個系統(tǒng)與配電變壓器下面的電壓電力網(wǎng)一樣呈樹形分布結(jié)構(gòu),可隨用戶發(fā)展和負荷增長任意擴展。

      本系統(tǒng)的任務(wù)在于實現(xiàn)低壓用戶電量數(shù)據(jù)的遠程傳輸和抄算,對低壓電力用戶的負荷和用電進行遠程監(jiān)控。

      由于使用了分布式安裝結(jié)構(gòu),在系統(tǒng)建設(shè)上與集中抄表箱用電系統(tǒng)相比,無須龐大繁瑣的纜線工程,施工難度將會大幅下降。系統(tǒng)的擴展將隨用戶或配變數(shù)量的遞增而模數(shù)化擴展,就象增加一個用戶增加一塊電能表那樣簡單。因此,系統(tǒng)擴展極具伸縮性,不會象集中式系統(tǒng)那樣新建時資源閑置,用戶發(fā)展時容量又不夠。應(yīng)該說,這個系統(tǒng)比較符合營業(yè)用電治理系統(tǒng)發(fā)展的主流方向。

      2.2網(wǎng)絡(luò)通信協(xié)議的選擇與研究

      在計算機網(wǎng)絡(luò)中,信道共享技術(shù)已經(jīng)比較成熟。一般可分為兩類,即受控接入和隨機接入。

      隨機接入共享信道的特點是所有用戶都可以根據(jù)自己的意愿隨機地發(fā)送信息。實際上就是爭用接入,征用勝利者才能獲得總線,從而發(fā)送自己的信息。典型的隨機接入是載體偵聽多重訪問/沖突檢測(CSMA/CD)網(wǎng)絡(luò),其為總線型結(jié)構(gòu),如圖2所示。后文重點介紹的基于CEbus的擴頻載波線性掃頻信號(Chirp)由于具有自相關(guān)性,所以適用于CSMA網(wǎng)絡(luò)。結(jié)合電力線的傳輸特性,綜合比較各種網(wǎng)絡(luò),在本文所要開發(fā)的遠抄系統(tǒng)中選用CSMA協(xié)議應(yīng)該是比較合適的。CSMA協(xié)議網(wǎng)絡(luò)的缺點,如時延不確定、重載時效率下降,對數(shù)據(jù)傳輸量較小的遠程抄表系統(tǒng)來講,并不是值得考慮的問題。

      2.3用戶電能表終端的總體設(shè)計

      用戶電能表終端由AC/DC開關(guān)電源模塊、電量傳感器模塊、故障保護模塊、計量模塊、負荷控制模塊、LED顯示模塊、MCU系統(tǒng)模塊、低壓擴頻載波通信模塊構(gòu)成。

      多輸出開關(guān)電源負責為用戶電能表終端供電,它輸出DC 5V0.5A和DC±15V0.5A電源各一組,其交流輸入的設(shè)計范圍為AC220V±20。為了降低電源模塊的體積,采用TOP2XX脈寬調(diào)制功率開關(guān)為核心器件,構(gòu)成單端反激式電路。

      故障保護模塊負責監(jiān)視低壓用戶的負荷電器的運行情況,當發(fā)生短路、過流、漏電或電網(wǎng)電壓超標時,向MCU系統(tǒng)模塊發(fā)出信號請求執(zhí)行斷電控制程序。

      計量模塊負責把用戶的用電功率轉(zhuǎn)化為頻率正比于功率大小的脈沖串,提供給MCU系統(tǒng)模塊進行電量計算。即使用戶實施了竊電行為,它仍然可以輸出正確的電量計算脈沖串,并向MCU系統(tǒng)發(fā)出竊電信號。

      負荷控制模塊是一個受MCU系統(tǒng)輸出的TTL電平控制的大功率交流無觸點開關(guān),能夠過零關(guān)斷或開啟6kW的負荷功率。

      MCU系統(tǒng)由AT89C528位單片機、X5045看門狗芯片和DS1302時鐘日歷芯片構(gòu)成。它是用戶電能表終端的計算監(jiān)控中心,主要負責對電量脈沖串進行計算或處理,執(zhí)行就地或遠方的負荷控制程序,與低壓擴頻載波通信模塊進行數(shù)據(jù)交換并控制其收發(fā)信。

      顯示模塊由一個8位LED及其動態(tài)掃描控制芯片構(gòu)成,主要完成電量數(shù)據(jù)的舊的查詢顯示,便于用戶了解自己的電量或電費情況。

      低壓擴頻載波模塊主要由SSCP200低壓電力線擴頻載波網(wǎng)絡(luò)控制器、前置功放和電力線耦合電路構(gòu)成,負責對MCU系統(tǒng)送來的數(shù)據(jù)進行線性掃頻調(diào)制,放大后耦合到電力線上,對通過電力線送來的載波信號進行掃頻解調(diào)后送給MCU系統(tǒng)。這種數(shù)據(jù)通信采用了收發(fā)分時控制的半雙工通信。該模塊與配變集中器的設(shè)計通信距離為1000m。在信道特性最惡劣的情況下,也要保證不小于600m。

      2.4配電變壓器集中器的總體設(shè)計

      配變集中器主要由三個分相耦合的低壓擴頻通信模塊、三個按相配置的電能表模塊、MCU單片機系統(tǒng)、3個雙口RAM和一個工控機系統(tǒng)及電話線調(diào)制解調(diào)器構(gòu)成。

      低壓擴頻載波通信模塊分相配置,是為了杜絕跨相耦合載波信號,電能表和MCU電路按相配置是為了使集中器能夠并行處理各相的用戶終端數(shù)據(jù),增加數(shù)據(jù)傳輸和處理速度。以上電路基本上與用戶終端類似,只是不具備故障保護、竊電偵測和負荷控制電路而已。

      在配變集中器內(nèi)設(shè)置電能表模塊便于對每一相的總電量進行計量和統(tǒng)計分析,以作為用電治理部門考核線損和平衡3相負荷的依據(jù)。

      工控機完成與每一相的MCU系統(tǒng)交換數(shù)據(jù),并通過Modem和公用電話網(wǎng)與營業(yè)站抄算主機交換數(shù)據(jù)信號。上行和下行數(shù)據(jù)要經(jīng)過工控機的處理,并在不需要數(shù)據(jù)通信的時候儲存在工控機的磁盤中。鑒于數(shù)據(jù)處理量不是很大,選用486工控機就能滿足要求。

      2.5營業(yè)站抄算主站的總體設(shè)計

      營業(yè)站抄算主機主要由PC機、電話線Modem及其軟件構(gòu)成。主要負責營業(yè)站到配電變壓器集中器之間的數(shù)據(jù)指令的調(diào)制發(fā)送、解調(diào)接受及綜合分析處理。另外,電話線Modem還可以將營業(yè)站用電治理主機與電費托收銀行聯(lián)機。

      PC微機主要完成用戶用電數(shù)據(jù)的采集,送電能表參數(shù)、用電信息、欠費警告及斷電控制,不安全和違章用電監(jiān)視報警,用戶用電治理及查詢,報表輸出等功能。

      其中,用電采集程序可以進行定時統(tǒng)抄、不定時統(tǒng)抄及單用戶隨時查抄;用電量可按地址統(tǒng)計,也可按相位統(tǒng)計,以便合理地調(diào)整配電變壓器A、B、C三相負載的配置,使供電系統(tǒng)的性能發(fā)揮得更好;在電費結(jié)算時,可通過分時計費,合理定價,使負載基本恒定;電表參數(shù)、用電信息可送到用戶終端,從而非常方便地修改電能表參數(shù),顯示用戶的用電量及結(jié)算電費;欠費警告及斷電控制功能可督促用戶按時交費;不安全和違章用電監(jiān)視報警功能可使用電監(jiān)察人員迅速準確地維護用電秩序;日報表、月報表、年報表的形成和輸出方便而快捷。

      3結(jié)論與展望

      3.1研究結(jié)論

      我們在幾種不同的環(huán)境下對用戶電能表終端和配變集中器進行了測試,取得了比較滿足的結(jié)果。依照CEBus標準編制的程序,在傳輸過程中,沒有發(fā)現(xiàn)誤碼的存在。不同的測試環(huán)境下,干擾強度與信道輸入阻抗的波動范圍是影響擴頻載波可靠通信距離的兩個主要因素,數(shù)據(jù)通信成功的平均幀延遲時間與平均通信距離的關(guān)系較大。

      戶表采集器的性能指標如下:

      ·載波通信距離:架空網(wǎng)或電纜電網(wǎng)均可達1000m;

      ·抄表成功率:可達99.7;

      ·抄表正確率:100;

      ·讀數(shù)準確度:計數(shù)精度達到小數(shù)點后兩位,用戶電能表讀數(shù)與標準電能表的誤差不大于1個字(即0.5kWh);

      ·時鐘誤差:天天小于 1s;

      ·用戶電能表功耗:待機時≤200mW,發(fā)送數(shù)據(jù)時≤700mW,發(fā)送時間≤25ms,接收靈敏度≤2mW;

      ·采用工業(yè)級芯片,環(huán)境溫度:-20~ 85℃;

      ·工作電壓:AC165~260V;

      ·掉電保護:電源斷電情況下,數(shù)據(jù)可保存10年;

      3.2總結(jié)與展望

      電能直供到戶是供電企業(yè)最重要的營銷舉措,這使得電能營銷部門的電能抄算業(yè)務(wù)量成倍增長。采用新的遠程抄表技術(shù)來改善用電治理和電能營銷的裝備水平、優(yōu)化電能市場服務(wù)的技術(shù)手段是供電企業(yè)最緊迫的需求。

      我國的低壓電能供給都是以配電變壓器為一個臺區(qū)單元,在配電變壓器和用戶之間不使用任何獨立的中繼通信設(shè)備或?qū)S眯诺?,直接利用低壓電力線構(gòu)成與低壓電網(wǎng)系統(tǒng)結(jié)構(gòu)相對應(yīng)的用戶電能表終端+配變集中器+營業(yè)站電能抄算主機組網(wǎng)的遠程抄表系統(tǒng),我們認為這符合低壓遠抄系統(tǒng)的主流發(fā)展方向,因而具有推廣應(yīng)用前景。

      具有低壓擴頻載波數(shù)據(jù)遠傳功能的用戶電能表終端和配變集中器是構(gòu)成本文所提出的遠程抄表方案的核心裝置。最終的技術(shù)目的的實現(xiàn)必須建立在成功地開發(fā)用戶電表終端和配變集中器的基礎(chǔ)之上,還要做營業(yè)站抄算主機的軟件編制和數(shù)據(jù)庫編制。顯然本文所做的工作還離這一目標有相當長的一段距離。本文只是對用戶電能表終端及其擴頻載波通信模塊作了實用化開發(fā)設(shè)計和樣機試制,并且通過樣機的現(xiàn)場測試。配變集中器、軟件只作了一個方案性的設(shè)計。

      本文所取得的另一個成果就是,把用戶電能表終端設(shè)計成一個智能化的綜合性終端,除了完成電能的記錄和計量外,它還具有用戶現(xiàn)場防竊電、防誤接線、故障保護、遠方停送電、遠方修改電能表參數(shù)和負荷控制功能,這些技術(shù)手段對提高供電企業(yè)的用電治理水平無疑具有積極的意義。

      參考文獻

      [1]邵源,鐘炬,等.關(guān)于低壓用戶集中抄表系統(tǒng)綜述.電力系統(tǒng)自動化,1999(9).[2]徐平平,邱玉春.電力集中抄表中的通信技術(shù).電力系統(tǒng)通信,1999(4).[3]楊士中.靜電無繩廣播方法.[4]周世煒,張紹卿,洪文學.一種基于電力配電網(wǎng)絡(luò)的雙向工頻通信技術(shù).電子技術(shù),1999(8).[5]邱玉春.利用電力線組網(wǎng)的監(jiān)控網(wǎng)絡(luò)協(xié)議選擇.現(xiàn)代通信,2000(1).[6]邱玉春,徐平平.低壓電力線載波通信特性分析.電力系統(tǒng)通信,1998:6(48).

      第五篇:信息檢索論文

      論搜索引擎中文自動分詞技術(shù)

      【摘要】

      搜索引擎是應(yīng)用在web上的軟件系統(tǒng),它以一定的策略搜集和發(fā)現(xiàn)信息,再對信息進行處理和組織后為用戶提供web信息查詢服務(wù)。搜索引擎分三個大模塊:網(wǎng)頁搜集,預處理和查詢服務(wù)。其中對搜索信息的預處理階段的關(guān)鍵技術(shù)是中文分詞和建立倒排文件,本文主要論述搜索引擎工作過程中的中文自動分詞技術(shù)。

      【關(guān)鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】

      信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話題。目前在中文搜索引擎領(lǐng)域,國內(nèi)的搜索引擎已經(jīng)和國外的搜索引擎效果上相差不遠。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機涉及的技術(shù)就是中文分詞。

      一、為什么要進行分詞?

      漢語是世界上最古老和最豐富的語言之一,但是漢語語法才有將近一百年的歷史,而且現(xiàn)代漢語白話文的形成歷史也比較短,加上漢語自身的特點,因此它的形式化研究更加困難。對英文而言,是以詞為單位,詞與詞之間有空格隔開,而中文是以字為單位,多個字連在一起才能構(gòu)成一個表達具體含義的詞,詞與詞之間沒有分割,因此,對于支持自然語言檢索的工具,從語句中劃分出具有獨立意義的詞的過程即進行中文分詞必不可少。

      二、什么是中文分詞?

      中文分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵串進行的查詢處理后,根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。例如,英文句子I am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結(jié)果是:我 是 一個 學生。

      三、中文分詞與搜索引擎

      分詞技術(shù)使用在搜索引擎網(wǎng)頁預處理階段。搜索引擎網(wǎng)頁預處理第一步是為原始網(wǎng)頁建立索引,形成索引網(wǎng)頁庫;第二步是對網(wǎng)頁進行切分,也就是分詞,將每一篇網(wǎng)頁轉(zhuǎn)化為一組次的集合;最后將網(wǎng)頁索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成倒排文件。

      中文分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因為在上百億的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。而且中文分詞的準確度,對搜索引擎結(jié)果相關(guān)性和準確性有相當大的關(guān)系。

      四、中文分詞技術(shù)的分類

      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統(tǒng)計的分詞方法和基于知識理解的分詞方法。(一)基于字典、詞庫匹配的分詞方法

      這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。

      常用的幾種機械分詞方法如下:

      (1)最大正向匹配法(MaximumMatching Method)通常簡稱為MM法

      其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理…… 如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。

      (2)逆向最大匹配法(Recerse MaximumMatching Method))通常簡稱為RMM法

      RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續(xù)匹配。相應(yīng)地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對逆序文檔用正向最大匹配法處理即可。

      由于漢語中偏正結(jié)構(gòu)較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統(tǒng)計結(jié)果表明 ,單純使用正向最大匹配的錯誤率為 1/16 9,單純使用逆向最大匹配的錯誤率為 1/245。例如切分字段“碩士研究生產(chǎn)”,正向最大匹配法的結(jié)果會是“碩士研究生 / 產(chǎn)”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結(jié)果“碩士 / 研究 / 生產(chǎn)”。

      (3)最少切分法:使每一句中切出的詞數(shù)最小。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。

      一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。

      (二)全切分和基于詞的頻度統(tǒng)計的分詞方法

      基于詞的頻度統(tǒng)計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。(1)全切分

      全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎(chǔ)上的分詞方法不管采取何種歧義糾正策略,都可能會遺漏正確的切分,造成分詞錯誤或失敗。而建立在全切分基礎(chǔ)上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。

      全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒有在文本處理中廣泛地采用。(2)基于詞的頻度統(tǒng)計的分詞方法:

      這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現(xiàn)的頻率進行統(tǒng)計,次數(shù)越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統(tǒng)計語言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來。

      (三)基于知識理解的分詞方法

      該方法主要基于句法、語法分析,并結(jié)合語義分析,通過對上下文內(nèi)容所提供信息的分析對詞進行定界,它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統(tǒng)還處在試驗階段。

      (四)一種新的分詞方法

      并行分詞方法:這種分詞方法借助于一個含有分詞詞庫的管道進行 ,比較匹配過程是分步進行的 ,每一步可以對進入管道中的詞同時與詞庫中相應(yīng)的詞進行比較 ,由于同時有多個詞進行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。

      到底哪種分詞算法的準確度更高,目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復方分詞法”,所謂復方,相當于用中藥中的復方概念,即用不同的藥才綜合起來去醫(yī)治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。

      五、分詞中的難題

      有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠非如此。中文是一種十分復雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。

      (一)切分歧義

      就人對漢語的理解而言,漢語的分詞是一個理解的過程,這個過程綜合了詞法、語法、語義等各種信息。因此,一個理想的分詞系統(tǒng)也應(yīng)綜合運用這些信息,而在計算機處理中這些信息的提取又是以分詞為前提的。所以,分詞與這些信息的運用是既相聯(lián)系又相制約的一種相輔相成的關(guān)系,而純粹的機械切分必然會帶來切分歧義。

      歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:學歷史知識,因為“學歷”和“歷史”都是詞,那么這個短語就可以分成“學歷”和“歷史”。這種稱為交叉歧義。像這種交叉歧義十分常見由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。

      交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別? 如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。

      (二)新詞

      專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“張三虎是山東人”中,“張三虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“張三虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“張三虎頭虎腦的”中,“張三虎”還能不能算詞?

      新詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標名、簡稱、省略語等,還有目前網(wǎng)絡(luò)流行語詞,如“有沒有”、“傷不起”“神馬浮云”、“童鞋們”、“蘿莉”等等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標志之一。

      判斷一個系統(tǒng)的中文分詞功能好壞,主要在于消歧功能和對未登錄詞識別功能。并且優(yōu)秀的分詞策略應(yīng)該是盡量不拆分,需要拆分時,先把長的拆成中的,如果結(jié)果還是少,再把中的拆成短的。

      【參考文獻】

      【1】 吳勝遠;并行分詞方法的研究--《計算機研究與發(fā)展》1997年07期

      【2】 張旭;一個基于詞典與統(tǒng)計的中文分詞算法[D];電子科技大學;2007年

      【3】 梁斌;走進搜索引擎 電子工業(yè)出版社 2007年1月

      【4】(美)克羅夫特;搜索引擎:信息檢索實踐 機械工業(yè)出版社

      2010年

      下載信息檢索論文(完整版)word格式文檔
      下載信息檢索論文(完整版).doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔相關(guān)法律責任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進行舉報,并提供相關(guān)證據(jù),工作人員會在5個工作日內(nèi)聯(lián)系你,一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        信息檢索論文

        《現(xiàn)代信息檢索》課程心得體會 摘要:為了培養(yǎng)大學生對科技信息資源檢索與利用的能力,我校開設(shè)了現(xiàn)代信息檢索這門課程。人文社科學院11策劃班在本學期開設(shè)的這門課程,通過8周的......

        信息檢索論文

        信息檢索實驗報告 題目:現(xiàn)代會計發(fā)展趨勢分析 學院: 班級: 學號: 姓名: 成績: 遼寧工程技術(shù)大學基礎(chǔ)教學部 現(xiàn)代會計發(fā)展方向分析 摘要:綜合考慮我國各級會計人員的主要工作任務(wù)的......

        信息檢索論文(范文大全)

        關(guān)于“基于MATLAB的隨機信號分析方法”的科技文獻檢索 (西北大學信息與科學技術(shù)學院,西安,710127) 摘要:隨機信號的分析對現(xiàn)代通信有極其重大的意義。 本設(shè)計通過使用MATLAB工具......

        信息檢索論文

        信息檢索與搜索引擎(論文) 網(wǎng)頁凈化與消重技術(shù) 學院(系):信息科學與工程學院 專 業(yè):計算機應(yīng)用技術(shù) 年 級: 學生 姓名: 學 號指導 教師 網(wǎng)頁凈化(noise reduction):識別和清除網(wǎng)......

        信息檢索論文

        信息檢索與利用論文 學院:機械與電子學院 專業(yè):機械電子工程 班級: 093152 姓名: 學號: 09315205 指導教師: 2012年 04 月日檢索題目:機械產(chǎn)品綠色設(shè)計 分析課題:本課題的學......

        信息檢索期末論文

        在研究“氧化鋅半導體薄膜的制備及表征”課題中,信息檢索的應(yīng)用 首先當我們拿到課題“氧化鋅半導體薄膜的制備及表征”課題之后,我們馬上需要做的是查找相關(guān)的文獻,獲取相關(guān)的......

        信息檢索論文綜述

        垃圾滲濾液處理技術(shù) 研究進展 班級:06級環(huán)境工程3班 學號:2006650703 姓名:宋美虹 指導老師:石露 垃圾滲濾液處理技術(shù)研究進展 摘要:近年來城市垃圾的處理處置問題已經(jīng)成為人......

        信息檢索論文[五篇]

        人力資源管理淺論 孫立帆 (班級 國財務(wù)11-05班 學號20111381) 【摘要】我國人力資源管理策略,主要是不斷提高人力資源管理者素質(zhì)和管理水平。在經(jīng)歷發(fā)達國家先進經(jīng)驗與市場......