第一篇:Google信息檢索技術(shù)的深入學(xué)習(xí)案例
Google信息檢索技術(shù)的深入學(xué)習(xí)案例紀(jì)春麗
? 我是2000年畢業(yè)的師范生,當(dāng)時(shí)我還不知道Google。我是在2002年下半年才知道Google的。在這之前,我不管是搜索英文信息還是搜索中文信息都是同時(shí)使用Google和Baidu的。記得當(dāng)時(shí)是一個(gè)剛從師范畢業(yè)的師妹告訴我如何進(jìn)行信息檢索的。她向我推薦5566.org網(wǎng)站,那個(gè)網(wǎng)站提供多個(gè)搜索工具,我通常同時(shí)使用Google和Baidu進(jìn)行搜索。漸漸地,這樣進(jìn)行搜索已經(jīng)成為了我的一種習(xí)慣了,此后我再也沒(méi)有系統(tǒng)地或?qū)iT(mén)地進(jìn)行過(guò)信息檢索技術(shù)的深入學(xué)習(xí)了。這次到華師上課,聽(tīng)了焦老師的大力推介Google后,我認(rèn)真地閱讀了《Google搜索從入門(mén)到精通 v4.0》,并對(duì)照示例進(jìn)行Google搜索練習(xí),我才對(duì)Google的歷史和特點(diǎn),Google的基本搜索語(yǔ)法和高級(jí)搜索語(yǔ)法,Google的特色功能,包括圖片搜索、新聞組搜索和集成工具條等有了更深入的認(rèn)識(shí)。這是我首次較系統(tǒng)地學(xué)習(xí)Google信息檢索技術(shù),此時(shí)我才發(fā)現(xiàn)Google 正如焦老師所言:“Google不僅僅是搜索引擎,不僅僅是資源檢索工具、語(yǔ)言學(xué)習(xí)工具、詞典、路路通、資源庫(kù)、百問(wèn)不厭的老師、無(wú)所不知的老師??。更重要的是,Google是一種學(xué)習(xí)的方法,一種解決問(wèn)題的方法。”漸漸地Google便成為我的Favorite Search engine了。以下內(nèi)容是關(guān)于本人在工作中應(yīng)用Google的案例。本人是荔灣區(qū)華僑小學(xué)的語(yǔ)文教師。在荔灣區(qū)2007年度教師小課題申報(bào)中,我的課題《如何有效提高小學(xué)高年段學(xué)生作文表達(dá)能力的研究》被荔灣區(qū)教育局?jǐn)M批準(zhǔn)立項(xiàng)?,F(xiàn)階段,正是要查找有關(guān)文獻(xiàn),為撰寫(xiě)結(jié)題論文做準(zhǔn)備工作。通過(guò)網(wǎng)絡(luò)資源學(xué)習(xí)新課程理念和收集、研讀有關(guān)關(guān)作文教學(xué)理念與經(jīng)驗(yàn)的資料,是完成此次課題的重要途徑之一。
一、使用直接輸入關(guān)鍵字符的方式進(jìn)行信息檢索—運(yùn)用搜索引擎最基本的語(yǔ)法“與”“非”和“或”縮小搜索范圍。過(guò)去,我一直是只會(huì)使用輸入關(guān)鍵字符的方式進(jìn)行信息檢索的。結(jié)果搜索到的信息浩如煙海,而且絕大部分并不符合自己的要求,通過(guò)Google信息檢索技術(shù)的深入學(xué)習(xí),我學(xué)會(huì)了如何進(jìn)一步縮小搜索范圍和結(jié)
果。我掌握了搜索引擎最基本的語(yǔ)法“與”“非”和“或”,這三種搜索
語(yǔ)法Google分別用“ ”(空格)、“-”和“OR”表示。順著上例的思路,你也可以了解到如何縮小搜索范圍,迅速找到目的資訊的一般方法:目標(biāo)信息一定含有的關(guān)鍵字(用“ ”連起來(lái)),目標(biāo)信息不能含有的關(guān)鍵字(用“-”去掉),目標(biāo)信息可能含有的關(guān)鍵字(用“OR”連起來(lái))。由于此次要搜索的信息屬小學(xué)作文教學(xué)的范疇,所以我這段時(shí)間特別關(guān)注這方面的權(quán)威信息。有一天,我上焦教師的博客,看到了一條有關(guān)作文教學(xué)的信息,于是,我打開(kāi)了的網(wǎng)頁(yè),首先使用直接輸入關(guān)鍵字符的方式進(jìn)行信息檢索。示例:搜索廣州陽(yáng)光喔文化交流有限公司的作文課外教學(xué)活動(dòng)的所有網(wǎng)頁(yè)。搜索:”廣州
陽(yáng)光喔文化交流有限公司的作文課外教學(xué)活動(dòng)“結(jié)果: 所有網(wǎng)頁(yè)中,約有583項(xiàng)符合廣州陽(yáng)光喔文化交流有限公司的作文課外教學(xué)活
動(dòng)所有網(wǎng)頁(yè)的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.42 秒)第一項(xiàng)搜索結(jié)果:焦建利:我的教育技術(shù)學(xué)自留地-博客大巴
依照計(jì)劃,今天TIPD訪(fǎng)問(wèn)了廣州陽(yáng)光喔文化交流有限公司的作文課外教學(xué)活動(dòng),下午參觀(guān)了廣州大學(xué)城,晚上是一個(gè)簡(jiǎn)單的歡迎活動(dòng),由我發(fā)表了簡(jiǎn)單的歡迎辭,徐教授介紹...jiao.blogbus.com/網(wǎng)頁(yè)快照17k類(lèi)似網(wǎng)頁(yè) 這個(gè)網(wǎng)頁(yè)中的第5部分內(nèi)容正是與我所要研究的小學(xué)作文教學(xué)密切相關(guān)的,具體內(nèi)容如下:陽(yáng)光喔
開(kāi)啟中國(guó)作文教學(xué)新時(shí)代
陽(yáng)光喔是湖北少兒文化研究會(huì)旗下專(zhuān)業(yè)從事少兒文化教育、培訓(xùn)的實(shí)體機(jī)構(gòu),集科研、培訓(xùn)、出版等于一體,在少兒文化培訓(xùn)界獨(dú)樹(shù)一幟?!俺删退枷?,創(chuàng)造快樂(lè)”是陽(yáng)光喔的文化核心——給孩子全新的學(xué)習(xí)理念和學(xué)習(xí)方式,讓孩子領(lǐng)悟到學(xué)習(xí)的快樂(lè);推崇孩子的個(gè)性發(fā)展,給予孩子人文關(guān)懷,成就孩子的思想。在這一理念下,陽(yáng)光喔已經(jīng)形成了獨(dú)立的作文教學(xué)體系、教材體系以及三位一體的教學(xué)服務(wù)體系,并且出版了相關(guān)教材,幫助青少年兒童提高其文化素養(yǎng)和文學(xué)修養(yǎng)。
2006年,陽(yáng)光喔被引進(jìn)廣州,秉承著“服務(wù)為本”的教學(xué)模式,在陽(yáng)光校園行、陽(yáng)光快車(chē)的大型公益活動(dòng)推動(dòng)下,天河、越秀、海珠、荔灣、白云等地迅速刮起了陽(yáng)光喔作文“旋風(fēng)”——陽(yáng)光喔,開(kāi)啟了中國(guó)作文教學(xué)的新時(shí)代。陽(yáng)光喔還首開(kāi)作文教學(xué)研究、教育改革之先河。2007年4月,陽(yáng)光喔出資搭建全國(guó)性的作文教學(xué)交流平臺(tái)——首屆“陽(yáng)光杯”作文論壇。
為回報(bào)社會(huì),將“成就思想,創(chuàng)造快樂(lè)”的文化核心傳遞給更多的學(xué)生,2007年5月,廣州陽(yáng)光喔將大型的公益活動(dòng)——陽(yáng)光快車(chē)饋贈(zèng)給越秀區(qū)21所學(xué)校,吸收了1200多名作文困難生。經(jīng)過(guò)幾周的免費(fèi)教學(xué),幫助學(xué)生擺脫了寫(xiě)作的苦惱,得到了學(xué)生、家長(zhǎng)和學(xué)校的贊賞。陽(yáng)光喔廣州公司成立2年名來(lái),已經(jīng)使106所學(xué)校2萬(wàn)多學(xué)生受益,讓2000余名作文困難生重塑了對(duì)作文的信心。一位投票的家長(zhǎng)這樣地說(shuō)道:“陽(yáng)光喔像一陣春風(fēng),喚醒了沉睡的孩子;陽(yáng)光喔像一位魔術(shù)師,吸引著孩子們快樂(lè)地學(xué)習(xí);陽(yáng)光喔像一把金鑰匙,打開(kāi)了孩子們成功的大門(mén)?!笨戳诉@個(gè)信息,我興奮不已。因?yàn)槲业膶?dǎo)師告訴我做研究一定要找相關(guān)的、權(quán)威的機(jī)構(gòu)、理論、代表人物等進(jìn)行研究,于是我順著這條信息繼續(xù)搜索廣州陽(yáng)光喔文化交流有限公司。示例:搜索廣州陽(yáng)光喔文化交流有限公司的所有網(wǎng)頁(yè)。搜索:“廣州陽(yáng)光喔文化交流有限公司”結(jié)果:所有網(wǎng)頁(yè)中,約有11,000項(xiàng)符合廣州陽(yáng)光喔文化交流有限公司的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.05 秒)我發(fā)現(xiàn)第9項(xiàng)和第10搜索結(jié)果符合我的搜索要求。陽(yáng)光喔
陽(yáng)光喔文化交流發(fā)展有限公司于2006年2月9日正式進(jìn)駐廣州,現(xiàn)已選址天河區(qū)天河路僑鑫大廈(原天河區(qū)政府大樓)一樓作為廣州市第一教學(xué)點(diǎn)。此前,凡在廣州市內(nèi)任一地點(diǎn).../detail.aspx?id=906網(wǎng)頁(yè)快照51k類(lèi)似網(wǎng)頁(yè)
站內(nèi)的其它相關(guān)信息 ?
于是我首先點(diǎn)擊第9項(xiàng)結(jié)果,進(jìn)入了“陽(yáng)光喔”的主頁(yè),通過(guò)瀏覽頁(yè)面我了解到了我國(guó)小學(xué)作文教學(xué)中的一些權(quán)威性的資料。這正是我所要搜索的有關(guān)小學(xué)作文教學(xué)研究方面的極有價(jià)值信息。從這個(gè)網(wǎng)頁(yè)中,我不但了解了“陽(yáng)光喔”是一間怎樣的機(jī)構(gòu),更重要的是我從中了解到“陽(yáng)光喔”首開(kāi)作文教學(xué)研究、教育改革之先河。2007年4月,陽(yáng)光喔出資搭建全國(guó)性的作文教學(xué)交流平臺(tái)——首屆“陽(yáng)光杯”作文論壇。這是新課標(biāo)實(shí)施以來(lái),小學(xué)作文教學(xué)中的一大盛事,也是一次先進(jìn)思想的碰撞。原國(guó)家教委副主任、總督學(xué)顧問(wèn),現(xiàn)全國(guó)人大教科文衛(wèi)委員會(huì)常委柳斌出席了開(kāi)幕式,并致開(kāi)幕詞,楊再隋,華中師范大學(xué)教授,曾任湖北省教科文衛(wèi)委員會(huì)委員、教育部全國(guó)中、小學(xué)教材審查委員會(huì)審查委員,小學(xué)語(yǔ)文教材審查組召集人。現(xiàn)任全國(guó)小學(xué)語(yǔ)文教學(xué)研究會(huì)學(xué)術(shù)委員會(huì)副主任、湖北省中、小學(xué)教材審查委員會(huì)副主任、湖北省小學(xué)語(yǔ)文教學(xué)研究會(huì)理事長(zhǎng)。擔(dān)任本次論壇組委會(huì)主任委員。于永正老師(南京市鼓樓區(qū)教研室語(yǔ)文教研員,江蘇省特級(jí)教師,全國(guó)五一勞動(dòng)獎(jiǎng)?wù)芦@得者,1995年評(píng)為有突出貢獻(xiàn)的專(zhuān)家,享受?chē)?guó)務(wù)院頒發(fā)的政府特殊津貼)上了一節(jié)內(nèi)容為“小學(xué)六年級(jí)的‘描寫(xiě)人物對(duì)話(huà)’的練習(xí)”的示范課。了解了以上信息后,我對(duì)完成此次課題研究的信心增加了百倍,因?yàn)檫@正是我近階段所要關(guān)注的和所要研究的權(quán)威信息。說(shuō)實(shí)在的,可真得謝謝焦老師,如果不是訪(fǎng)問(wèn)了焦老師的博客,從中認(rèn)識(shí)了陽(yáng)光喔并進(jìn)一步地掌握了Google信息檢索技術(shù),恐怕我得花不少時(shí)間去找我要找的權(quán)威和代表了。陽(yáng)光喔的網(wǎng)頁(yè)中教學(xué)資源是極其開(kāi)放的,有多個(gè)欄目供讀者閱讀,其中我最興趣的是“特色呈現(xiàn)”、“優(yōu)秀作品”和“教學(xué)資源”,因?yàn)槔锩娴禽d的內(nèi)容是我所急需的,用得上的。據(jù)論壇組委會(huì)主席,華中師大教授楊再隋介紹,這個(gè)論壇的籌辦是國(guó)內(nèi)作文教學(xué)界的一件大事,目的有三個(gè),一是傳播作文教學(xué)的新理念;二是研究和交流各地作文教學(xué)新策略;三是提高小學(xué)作文教學(xué)的效率。陽(yáng)光喔出資50多萬(wàn)元將國(guó)內(nèi)不同風(fēng)格、流派的的作文教學(xué)英豪召集在一起,共同探索、共同切磋提高作文教學(xué)水平,此為創(chuàng)舉。此次作文教學(xué)論壇的主題是“童心童趣〃創(chuàng)意作文/快樂(lè)作文〃創(chuàng)造快樂(lè)”,論壇專(zhuān)家組認(rèn)為:“童心〃童趣”是還少兒作文的應(yīng)有面目,對(duì)“創(chuàng)意作文”符合國(guó)家新一輪課改精神,要求論壇無(wú)論是參賽課還是參賽論文都要有“創(chuàng)意”?!翱鞓?lè)作文〃創(chuàng)造快樂(lè)”則是作文教學(xué)改革的切入點(diǎn)和落腳點(diǎn)。組委會(huì)專(zhuān)家組正在審校各地提交的參賽論文,準(zhǔn)備在論壇期間結(jié)集出版論文集。作為首屆陽(yáng)光杯作文教學(xué)論壇的一個(gè)“紙上論劍”的成果。從此,我便密切關(guān)注著這個(gè)網(wǎng)頁(yè)上的有關(guān)作文教學(xué)的權(quán)威性的信息,并順著“權(quán)威”,利用Google搜索相關(guān)的信息。我期待著該論壇期間結(jié)集出版論文集的出版和發(fā)行,期待著有更多權(quán)威的信息為我所用,所
以我時(shí)刻關(guān)注著這個(gè)網(wǎng)頁(yè)內(nèi)容的更新。Google為我更迅速、更有效地完成各項(xiàng)工作任務(wù)提供了幫助,它成了我工作上的好伙伴。
二、運(yùn)用了Google學(xué)術(shù)搜索查找有關(guān)的文獻(xiàn)資料。這次我除了使用輸入關(guān)鍵字符的方式,運(yùn)用搜索引擎最基本的語(yǔ)法外,我還運(yùn)用了Google 學(xué)術(shù)搜索查找有關(guān)的文獻(xiàn)資料。這是以前我從未使用過(guò)的搜索方法。這是我第一次認(rèn)識(shí)和運(yùn)用Google 學(xué)術(shù)搜索。Google 學(xué)術(shù)搜索提供可廣泛搜索學(xué)術(shù)文獻(xiàn)的簡(jiǎn)便方法。我可以從一個(gè)位置搜索眾多學(xué)科和資料來(lái)源:來(lái)自學(xué)術(shù)著作出版商、專(zhuān)業(yè)性社團(tuán)、預(yù)印本、各大學(xué)及其他學(xué)術(shù)組織的經(jīng)同行評(píng)論的文章、論文、圖書(shū)、摘要和文章。Google 學(xué)術(shù)搜索可幫助我在整個(gè)學(xué)術(shù)領(lǐng)域中確定相關(guān)性最強(qiáng)的研究。示例1:利用Google 學(xué)術(shù)搜索,搜索始于2003年的,小學(xué)語(yǔ)文作文表達(dá)能力的提高的所有網(wǎng)頁(yè)。搜索:”小學(xué)語(yǔ)文作文表達(dá)能力的提高”結(jié)果:搜索所有網(wǎng)頁(yè),所有文章約有8,400項(xiàng)符合小學(xué)語(yǔ)文作文表達(dá)能力的提高的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.13 秒)再點(diǎn)擊:約有5,310項(xiàng)符合小學(xué)語(yǔ)文作文表達(dá)能力的提高的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.13 秒)我發(fā)現(xiàn)這樣既可以縮小搜索范圍,又可以搜索到最新的文章。為了進(jìn)一步還可以這樣搜索:示例2:始于2003年的,所有包含小學(xué)語(yǔ)文作文表達(dá)能力的提高但不含“初中作文”、“高中作文”和“大學(xué)作文”的網(wǎng)頁(yè)搜索: ”小學(xué)語(yǔ)文作文表達(dá)能力的提高-初中作文-高中作文-大學(xué)作文”結(jié)果:搜索所有網(wǎng)頁(yè),所有文章約有616項(xiàng)符合小學(xué)語(yǔ)文作文表達(dá)能力的提高-初中作文-高中作文-大學(xué)作文的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.26 秒)再點(diǎn)擊最新文章:約有381項(xiàng)符合小學(xué)語(yǔ)文作文表達(dá)能力的提高-初中作文-高中作文-大學(xué)作文的查詢(xún)結(jié)果,以下是第1-10項(xiàng)(搜索用時(shí) 0.10 秒)通過(guò)以上示例可見(jiàn),通過(guò)去掉不相關(guān)信息,搜索結(jié)果確實(shí)減少了不少。此時(shí),我不得不不贊嘆“Google,你真了不起!”使用Google之后,我覺(jué)得對(duì)我的教學(xué)以及專(zhuān)業(yè)發(fā)展有很大促進(jìn)作用,具體表現(xiàn)它使我更快速、更準(zhǔn)確地查找到有價(jià)值的、權(quán)威性的信息,使我少走了不少?gòu)澛?、曲路。謝謝Google,謝謝焦老師,我不但深入地學(xué)習(xí)了Google的有關(guān)知識(shí)和技巧,更重要的是我學(xué)會(huì)更多的解決問(wèn)題的方法和技巧。方法并不是一成不變,正所謂“條條道路通羅馬”,只要學(xué)會(huì)“順藤摸瓜”,“縮小范圍”就能幫助你找到你想要的信息。
第二篇:信息檢索技術(shù)論文
近年來(lái),計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!
信息檢索技術(shù)論文
[摘要]通過(guò)對(duì)近年來(lái)計(jì)算機(jī)科學(xué)、人工智能、專(zhuān)利文獻(xiàn)加工等領(lǐng)域的發(fā)展進(jìn)行總結(jié),從多語(yǔ)言混合檢索、分類(lèi)檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專(zhuān)利文獻(xiàn)計(jì)算機(jī)檢索技術(shù)的最新發(fā)展。機(jī)器翻譯技術(shù)和多邊共同分類(lèi)體系的完善有助于提高計(jì)算機(jī)檢索效率、消除語(yǔ)言障礙,而語(yǔ)義檢索、圖像檢索和文獻(xiàn)自動(dòng)處理技術(shù)的發(fā)展有望使面向不同層次用戶(hù)的計(jì)算機(jī)智能化檢索系統(tǒng)得以實(shí)現(xiàn)。
[關(guān)鍵詞]專(zhuān)利文獻(xiàn) 計(jì)算機(jī)檢索 語(yǔ)義檢索 圖像檢索
1、前言
近年來(lái),計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展,專(zhuān)利文獻(xiàn)的計(jì)算機(jī)檢索技術(shù)正成為情報(bào)檢索領(lǐng)域研究的熱點(diǎn)。下文擬從多語(yǔ)言混合檢索、分類(lèi)檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專(zhuān)利文獻(xiàn)計(jì)算機(jī)檢索技術(shù)的最新發(fā)展。
2、多語(yǔ)言混合檢索
專(zhuān)利文獻(xiàn)是由各國(guó)、各地區(qū)專(zhuān)利局或世界知識(shí)產(chǎn)權(quán)局出版的官方文獻(xiàn),因此一般以各局官方語(yǔ)言出版。雖然大部分專(zhuān)利文獻(xiàn)是英語(yǔ)文獻(xiàn),但是仍然存在大量日文、中文、德文、法文及其他語(yǔ)種的文獻(xiàn)。出版語(yǔ)言的多樣性給專(zhuān)利文獻(xiàn)的檢索和利用帶來(lái)了極大的障礙,要實(shí)現(xiàn)多語(yǔ)言混合檢索,機(jī)器翻譯是必不可少的技術(shù)。目前一些專(zhuān)利局在其上推出了機(jī)器翻譯系統(tǒng),例如我國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局提供有漢英機(jī)器翻譯,日本特許廳提供有日英機(jī)器翻譯,韓國(guó)知識(shí)產(chǎn)權(quán)局提供有韓英機(jī)器翻譯等,上述網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)對(duì)其他國(guó)家的用戶(hù)閱讀方便和使用本國(guó)專(zhuān)利文獻(xiàn)起到了幫助作用。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器翻譯的技術(shù)也迅速發(fā)展,從傳統(tǒng)的基于規(guī)則的機(jī)器翻譯擴(kuò)展到了基于實(shí)例或模版的機(jī)器翻譯、統(tǒng)計(jì)機(jī)器翻譯等。尤其是近年來(lái)語(yǔ)言學(xué)和人工智能技術(shù)的發(fā)展,以語(yǔ)義描述或以知識(shí)描述為特征的智能機(jī)器翻譯系統(tǒng)正逐步成為研究的熱點(diǎn)。專(zhuān)利文獻(xiàn)作為一種特殊的科技文獻(xiàn),由于其具有特定的句法和語(yǔ)言結(jié)構(gòu),同時(shí)例如權(quán)利要求書(shū)等具有法律公示性文件的作用,這對(duì)翻譯的準(zhǔn)確性提出了更高的要求,已有研究者通過(guò)在機(jī)器翻譯系統(tǒng)內(nèi)集成多個(gè)翻譯引擎、對(duì)不同特點(diǎn)的內(nèi)容使用不同引擎翻譯的方式來(lái)提高翻譯質(zhì)量。
已有的機(jī)器翻譯系統(tǒng)基本局限于單篇文獻(xiàn)的機(jī)器翻譯,無(wú)法實(shí)現(xiàn)真正的多語(yǔ)言混合檢索。多語(yǔ)言混合檢索系統(tǒng)不僅可以允許混合語(yǔ)言的檢索式,而且同一個(gè)檢索式還可以對(duì)不同語(yǔ)言的專(zhuān)利文獻(xiàn)進(jìn)行檢索,其實(shí)現(xiàn)方式主要有如下三種:翻譯檢索式、翻譯文獻(xiàn)或者兩者相結(jié)合的混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語(yǔ)境,翻譯難度較大;翻譯文獻(xiàn)的方式雖然有利于提高翻譯質(zhì)量,進(jìn)而有利于文獻(xiàn)檢索,但存在的主要問(wèn)題是翻譯量太大、翻譯時(shí)間長(zhǎng)。
3、分類(lèi)檢索
分類(lèi)號(hào)一直是專(zhuān)利文獻(xiàn)檢索的重要手段。目前除了基本涵蓋各國(guó)專(zhuān)利文獻(xiàn)的國(guó)際專(zhuān)利分類(lèi)(IPC)之外,美國(guó)專(zhuān)利商標(biāo)局、日本特許廳和歐洲專(zhuān)利局各自都有自己的分類(lèi)體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類(lèi)標(biāo)準(zhǔn)不統(tǒng)一、分類(lèi)條目不夠完備、文獻(xiàn)分類(lèi)更新不及時(shí)等缺陷,導(dǎo)致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國(guó)和日本的專(zhuān)利文獻(xiàn),ECLA雖然能夠檢索到多國(guó)的文獻(xiàn),但仍然不能有效地檢索日本、韓國(guó)、中國(guó)等國(guó)的專(zhuān)利文獻(xiàn)。
為改善這種局面,美國(guó)、日本和歐洲自2000年即開(kāi)始了“三邊分類(lèi)和諧計(jì)劃”,該計(jì)劃旨在推進(jìn)ECLA、UC和FI三個(gè)分類(lèi)體系的融合以增強(qiáng)分類(lèi)號(hào)檢索的功能,同時(shí)對(duì)現(xiàn)有IPC分類(lèi)體系提出改進(jìn)建議。依據(jù)2009年召開(kāi)的第27次三邊會(huì)議,韓國(guó)知識(shí)產(chǎn)權(quán)局已經(jīng)加入上述計(jì)劃,而中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局也以觀(guān)察國(guó)的身份參與這項(xiàng)工作。此外,近年來(lái)美國(guó)專(zhuān)利商標(biāo)局、日本特許廳、歐洲專(zhuān)利局、韓國(guó)知識(shí)產(chǎn)權(quán)局和中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局五局積極開(kāi)展合作,其中一個(gè)重要的合作項(xiàng)目是“共同的分類(lèi)”。該項(xiàng)目的實(shí)施將有利于提高分類(lèi)的一致性,擴(kuò)展或細(xì)化部分技術(shù)領(lǐng)域的分類(lèi),進(jìn)而提高檢索的效率和質(zhì)量。
不管是美日歐三方開(kāi)展的“三邊分類(lèi)和諧計(jì)劃”,還是五局共同開(kāi)展的“共同的分類(lèi)”項(xiàng)目,都必將推進(jìn)專(zhuān)利文獻(xiàn)分類(lèi)體系的進(jìn)一步發(fā)展,實(shí)現(xiàn)真正意義上的“基于檢索的分類(lèi)”,進(jìn)一步增強(qiáng)分類(lèi)號(hào)在專(zhuān)利文獻(xiàn)計(jì)算機(jī)檢索中的作用。
4、語(yǔ)義檢索
當(dāng)前專(zhuān)利文獻(xiàn)檢索的主要手段為關(guān)鍵詞和分類(lèi)號(hào)檢索,而由于一詞多義、一義多詞,專(zhuān)利文獻(xiàn)撰寫(xiě)、加工和翻譯質(zhì)量不一以及關(guān)鍵詞的機(jī)械匹配等問(wèn)題,本質(zhì)上決定了其查全率和查準(zhǔn)率受限制。隨著計(jì)算技術(shù)、人工智能、自然語(yǔ)言處理等技術(shù)的發(fā)展,搜索引擎的智能化有望從根本上提高現(xiàn)有檢索系統(tǒng)的檢索質(zhì)量。
搜索引擎的智能化具體表現(xiàn)為語(yǔ)義檢索,也稱(chēng)為知識(shí)檢索或概念檢索。語(yǔ)義檢索是對(duì)檢索條件、信息組織及檢索結(jié)果顯示賦予一定語(yǔ)義成分的一種新的檢索方式。語(yǔ)義檢索的本質(zhì)在于以語(yǔ)義為對(duì)象進(jìn)行搜索,而不是對(duì)字符串進(jìn)行簡(jiǎn)單的機(jī)械匹配,因此可避免關(guān)鍵詞匹配檢索中由于詞和義不對(duì)應(yīng)所導(dǎo)致的問(wèn)題。
語(yǔ)義檢索過(guò)程一般包括對(duì)被檢索的文檔以及輸入的檢索式進(jìn)行語(yǔ)義分析和匹配處理。這種語(yǔ)義分析處理依賴(lài)于詞匯的語(yǔ)義描述技術(shù)以及分別用于詞義鑒別和詞匯過(guò)濾的語(yǔ)義識(shí)別技術(shù)和詞匯鏈算法??梢酝ㄟ^(guò)諸如WordNet等語(yǔ)義詞典對(duì)詞匯實(shí)現(xiàn)較完備的語(yǔ)義描述,保證人和機(jī)器對(duì)詞匯的理解一致。
最新發(fā)展的潛在語(yǔ)義索引通過(guò)將文獻(xiàn)搜索過(guò)程中的向量空間模型和奇異值分解相結(jié)合,可以揭示文檔中的詞間關(guān)系,因而適于構(gòu)建專(zhuān)利文獻(xiàn)搜索引擎”…。利用語(yǔ)義進(jìn)行檢索還可以將專(zhuān)利文獻(xiàn)中的非技術(shù)性信息考慮在內(nèi),例如將特定的技術(shù)概念和申請(qǐng)人、發(fā)明人等信息進(jìn)行語(yǔ)義聯(lián)系。此外,語(yǔ)義檢索還可以從用戶(hù)角度出發(fā),考慮用戶(hù)的檢索需求,從而為諸如查新、侵權(quán)等不同目的的檢索提供相應(yīng)的結(jié)果。
近年來(lái)國(guó)內(nèi)一些開(kāi)發(fā)商也紛紛提供具有語(yǔ)義檢索功能的專(zhuān)利文獻(xiàn)檢索系統(tǒng),例如東方靈盾開(kāi)發(fā)的專(zhuān)利檢索系統(tǒng)和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實(shí)現(xiàn)傳統(tǒng)的關(guān)鍵詞檢索功能,還支持語(yǔ)義檢索,僅通過(guò)輸入檢索所針對(duì)的專(zhuān)利文獻(xiàn)號(hào),即可自動(dòng)對(duì)其進(jìn)行語(yǔ)義分析、文獻(xiàn)檢索,并對(duì)結(jié)果進(jìn)行相關(guān)度排序。當(dāng)前專(zhuān)利文獻(xiàn)檢索領(lǐng)域還未廣泛應(yīng)用語(yǔ)義檢索,但隨著研究的深入,相信未來(lái)的搜索引擎不僅能利用語(yǔ)義技術(shù)提高檢索的效率,還有望能對(duì)檢索結(jié)果進(jìn)行分析、評(píng)價(jià),甚至自動(dòng)生成檢索報(bào)告。
5、圖像檢索
根據(jù)對(duì)圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內(nèi)容的圖像檢索法(cBIR)。專(zhuān)利文獻(xiàn)一般都帶有大量的附圖,包括機(jī)械結(jié)構(gòu)或化學(xué)結(jié)構(gòu)式附圖、電路圖、方框圖、流程圖或曲線(xiàn)圖等。與傳統(tǒng)的關(guān)鍵詞檢索和分類(lèi)號(hào)檢索相比,CBIR更加直觀(guān)、快速,而且可以克服因文字表述差異而導(dǎo)致的漏檢,因此它正在成為專(zhuān)利文獻(xiàn)檢索領(lǐng)域的研究熱點(diǎn)。專(zhuān)利文獻(xiàn)的附圖都是黑白二元圖像(本文
所稱(chēng)專(zhuān)利是指發(fā)明和實(shí)用新型專(zhuān)利,不包括外觀(guān)設(shè)計(jì)專(zhuān)利),不存在顏色和紋理等特征,因此專(zhuān)利文獻(xiàn)的圖像檢索主要是基于形狀和區(qū)域的圖像特征。
雖然目前還沒(méi)有成熟的專(zhuān)利文獻(xiàn)圖像檢索系統(tǒng),但一些研究機(jī)構(gòu)已經(jīng)開(kāi)發(fā)出若干可專(zhuān)門(mén)用于專(zhuān)利文獻(xiàn)的圖像檢索原型系統(tǒng),例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專(zhuān)門(mén)針對(duì)美國(guó)專(zhuān)利文獻(xiàn)進(jìn)行圖像檢索,而PatMedia網(wǎng)站上的試驗(yàn)系統(tǒng)僅針對(duì)歐洲專(zhuān)利局的專(zhuān)利文獻(xiàn),這兩個(gè)圖像檢索系統(tǒng)都可實(shí)現(xiàn)直接輸入待檢索的圖像,系統(tǒng)自動(dòng)進(jìn)行相似度匹配,直接提供專(zhuān)利附圖,同時(shí)還可以進(jìn)行基于文本的圖像檢索。
典型的專(zhuān)利圖像檢索系統(tǒng)包括專(zhuān)利文獻(xiàn)處理部分和圖像檢索部分,如圖1所示:
文獻(xiàn)處理部分又進(jìn)一步包括文獻(xiàn)預(yù)處理和視覺(jué)、文本元數(shù)據(jù)提取和索引兩部分。前者是找出文獻(xiàn)中的圖形和對(duì)應(yīng)的文字描述;后者則是進(jìn)一步進(jìn)行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語(yǔ)義特征的關(guān)鍵詞,由此分別形成索引后的圖形特征矢量庫(kù)、圖像庫(kù)、文本描述關(guān)鍵詞庫(kù)和知識(shí)庫(kù)。在圖像檢索部分,基于上述提取的元數(shù)據(jù),進(jìn)行圖像相似度匹配,同時(shí)還可以基于文本進(jìn)行圖像檢索。與一般領(lǐng)域的圖形檢索相比,由于專(zhuān)利文獻(xiàn)中每幅圖形一般都對(duì)應(yīng)有文字描述,即使不再進(jìn)行人工標(biāo)注或自動(dòng)標(biāo)注,都能提取到較好的高層語(yǔ)義特征,這對(duì)提高專(zhuān)利文獻(xiàn)圖形檢索的準(zhǔn)確性非常有幫助。
目前,專(zhuān)利文獻(xiàn)圖像檢索系統(tǒng)僅處于試驗(yàn)階段,只能對(duì)數(shù)量非常少的特定專(zhuān)利文獻(xiàn)進(jìn)行檢索,且檢索結(jié)果相關(guān)度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優(yōu)點(diǎn),相信隨著人們對(duì)專(zhuān)利文獻(xiàn)圖像檢索技術(shù)的進(jìn)一步研究以及語(yǔ)義檢索技術(shù)的進(jìn)一步發(fā)展,實(shí)現(xiàn)高精度的圖像檢索必將成為現(xiàn)實(shí)。
6、輔助技術(shù)
高質(zhì)量的專(zhuān)利文獻(xiàn)是提高檢索質(zhì)量的基礎(chǔ)。專(zhuān)利文獻(xiàn)分類(lèi)、標(biāo)引和摘要改寫(xiě)是專(zhuān)利文獻(xiàn)加工的主要內(nèi)容。傳統(tǒng)的專(zhuān)利文獻(xiàn)加工方法主要依賴(lài)于人工,其成本高且速度受限制,質(zhì)量不統(tǒng)一。隨著人工智能和計(jì)算機(jī)技術(shù)的發(fā)展,開(kāi)始出現(xiàn)對(duì)專(zhuān)利文獻(xiàn)進(jìn)行自動(dòng)分類(lèi)、自動(dòng)標(biāo)引、自動(dòng)摘要和自動(dòng)聚類(lèi)。
專(zhuān)利文獻(xiàn)自動(dòng)分類(lèi)已經(jīng)在歐洲、美國(guó)、日本得到了廣泛的研究和嘗試。例如歐洲專(zhuān)利局已經(jīng)利用自然語(yǔ)言處理的相關(guān)技術(shù)實(shí)現(xiàn)了專(zhuān)利文獻(xiàn)的自動(dòng)初分類(lèi);對(duì)日本專(zhuān)利文獻(xiàn)自動(dòng)分類(lèi)研究表明,對(duì)于使用K臨近算法進(jìn)行自動(dòng)分類(lèi)的情況下,先將專(zhuān)利文獻(xiàn)按部分結(jié)構(gòu)化為語(yǔ)義單元可以提高74%的效率。
PATExpert代表了目前較先進(jìn)的專(zhuān)利文獻(xiàn)自動(dòng)處理技術(shù)的發(fā)展,通過(guò)基于語(yǔ)義網(wǎng)的語(yǔ)義處理技術(shù)實(shí)現(xiàn)了面向內(nèi)容的專(zhuān)利文獻(xiàn)自動(dòng)處理,其中的一個(gè)主要技術(shù)是利用一定的語(yǔ)義表示結(jié)構(gòu)實(shí)現(xiàn)專(zhuān)利文獻(xiàn)知識(shí)層面的表達(dá)。該系統(tǒng)可以執(zhí)行的處理任務(wù)包括:專(zhuān)利文獻(xiàn)內(nèi)容和元數(shù)據(jù)的自動(dòng)抽取;全文、圖像、相關(guān)性搜索引擎;專(zhuān)利文獻(xiàn)的自動(dòng)分類(lèi)和聚類(lèi);面向多語(yǔ)言的輔助理解工具;專(zhuān)利價(jià)值自動(dòng)評(píng)估等。
國(guó)內(nèi)有一些研究機(jī)構(gòu)開(kāi)展了大量的基于IPC體系的專(zhuān)利文獻(xiàn)自動(dòng)分類(lèi)的研究,這些研究大部分集中在統(tǒng)計(jì)分類(lèi)技術(shù)。近年來(lái)隨著人工智能技術(shù)的興起,基于人工智能或語(yǔ)義的專(zhuān)利文獻(xiàn)自動(dòng)分類(lèi)發(fā)展迅速,例如上文提到的Patentics試驗(yàn)系統(tǒng)也開(kāi)始嘗試對(duì)專(zhuān)利文獻(xiàn)進(jìn)行自動(dòng)分類(lèi)。
中文專(zhuān)利文獻(xiàn)的自動(dòng)處理仍處于研究階段,雖然國(guó)外專(zhuān)利文獻(xiàn)自動(dòng)處理已經(jīng)積累了許多寶貴經(jīng)驗(yàn),但由于中文表述的特殊性,許多技術(shù)還待消化和開(kāi)發(fā),例如漢語(yǔ)詞匯之間的分詞技術(shù)是制約自動(dòng)標(biāo)引質(zhì)量的一個(gè)障礙。隨著信息處理自動(dòng)化相關(guān)技術(shù)的發(fā)展,專(zhuān)利文獻(xiàn)的自動(dòng)分類(lèi)、自動(dòng)標(biāo)引、自動(dòng)聚類(lèi)和自動(dòng)摘要正在逐步由半自動(dòng)走向全自動(dòng)化,這給搜索引擎的發(fā)展帶來(lái)了極大的便利。同時(shí),利用語(yǔ)義技術(shù)實(shí)現(xiàn)基于內(nèi)容的自動(dòng)處理將是未來(lái)的發(fā)展主流,也是提高專(zhuān)利文獻(xiàn)自動(dòng)處理質(zhì)量的主要手段。
7、結(jié)語(yǔ)
專(zhuān)利文獻(xiàn)計(jì)算機(jī)檢索是一個(gè)涉及了多學(xué)科的研究領(lǐng)域,其中以語(yǔ)義檢索為核心的技術(shù)推動(dòng)了搜索引擎、機(jī)器翻譯、圖像檢索等相關(guān)技術(shù)的發(fā)展,而由于專(zhuān)利文獻(xiàn)的特殊性,分類(lèi)體系和文獻(xiàn)自動(dòng)處理技術(shù)也在其中占據(jù)了重要地位。隨著研究的進(jìn)一步深入,現(xiàn)存的語(yǔ)言障礙和檢索效率低下等缺陷在不久的將來(lái)必將逐漸被克服,不同層次的用戶(hù)有望借助于智能化的自動(dòng)檢索系統(tǒng)便利地實(shí)現(xiàn)專(zhuān)業(yè)化檢索。
第三篇:WEB全文信息檢索技術(shù)
WEB全文信息檢索技術(shù)
摘要:本文探索了在INTERNET網(wǎng)上實(shí)現(xiàn)全文檢索的技術(shù)。計(jì)論了從網(wǎng)上信息的標(biāo)引、分類(lèi)等預(yù)處理到組織信息檢索的過(guò)程,并就智能檢索技術(shù)的發(fā)展進(jìn)行了闡述。關(guān)鍵詞:信息檢索 因特網(wǎng) 全文檢索
一、前言
Internet網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡(luò),它將政府、學(xué)校、圖書(shū)館、商務(wù)場(chǎng)所、研究機(jī)構(gòu)和其它組織中的局域網(wǎng)(LAN)集成為一個(gè)單一的、龐大的、跨越全球的通訊網(wǎng)絡(luò)。越來(lái)越多的人們利用這一網(wǎng)絡(luò)與世界各地的人進(jìn)行交流。如何利用Internet網(wǎng)獲取有價(jià)值的信息,已成為科研人員必備的一項(xiàng)基本技能。
因特網(wǎng)是一個(gè)開(kāi)放型的巨大的信息資源庫(kù),擁有上千萬(wàn)臺(tái)以上的主機(jī)和過(guò)億的用戶(hù);并且由于因特網(wǎng)信息蘊(yùn)含的無(wú)限豐富,信息組織、表達(dá)的直觀(guān)、生動(dòng)以及信息服務(wù)的方便性和多樣性,愈來(lái)愈多的信息搜索者被其獨(dú)特的魅力所吸引。而在近幾年,因特網(wǎng)用戶(hù)的數(shù)量更是成倍地增長(zhǎng)??梢?jiàn),因特網(wǎng)檢索已成為實(shí)際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。
二、概述
網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專(zhuān)業(yè)性不強(qiáng)等特點(diǎn),給情報(bào)搜集、分類(lèi)、檢索等工作帶來(lái)了新的問(wèn)題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報(bào)科學(xué)研究者所關(guān)注的熱點(diǎn)。全文信息檢索就是概據(jù)Internet信息的特點(diǎn)而發(fā)展起來(lái)的一種檢索方式。它主要指研究對(duì)整個(gè)文檔信息的表示,存儲(chǔ)、組織和訪(fǎng)問(wèn),即根據(jù)用戶(hù)的查詢(xún)要求,從信息數(shù)據(jù)庫(kù)中檢索出相關(guān)信息資料。
全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達(dá)、信息查詢(xún)的獲得以及相關(guān)信息的匹配。一個(gè)好的全文信息檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該能夠根據(jù)用戶(hù)的意圖、興趣和特點(diǎn)自適應(yīng)和智能化地調(diào)整匹配機(jī)制,獲得用戶(hù)滿(mǎn)意的檢索輸出。
要實(shí)現(xiàn)全文檢索,首先必須對(duì)WEB信息進(jìn)行預(yù)處理。
三、WEB信息的預(yù)處理
信息預(yù)處理的主要功能是過(guò)濾文件系統(tǒng)信息,為文件系統(tǒng)的表達(dá)提供一種滿(mǎn)意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶(hù)能很容易地檢索到所需信息。
(1)格式過(guò)濾:信息預(yù)處理應(yīng)該能夠過(guò)濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語(yǔ)詞切分:語(yǔ)詞是信息表達(dá)的最小單位,而漢語(yǔ)不同于西方語(yǔ)言,其句子的語(yǔ)詞間沒(méi)有分隔符因此需要進(jìn)行語(yǔ)詞切分。常用的語(yǔ)詞切分方法有按詞典進(jìn)行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想-回溯法、全自動(dòng)詞典切詞等。近年來(lái),又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專(zhuān)家系統(tǒng)的分詞方法和基于統(tǒng)計(jì)和頻度分析的分詞方法。
(3)詞法分析:漢語(yǔ)語(yǔ)詞切分中存在切分歧異,如句子“網(wǎng)球拍賣(mài)完了”,可以切分為“網(wǎng)球/拍賣(mài)完了”,也可以切分為“網(wǎng)球拍/賣(mài)完了”。因此需要利用各種上下文知識(shí)解決語(yǔ)詞切分歧異。此外,還需要對(duì)語(yǔ)詞進(jìn)行詞法分析,識(shí)別出各個(gè)語(yǔ)詞的詞干,以便根據(jù)詞干建立信息索引。對(duì)于英語(yǔ)語(yǔ)詞,建立索引之前首先要去除一些停頓詞(如常見(jiàn)的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。
(4)詞性標(biāo)注和短語(yǔ)識(shí)別:在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計(jì)的方法進(jìn)行詞性標(biāo)注。在此基礎(chǔ)上,還要利用各種語(yǔ)法規(guī)則,識(shí)別出重要的短語(yǔ)結(jié)構(gòu)。
(5)自動(dòng)標(biāo)引:從網(wǎng)頁(yè)文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶(hù)檢索入口的關(guān)鍵性信息,用該組信息對(duì)文文件進(jìn)行標(biāo)引,使用戶(hù)可以通過(guò)輸入關(guān)鍵信息檢索到該文文件的簡(jiǎn)要信息,如標(biāo)題、摘要、時(shí)間、作者和URL等,進(jìn)一步點(diǎn)擊可查詢(xún)到該文 1 檔.
(6)自動(dòng)分類(lèi):建立并維護(hù)一套完整的分類(lèi)目錄體系,根據(jù)文文件的信息特征,計(jì)算出與其相關(guān)程度最大的一個(gè)或多個(gè)分類(lèi),將文檔劃歸到這些分類(lèi)中去,使用戶(hù)可以通過(guò)瀏覽分類(lèi)體系直接查詢(xún)到該文檔.
.
四、檢索
檢索包括文件信息表達(dá)和查詢(xún)信息表達(dá)以及相關(guān)信息預(yù)測(cè)過(guò)程。
(1)信息表達(dá):信息的表達(dá)有多種方式,如布爾表達(dá)、矢量空間表達(dá)、自然語(yǔ)言表達(dá)等,每種表達(dá)方式由應(yīng)用系統(tǒng)服務(wù)者提出并由整個(gè)應(yīng)用系統(tǒng)的目的和需求所決定,并對(duì)應(yīng)于相應(yīng)的存儲(chǔ)模式和檢索算法,信息查詢(xún)和組織的效率,也就是速度和存儲(chǔ)的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。
(2)查詢(xún)分析:用戶(hù)端的查詢(xún)信息首先要進(jìn)行分析處理,提取出查詢(xún)項(xiàng)索引、邏輯表達(dá)式或其它查詢(xún)特征描述。和文件信息索引不同的是:查詢(xún)索引處理是及時(shí)地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索和獲取預(yù)先生成的本地索引。查詢(xún)索引和文件索引采取同樣的表達(dá)方式,因此能夠采取相似性估計(jì)算法檢索出相關(guān)文件。
(3)查詢(xún)擴(kuò)展:近年來(lái),為了提高信息檢索的性能,將應(yīng)用領(lǐng)域知識(shí)和索引、相關(guān)性、估計(jì)、查詢(xún)表達(dá)相結(jié)合實(shí)現(xiàn)查詢(xún)擴(kuò)展,即查詢(xún)索引還包括不在用戶(hù)查詢(xún)中出現(xiàn)的查詢(xún)?cè)~部分。典型的知識(shí)庫(kù)查詢(xún)擴(kuò)展應(yīng)用如圖1所示,知識(shí)庫(kù)中存儲(chǔ)的知識(shí)為原始查詢(xún)?cè)鎏砹讼嚓P(guān)詞,從而擴(kuò)展了原始查詢(xún)。
(4)查詢(xún)?cè)~的選擇策略:
·非獨(dú)立詞:非獨(dú)立詞指的是和查詢(xún)?cè)~具有較大相關(guān)性的詞。但是預(yù)先必須計(jì)算文件集合中的所有詞之間的相關(guān)性。
·反饋詞:根據(jù)用戶(hù)反饋的文件信息,按照在相關(guān)文件和非相關(guān)文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶(hù)查詢(xún)中。
·交互式選擇:用戶(hù)從通過(guò)上述策略得出的待選詞中決定最后的查詢(xún)?cè)~。
反饋網(wǎng)絡(luò)屬于人機(jī)交互范疇,目的在于提高查詢(xún)性能和針對(duì)性。不同的用戶(hù)根據(jù)實(shí)際情況提供不同的反饋信息,不同的信息檢索服務(wù)系統(tǒng)按照其功能與檢索方法也有不同的反饋結(jié)構(gòu)和交互方式,因此查詢(xún)結(jié)果也不盡相同。
(5)信息檢索模型:信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復(fù)雜信息中,篩選出符合用戶(hù)需要的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡(jiǎn)單的檢索模型,也是其他檢索模型的基礎(chǔ)。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,即一系列對(duì)應(yīng)于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時(shí)也包括一些更為復(fù)雜的特征,如數(shù)據(jù)、短語(yǔ)、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達(dá)集合。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系遞交查詢(xún)。匹配函數(shù)由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢(xún)相關(guān),或者與查詢(xún)無(wú)關(guān)。查詢(xún)結(jié)果一般不進(jìn)行相關(guān)性排序。
模糊邏輯模型為了處理精度和復(fù)雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為[0,1]的模糊邏輯為基礎(chǔ)的,以隸屬函數(shù)概念來(lái)描述現(xiàn)象差異的中間過(guò)渡。在查詢(xún)結(jié)果處理過(guò)程中引入模糊邏輯運(yùn)算,將所檢索的文件信息和用戶(hù)的查詢(xún)要求進(jìn)行模糊邏輯比較,按照相關(guān)性的優(yōu)先次序排出查詢(xún)結(jié)果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢(xún)結(jié)果的無(wú)序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢(xún)和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢(xún)?cè)~和文件的內(nèi)部結(jié)構(gòu)聯(lián)系,通過(guò)歐幾里德距離和余弦法則作相似性比較,根據(jù)矢量空間的相似性,排列查詢(xún)結(jié)果。矢量空間模型不僅可以方便地產(chǎn)生有效的查詢(xún)結(jié)果,而且能夠提供查詢(xún)結(jié)果分類(lèi),為用戶(hù)提供準(zhǔn)確定位所需的信息。
概率模型在信息檢索中存在不確定性問(wèn)題,對(duì)查詢(xún)本身來(lái)說(shuō),它不能唯一地表示信息需求,對(duì)于結(jié)果來(lái)說(shuō),定查詢(xún)結(jié)果的正確與否。對(duì)于布爾檢索也是如此,因?yàn)椴樵?xún)的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問(wèn)題,引入了概率檢索模型。該模型基于概率排隊(duì)理論:當(dāng)文件按相關(guān)概率遞減原則排列時(shí)可以獲得最大的檢索性能。
五、全文信息檢索技術(shù)的發(fā)展
目前的全文檢索技術(shù)還存在著一些未盡人意的結(jié)果,主要是通常的信息檢索系統(tǒng)性能較低,原因是將孤立詞和詞匯術(shù)語(yǔ)作為查詢(xún)描述子,因而文件內(nèi)容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結(jié)合的產(chǎn)物。它能使信息檢索系統(tǒng)“理解”用戶(hù)的信息需要和文件包含的信息內(nèi)容。它在對(duì)內(nèi)容的分析理解、內(nèi)容表達(dá)、知識(shí)學(xué)習(xí)、推理機(jī)制,決策等基礎(chǔ)上實(shí)現(xiàn)檢索的智能化。
目前人工智能和信息檢索的結(jié)合主要包括三方面:(1)信息檢索和專(zhuān)家系統(tǒng):主要研究方向是開(kāi)發(fā)一個(gè)專(zhuān)家中介系統(tǒng)來(lái)協(xié)助查詢(xún)形成、搜索策略選擇以及預(yù)測(cè)檢索文件;(2)信息檢索和自然語(yǔ)言處理:它實(shí)際上是以字或詞為符號(hào)的一種符號(hào)系統(tǒng)。目前自然語(yǔ)言處理對(duì)信息檢索的應(yīng)用仍停留在簡(jiǎn)單語(yǔ)言處理上,例如確認(rèn)詞根和詞組等。(3)信息檢索和知識(shí)表達(dá):此領(lǐng)域的研究主要是通過(guò)應(yīng)用領(lǐng)域知識(shí)來(lái)理解文件和查詢(xún)的信息內(nèi)容。
目前,雖然某些在WWW上的信息檢索服務(wù)系統(tǒng)采取了智能用戶(hù)代理的等方式,可以根據(jù)用戶(hù)事先定義的信息檢索要求,在網(wǎng)絡(luò)上實(shí)時(shí)監(jiān)視信息源,如指定Web頁(yè)面的更新、網(wǎng)絡(luò)新聞、電子郵件等,并將用戶(hù)所需的信息通過(guò)電子郵件等方式,主動(dòng)提供給用戶(hù),減少用戶(hù)檢索信息的時(shí)間。但是商用信息檢索系統(tǒng)仍主要以布爾模糊邏輯為主,輔以部分自然語(yǔ)言的處理。智能化信息檢索技術(shù)的發(fā)展,特別是知識(shí)學(xué)習(xí)和知識(shí)庫(kù)以及人機(jī)交互方式的應(yīng)用,將大大提高信息檢索服務(wù)系統(tǒng)的精度和相關(guān)性。隨著智能化技術(shù)的發(fā)展,全文信息檢索技術(shù)必將更廣泛地應(yīng)用于網(wǎng)上信息檢索領(lǐng)域。附:參考文獻(xiàn)
1)、004km.cnposed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.
第四篇:網(wǎng)絡(luò)信息檢索技術(shù)
網(wǎng)絡(luò)信息檢索技術(shù)
網(wǎng)絡(luò)信息檢索中,基本的檢索技術(shù)有布爾邏輯檢索、截詞檢索、位置檢索、限制檢索等。
一、布爾邏輯檢索
邏輯檢索是一種開(kāi)發(fā)較早、比較成熟、在信息檢索系統(tǒng)中廣泛應(yīng)用的技術(shù)。布爾邏輯檢索就是采用布爾關(guān)系運(yùn)算符來(lái)表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法,目前最常用的布爾邏輯運(yùn)算符主要包括邏輯“與”(AND)、邏輯“或”(OR)、邏輯“非”(NOT)。
(一)邏輯“與”
邏輯“與”,也稱(chēng)為邏輯乘,用AND表示,是用來(lái)組配不同含義檢索詞之間的限定關(guān)系。檢索詞A、B以AND(或“*”)相連,即A AND B(或A*B),表示同時(shí)包含A、B兩詞的文獻(xiàn)才是命中記錄,因而邏輯“與”運(yùn)算用于對(duì)檢索詞進(jìn)行限定,從而縮小檢索范圍,提高檢索結(jié)果的查準(zhǔn)率。
例如,要查找children education(兒童教育)方面的文獻(xiàn),檢索邏輯式可表示為“children * education”或者“children AND education”。運(yùn)算的結(jié)果是同時(shí)含有檢索詞children和檢索詞education的文獻(xiàn)才被檢索出來(lái)。
(二)邏輯“或”
邏輯“或”,也稱(chēng)為邏輯加,用OR或者“+”表示,是用來(lái)組配同義或者同族檢索詞之間的并列關(guān)系。檢索詞A、B若以O(shè)R或“+”相連,即A OR B(或A+B),表示只要含有A、B之一或者同時(shí)包含A、B的文獻(xiàn)都是命中記錄。因而邏輯“或”運(yùn)算可用于擴(kuò)大檢索范圍。
例如,要查找“汽車(chē)”方面的文獻(xiàn),因?yàn)槠?chē)在英語(yǔ)中可以用car或者automobile表示,所以為了將有關(guān)汽車(chē)的文獻(xiàn)全部檢出,避免漏檢,檢索邏輯式就可表示為“car OR automobile”或者“car + automobile”。運(yùn)算的結(jié)果是含有car或者automobile任意一個(gè)或者同時(shí)兩個(gè)的文獻(xiàn)均被檢索出來(lái)。
(三)邏輯“非”
邏輯“非”用NOT或者“-”來(lái)表示,是用來(lái)組配概念的包含關(guān)系,可以從原檢索范圍中排除一部分,因而使用邏輯“非”運(yùn)算可以縮小檢索范圍。檢索詞A、B若以NOT(或“-”)相連,即A NOT B(或A-B),表示只含有檢索詞A而不含有B的文獻(xiàn)才是命中記錄。邏輯“非”可用于縮小檢索范圍,但是不一定能提高文獻(xiàn)命中的準(zhǔn)確率。在使用時(shí)要注意,避免將相關(guān)的有用文獻(xiàn)排除在外。
例如,要查找有關(guān)“energy(能源)”,但又不涉及“nuclear(核能)”方面的文獻(xiàn),檢索邏輯式可表示為“energy NOT nuclear”“energy-nuclear”。運(yùn)算的結(jié)果是含有energy,但不含有nuclear的文獻(xiàn)將被檢索出來(lái)。
這三種邏輯式的文氏圖如下:
圖3-1布爾邏輯文氏圖
上面三種檢索邏輯式是最為簡(jiǎn)單的布爾邏輯運(yùn)算。在檢索實(shí)踐中,可以根據(jù)實(shí)際需要,組合使用多個(gè)布爾運(yùn)算符,以準(zhǔn)確表達(dá)檢索主題。
布爾邏輯檢索與人們的思維習(xí)慣一致,表達(dá)清晰,方便用戶(hù)進(jìn)行擴(kuò)檢和縮檢,而且易于計(jì)算機(jī)實(shí)現(xiàn),因此,在計(jì)算機(jī)信息檢索系統(tǒng)中得到廣泛使用。但是它無(wú)法反映檢索詞對(duì)于檢索的重要性,無(wú)法反映概念之間內(nèi)在的語(yǔ)義聯(lián)系,因而檢索結(jié)果不能按照用戶(hù)定義的重要性排序輸出。
使用布爾邏輯運(yùn)算符的注意事項(xiàng):
布爾邏輯檢索在聯(lián)機(jī)檢索、光盤(pán)檢索和網(wǎng)絡(luò)檢索中都有廣泛的應(yīng)用,但是不同的檢索工具的布爾邏輯檢索技術(shù)存在一定的差異,因此,使用布爾邏輯檢索需要注意以下問(wèn)題:
1、布爾邏輯檢索的執(zhí)行順序。三種布爾邏輯檢索運(yùn)算符之間的運(yùn)算順序?yàn)镹OT、AND、OR。有括號(hào)時(shí),先執(zhí)行括號(hào)內(nèi)的邏輯運(yùn)算。
2、不同檢索工具的布爾邏輯檢索有不同的表現(xiàn)形式和使用規(guī)則。首先,不同檢索工具表示布爾邏輯關(guān)系的符號(hào)不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求運(yùn)算符必須大寫(xiě),有的則要求為小寫(xiě)形式;其次,不同檢索工具的檢索詞之間的默認(rèn)布爾邏輯關(guān)系不同,有的檢索工具檢索詞之間的默認(rèn)關(guān)系是AND,有的檢索工具的檢索詞之間的默認(rèn)關(guān)系是OR;此外,不同檢索工具支持布爾邏輯的方式不同,有的檢索工具使用符號(hào)來(lái)實(shí)現(xiàn)布爾邏輯關(guān)系,一些檢索工具則完全省略了任何符號(hào),直接用文字和表格來(lái)體現(xiàn)不同的邏輯關(guān)系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。
二、截詞檢索
截詞檢索是指在檢索式中使用專(zhuān)門(mén)的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化,用檢索詞的詞干或不完整的詞形查找信息的一種檢索方法。并認(rèn)為凡滿(mǎn)足這個(gè)詞局部中的所有字符的文獻(xiàn),都為命中的文獻(xiàn)。在實(shí)際檢索的過(guò)程中,為了減少檢索詞的輸入量,同時(shí)又?jǐn)U大檢索范圍,保證查全率,可以使用截詞檢索。
截詞的方式有多種。按截?cái)嗟奈恢脕?lái)分,可分為后截?cái)唷⒅薪財(cái)嗪颓敖財(cái)?;按截?cái)嗟淖址麛?shù)量來(lái)分,可分為有限截?cái)嗪蜔o(wú)限截?cái)?。有限截?cái)嗍侵刚f(shuō)明具體截去字符的數(shù)量,通常用“?”表示;而無(wú)限截?cái)嗍侵覆徽f(shuō)明具體截去字符的數(shù)量,通常用“x”表示。
(一)后截?cái)?/p>
后截?cái)嗍亲畛S玫慕卦~檢索技術(shù),是將截詞符號(hào)放置在一個(gè)字符串右方,以表示其右的有限或無(wú)限個(gè)字符將不影響該字符串的檢索,是一種前方一致的檢索。這種方法可以省略輸入各種詞尾有變化的檢索詞的麻煩,有助于提高查全率。
例如,輸入“inform x”,則前6個(gè)字符為inform的所有詞均滿(mǎn)足條件,因而能檢索出含有informant、informal、information、informative、informed、informer等詞的文獻(xiàn)。而輸入“inform??”,可檢索出含有inform、informal、informed、informer的文獻(xiàn)。(二)前截?cái)?/p>
前截?cái)嗍菍⒔卦~符號(hào)放置在一個(gè)字符串左方,以表示其左方的有限或無(wú)限個(gè)字符不影響該字符串檢索,是一種后方一致的檢索。這種檢索方法在各種詞頭有變化的復(fù)合詞的檢索中應(yīng)用比較多,有助于提高查全率。
例如,輸入“x magnetic”,可以檢索出含magnetic、electro-magnetic等詞的文獻(xiàn)。
(三)中截?cái)?/p>
中截?cái)嗍前呀財(cái)喾?hào)放置在一個(gè)檢索詞的中間。一般地,中截?cái)嘀辉试S有限截?cái)?。中截?cái)嘀饕鉀Q一些英文單詞拼寫(xiě)不同,單復(fù)數(shù)形式不同的詞的輸入。
例如,輸入“c?t”,可以檢索出含有詞cat、cut的文獻(xiàn);輸入“mod?ation”可以檢索出含有詞moderation、modernization、modification的文獻(xiàn)。
利用截詞檢索技術(shù)可以減少檢索詞的輸入量,簡(jiǎn)化檢索,擴(kuò)大檢索范圍,提高查全率。但是,不同的檢索工具有不同的截詞規(guī)則,使用的截詞符號(hào)也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),如Dialog系統(tǒng)用“?”,BRS系統(tǒng)用“$”,ORBIT系統(tǒng)用“#”等。
三、位置檢索
位置檢索,也稱(chēng)臨近檢索,主要是通過(guò)位置運(yùn)算符來(lái)規(guī)定和限制檢索詞之間的相對(duì)位置或者檢索詞在記錄中的特定位置來(lái)實(shí)施檢索的技術(shù)。這里我們只介紹位置檢索中的詞位置檢索。
詞位置檢索主要是利用位置邏輯算符限定檢索詞之間的位置,來(lái)反映要檢索的信息概念。常用的詞位置算符有(W)與(nW)、(N)與(nN)以及(X)與(nX)三類(lèi)。
(一)(W)算符與(nW)算符
(W)算符是Word和With的縮寫(xiě),它表示在此算符兩側(cè)的檢索詞必須按輸入時(shí)的前后順序排列,而且所連接的詞之間除可以有一個(gè)空格、一個(gè)標(biāo)點(diǎn)符號(hào)或一個(gè)連接號(hào)外,不得夾有任何其他單詞或字母,且詞序不能顛倒。(nW)算符的含義是允許在連接的兩個(gè)詞之間最多夾入n個(gè)其他單元詞。
例如,“VISUAL(W)FOXPRO”可以檢出
VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以檢出含有contro1 system、control of system和contro1 in system的文獻(xiàn)。
(二)(N)算符與(nN)算符
(N)算符是Near的縮寫(xiě),它表示在此算符兩側(cè)的檢索詞必須緊密相連,所連接的檢索詞之間不允許插入任何其他單詞或字母,但詞序可以顛倒。(nN)算符表示在兩個(gè)檢索詞之間最多可以插入n個(gè)單詞,且這兩個(gè)檢索詞的詞序任意。
例如,“control(1N)system”不僅可以檢出含有control system、control of systcm和control in system 的文獻(xiàn),還可以檢出含有system of control、system without control等的文獻(xiàn)。
(三)(X)算符與(nX)算符
(X)算符要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,且中間不允許插入任何其他單詞或字母。它常用來(lái)限定兩個(gè)相同且必須相鄰的詞。(nX)算符的含義是要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,兩個(gè)檢索詞之間最多可以插入n個(gè)單元詞。
例如,“side(1X)side”可以檢索到含有side by side的文獻(xiàn)。
四、限制檢索
限制檢索是通過(guò)限制檢索范圍,從而達(dá)到約束和優(yōu)化檢索結(jié)果的一種方法。限制檢索的方式有多種,常用的有字段限制檢索和限制符限制檢索。
(一)字段檢索
數(shù)據(jù)庫(kù)記錄是由若干個(gè)字段組成的,字段檢索是把檢索詞限定在數(shù)據(jù)庫(kù)記錄的特定字段中的檢索方法,如果記錄的相應(yīng)字段中含有輸入的檢索詞則為命中記錄。字段限制檢索可以縮小檢索范圍,提高查準(zhǔn)率。
數(shù)據(jù)庫(kù)中提供的可供檢索的字段通常分為基本索引字段和輔助索引字段兩大類(lèi)。基本索引字段表示文獻(xiàn)的內(nèi)容特征,有TI(篇名、題目)、AB(摘要)、DE(敘詞)、ID(自由標(biāo)引詞)等;輔助索引字段表示文獻(xiàn)的外部特征,有AU(作者)、CS(作者單位)、JN(刊物名稱(chēng))、PY(出版年份)、LA(語(yǔ)言)等。在檢索提問(wèn)式中,可以利用后綴符“/”對(duì)基本索引字段進(jìn)行限制,利用前綴符“=”對(duì)輔助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表達(dá)的檢索要求是,查找2006年出版的關(guān)于信息檢索或數(shù)字圖書(shū)館方面的文獻(xiàn),并要求information retrieval一詞在命中文獻(xiàn)的TI(篇名)字段中出現(xiàn),digital library一詞在DE(敘詞)字段中出現(xiàn)。
(二)限制檢索
限制符檢索是使用AU(作者)、CS(作者單位)、JN(刊物名稱(chēng))、PY(出版年份)、LA(語(yǔ)言)等限制符號(hào)從文獻(xiàn)的外部特征方面限制檢索范圍和檢索結(jié)果的一種方法。限制符的用法與后綴符相同,而它的作用則與前綴符相同。
例如,“aircraft/TI,PAT”表示檢索結(jié)果只包含aircraft這一主題的專(zhuān)利文獻(xiàn)。限制符還可以與前、后綴符同時(shí)使用,這時(shí)字段代碼與限制符之間的關(guān)系是邏輯“與”,即最終的檢索結(jié)果應(yīng)同時(shí)滿(mǎn)足字段檢索和限制符檢索兩方面的要求。
第五篇:論網(wǎng)絡(luò)信息檢索技術(shù)
論網(wǎng)絡(luò)信息檢索技術(shù)
摘要:20世紀(jì)以來(lái),人類(lèi)創(chuàng)生的信息量高速增長(zhǎng),浩如煙波。如何從這海量的信息里找出所需信息就成為信息檢索的重任。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,越來(lái)越多的人把因特網(wǎng)作為獲取日常信息的重要手段。掌握信息檢索的方法與技巧是非常有必要的,人們對(duì)快速、準(zhǔn)確、有效地獲取網(wǎng)絡(luò)信息資源的需求是急切的,人們對(duì)網(wǎng)絡(luò)信息的檢索技術(shù)及其發(fā)展趨勢(shì)進(jìn)行探討和研究,也是迫切而實(shí)用的。針對(duì)網(wǎng)絡(luò)信息檢索的各種方法與技巧進(jìn)行了客觀(guān)的分析與思考,旨在尋找提高網(wǎng)絡(luò)信息檢索的手段和方法的有效途徑,并最終提高網(wǎng)絡(luò)信息的檢索效果,使得網(wǎng)絡(luò)信息資源得到充分有效地利用。關(guān)鍵詞:網(wǎng)絡(luò)、信息檢索、檢索技術(shù)、工具
0 引言
進(jìn)入20世紀(jì)90年代以后,互聯(lián)網(wǎng)的發(fā)展風(fēng)起云涌,人類(lèi)社會(huì)的信息化、網(wǎng)絡(luò)化進(jìn)程大大加快。與之相適應(yīng)的信息檢索的交流平臺(tái)也迅速轉(zhuǎn)移到以WWW為核心的網(wǎng)絡(luò)應(yīng)用環(huán)境中,信息檢索步入網(wǎng)絡(luò)化時(shí)代,網(wǎng)絡(luò)信息檢索已基本取代了手工檢索。
什么是信息?信息是消息,人們?cè)趯W(xué)習(xí)、工作、日常生活中隨時(shí)隨地都在接受和利用信息;信息是資源,它具有使用價(jià)值和價(jià)值;信息是財(cái)富,且是無(wú)價(jià)之財(cái)富;信息是生產(chǎn)力要素,更是一種不可估量的促進(jìn)生產(chǎn)力發(fā)展的新動(dòng)力。因此,人類(lèi)社會(huì)的發(fā)展,科技技術(shù)的進(jìn)步,都離不開(kāi)信息資源的開(kāi)發(fā)和利用。而且,信息資源的真實(shí)狀況及開(kāi)發(fā)利用程度,已經(jīng)成為衡量一個(gè)國(guó)家經(jīng)濟(jì)、文化、科技以及綜合國(guó)力的重要指標(biāo)。我們?cè)鯓涌焖俚牟檎倚畔⒑陀行虻恼硇畔ⅲ啃畔z索是最快的途徑。
信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶(hù)的信息需求查找所需信息的過(guò)程和技術(shù)。人們獲取信息源的方式主要有:①傳統(tǒng)的信息檢索方法,通過(guò)人工查詢(xún)?cè)趫D書(shū)館等提供文獻(xiàn)的機(jī)構(gòu)進(jìn)行文獻(xiàn)的查詢(xún)和獲取活動(dòng);②聯(lián)機(jī)信息檢索相對(duì)于前者來(lái)說(shuō)具有實(shí)時(shí)性、完整性、共享性、廣泛性等優(yōu)點(diǎn);③網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。網(wǎng)絡(luò)信息檢索的現(xiàn)狀以及策略
在這個(gè)高速發(fā)展的信息時(shí)代的社會(huì),隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,越來(lái)越多的人把因特網(wǎng)作為獲取日常信息的重要手段。用網(wǎng)絡(luò)搜索一些信息,如了解時(shí)事、生活疑惑、尋醫(yī)問(wèn)病、自?shī)首詷?lè)等,通常都比較方便快捷。然而,網(wǎng)絡(luò)信息資源相當(dāng)豐富,多種多樣,當(dāng)人們進(jìn)行專(zhuān)業(yè)信息檢索時(shí),結(jié)果往往不盡如人意。即便是經(jīng)常上網(wǎng)高校的老師與學(xué)生也有常常搜索不到專(zhuān)業(yè)文獻(xiàn)信息的時(shí)候。
由于信息資源數(shù)量龐大、各信息間又相互交叉滲透,使得一些科研課題資料的檢索相當(dāng)?shù)挠须y度,因此,我們必須掌握合理的檢索策略,這樣才能保證我們能有滿(mǎn)意的檢索效果。所謂檢索策略,就是正確的選擇檢索詞、科學(xué)合理的提問(wèn)等。首先應(yīng)對(duì)要檢索的內(nèi)容進(jìn)行細(xì)致的分析,將完整的主題分為一個(gè)個(gè)獨(dú)立的檢索概念,然后要注意選全、選好相關(guān)詞。在檢索英文資料時(shí),還要注意英美不同的拼寫(xiě)形式以及檢索詞的單復(fù)數(shù)形式、縮寫(xiě)形式等,然后采用布爾邏輯的原理,將表達(dá)相關(guān)概念的各檢索詞組配起來(lái),以轉(zhuǎn)換成搜索引擎可以理解的信息提問(wèn)式,在對(duì)其數(shù)據(jù)庫(kù)進(jìn)行搜索后,便可獲得相應(yīng)的結(jié)果。因特網(wǎng)上的信息浩繁龐雜,一些有價(jià)值的專(zhuān)業(yè)信息被大量無(wú)用信息所淹沒(méi),要想系統(tǒng)的、全面的、準(zhǔn)確的獲取有價(jià)值的信息,就需要學(xué)會(huì)科學(xué)的制定信息技術(shù)策略。
2網(wǎng)絡(luò)信息檢索的原理及方法
網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。
網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。
①布爾邏輯模型——這是一種簡(jiǎn)單而常用的嚴(yán)格匹配模型。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān)。利用這種模型進(jìn)行查詢(xún),其查詢(xún)結(jié)果一般沒(méi)有按照內(nèi)容的相關(guān)特性排序。
②模糊邏輯模型——它在查詢(xún)結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果,這樣就可以克服布爾邏輯模型信息查詢(xún)結(jié)果的無(wú)序性。
③ 概率模型——它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來(lái)進(jìn)行信息檢索。
要在網(wǎng)上獲取信息,我們就需要找到提供信息源的服務(wù)器。首先找到各個(gè)服務(wù)器在網(wǎng)上的地址,然后通過(guò)該地址去訪(fǎng)問(wèn)服務(wù)器提供的信息。大致有以下幾種方法: 2.1漫游法
這是在因特網(wǎng)上發(fā)現(xiàn)、檢索信息的原始方法。即在日常的網(wǎng)絡(luò)閱讀、漫游過(guò)程中,意外發(fā)現(xiàn)一些有用信息。這種方式的目的性不是很強(qiáng),具不可預(yù)見(jiàn)性和偶然性。
用戶(hù)在閱讀超文本文檔時(shí),利用文檔中的鏈接從一網(wǎng)頁(yè)轉(zhuǎn)向另一相關(guān)網(wǎng)頁(yè)。此方法類(lèi)似于傳統(tǒng)手工檢索中的追溯檢索,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯查找相關(guān)的文獻(xiàn),從而不斷擴(kuò)大檢索范圍。這種方法可能在較短的時(shí)間內(nèi)檢出大量相關(guān)信息,也可能偏離檢索目標(biāo)而一無(wú)所獲。2.2直接查找法
直接查找法是已經(jīng)知道要查找的信息可能存在的地址,而直接在瀏覽器的地址欄中輸入其網(wǎng)址進(jìn)行瀏覽查找的方法。此方法適合于經(jīng)常上網(wǎng)漫游的用戶(hù)。其優(yōu)點(diǎn)是節(jié)省時(shí)間、目的性強(qiáng)、節(jié)省費(fèi)用,缺點(diǎn)是信息量少。2.3搜索引擎檢索法
此方法是最為常規(guī)、普遍的網(wǎng)絡(luò)信息檢索方法。搜索引擎是提供給用戶(hù)進(jìn)行關(guān)鍵詞、詞組或自然語(yǔ)言檢索的工具。用戶(hù)提出檢索要求,搜索引擎代替用戶(hù)在數(shù)據(jù)庫(kù)中進(jìn)行檢索,并將檢索結(jié)果提供給用戶(hù)。它一般支持布爾檢索、詞組檢索、截詞檢索、字段檢索等功能。利用搜索引擎進(jìn)行檢索的優(yōu)點(diǎn)是:省時(shí)省力,簡(jiǎn)單方便,檢索速度快、范圍廣,能及時(shí)獲取新增信息。其缺點(diǎn)是:由于采用計(jì)算機(jī)軟件自動(dòng)進(jìn)行信息的加工、處理,且檢索軟件的智能性不很高,造成檢索的準(zhǔn)確性不是很理想,與人們的檢索需求及對(duì)檢索效率的期望有一定差距。
2.4網(wǎng)絡(luò)資源指南檢索法
此方法是利用網(wǎng)絡(luò)資源指南進(jìn)行查找相關(guān)信息的方法。
網(wǎng)絡(luò)資源指南類(lèi)似于傳統(tǒng)的文獻(xiàn)檢索工具————書(shū)目之書(shū)目或?qū)n}書(shū)目,其目的是可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的智能性查找。它們通常由專(zhuān)業(yè)人員在對(duì)網(wǎng)絡(luò)信息資源進(jìn)行鑒別、選擇、評(píng)價(jià)、組織的基礎(chǔ)上編制而成,對(duì)于有目的的網(wǎng)絡(luò)信息檢索具有重要的指導(dǎo)作用。其局限性在于:由于其管理、維護(hù)跟不上網(wǎng)絡(luò)信息的增長(zhǎng)速度,使得其收錄范圍不夠全面,新穎性、及時(shí)性不夠強(qiáng),且用戶(hù)還要受標(biāo)引者分類(lèi)思想的限制。2.5 在線(xiàn)數(shù)據(jù)庫(kù)查詢(xún)
利用網(wǎng)上的在線(xiàn)數(shù)據(jù)庫(kù)進(jìn)行查詢(xún)。訪(fǎng)問(wèn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)是用戶(hù)獲取學(xué)術(shù)性信息的最有效方法。網(wǎng)上在線(xiàn)數(shù)據(jù)庫(kù)有很多,比如:超星數(shù)字圖書(shū)館、萬(wàn)方數(shù)據(jù)庫(kù)資源系統(tǒng)、中國(guó)維普數(shù)據(jù)庫(kù)、CNKI中國(guó)期刊網(wǎng)數(shù)據(jù)庫(kù)等。
3網(wǎng)絡(luò)信息檢索詳論
3.1網(wǎng)絡(luò)信息檢索方式
其檢索方式有:瀏覽器方式和搜索引擎方式。(l)瀏覽器方式
只要能夠進(jìn)入html就能夠通過(guò)瀏覽器,利用HTTP協(xié)議提供的萬(wàn)維網(wǎng)服務(wù),瀏覽接觸頁(yè)面和通過(guò)Web頁(yè)面提供的檢索方式訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。
(2)搜索引擎方式
搜索引擎是internet提供公共信息檢索服務(wù)的Web站點(diǎn),它是以一定的技術(shù)和策略在internet中搜集和發(fā)現(xiàn)網(wǎng)絡(luò)信息,并對(duì)網(wǎng)絡(luò)信息進(jìn)行理解、提取和處理,建立數(shù)據(jù)庫(kù),同時(shí)以web形式提供一個(gè)檢索界面,供用戶(hù)輸入檢索關(guān)鍵詞、詞組或短語(yǔ)等檢索項(xiàng),代替用戶(hù)在數(shù)據(jù)庫(kù)中查找出與提問(wèn)相匹配的記錄,同時(shí)返回結(jié)果且按相關(guān)度排序輸出,從而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬(wàn)維網(wǎng)服務(wù)器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務(wù)的宗旨是為滿(mǎn)足用戶(hù)的信息需要,所以它是面向用戶(hù)的,采用的方式是交互式的。3.2網(wǎng)絡(luò)信息檢索工具
從20世紀(jì)80年代起人們就開(kāi)發(fā)了諸如Archive、WAIS、Veronica等檢索工具,從90年代中期起又出現(xiàn)了檢索萬(wàn)維網(wǎng)絡(luò)信息資源的搜索引擎技術(shù),并以此構(gòu)造檢索所有各類(lèi)網(wǎng)絡(luò)信息資源的集成化支撐體系。據(jù)統(tǒng)計(jì),各種各樣的Internet網(wǎng)絡(luò)信息檢索工具已有數(shù)千個(gè),按這些工具的檢索機(jī)制、檢索內(nèi)容范圍,以及檢索工具的數(shù)量、檢索資源類(lèi)型,可將它們劃分為以下各類(lèi):
(l)按檢索機(jī)制劃分
根據(jù)檢索工具的數(shù)據(jù)檢索機(jī)制,可將檢索工具分為檢索型、目錄型和混合型檢索工具。(2)按檢索內(nèi)容劃分
根據(jù)檢索工具的數(shù)據(jù)內(nèi)容,檢索工具可分為綜合型、專(zhuān)題型和特殊檢索工具書(shū)。(3)按包含檢索工具數(shù)量劃分 根據(jù)檢索工具數(shù)量劃分,檢索工具可分為單獨(dú)型和復(fù)合型檢索工具。(4)按檢索資源類(lèi)型劃分
根據(jù)檢索工具針對(duì)的數(shù)據(jù)資源類(lèi)型,可將檢索工具分為萬(wàn)維網(wǎng)檢索工具和非萬(wàn)維網(wǎng)檢索工具。
3.3網(wǎng)絡(luò)信息檢索技巧
目前常用的信息檢索方法有兩種:一種是利用搜索引擎進(jìn)行關(guān)鍵詞、主題詞或自然語(yǔ)言檢索。最著名的搜索引擎有AltaVista、Excite、HotBot、Infoseek等;另一種是按主題分類(lèi)指南進(jìn)行檢索,如Yahoo!就是按主題組織資源、逐次分類(lèi),供讀者按需查詞的;有的檢索工具兩種方式可以隨時(shí)切換使用, 如Info seek。相比之下, 前者信息的獲取太雜亂, 魚(yú)龍混雜, 精確度太低, 需通過(guò)多次篩選才能找到所需信息。而后者的信息組織系統(tǒng)性較強(qiáng),精確度較高。但主要問(wèn)題在于獲取率較低且很難反映信息之間的關(guān)聯(lián)性。由此可見(jiàn), 兩種方法各有利弊, 讀者要根據(jù)檢索的目的來(lái)挑選和使用檢索工具,同時(shí)要學(xué)習(xí)一些提高檢索效果的方法和技巧。
(l)檢索關(guān)鍵詞具體化;(2)運(yùn)用詞組檢索;
(3)巧用Boolean邏輯詞:AND、OR 和NOT。
4網(wǎng)絡(luò)信息檢索的技巧
在中國(guó),用來(lái)獲取中文信息的搜索引擎,主要是揚(yáng)名華人世界的百度搜索引擎和全球聞名的Google搜索引擎。Google在外文信息搜索方面有絕對(duì)的優(yōu)勢(shì),并較早推出了中文信息搜索,而百度專(zhuān)攻中文搜索,并在漢語(yǔ)特點(diǎn)研究等方面做出來(lái)很大貢獻(xiàn),近幾年又推出了多種特色搜索服務(wù),從而在中文網(wǎng)絡(luò)搜索領(lǐng)域占據(jù)了絕對(duì)的優(yōu)勢(shì)。另外,我們常見(jiàn)的搜索引擎還有雅虎、網(wǎng)易有道、百度等。掌握網(wǎng)絡(luò)信息搜索技巧對(duì)于很好地利用這些搜索引擎很有幫助,對(duì)自己搜索信息更是簡(jiǎn)單至極。通過(guò)互聯(lián)網(wǎng)獲取信息,如何避免在浩瀚的互聯(lián)網(wǎng)海洋中迷失方向,掌握一些基本的網(wǎng)上搜索技巧可以說(shuō)是必需的。網(wǎng)上的信息搜索技術(shù)如此的多,怎樣才能高效迅速地找到問(wèn)題的答案呢?有幾種技術(shù)可以幫助你更加快捷地找到所需網(wǎng)頁(yè)。沒(méi)有一種技術(shù)是萬(wàn)能的,但將幾種技術(shù)巧妙地結(jié)合起來(lái)使用會(huì)大大加快網(wǎng)頁(yè)搜索進(jìn)程。
網(wǎng)上的內(nèi)容雖然很豐富,但必須先有人放上網(wǎng)。搜索引擎本事再大,也搜索不到網(wǎng)上沒(méi)有的內(nèi)容,而且,有些內(nèi)容雖然存在網(wǎng)上,卻因?yàn)楦鞣N原因,很可能成為漏網(wǎng)之魚(yú)。所以在使用搜索引擎之前,應(yīng)該先花幾秒鐘想一下,我要找的東西網(wǎng)上可能有嗎?如果有,又可能在哪里?網(wǎng)頁(yè)上會(huì)含有哪些關(guān)鍵字?
一次成功的搜索由兩個(gè)部分組成:一個(gè)設(shè)計(jì)優(yōu)秀的搜索請(qǐng)求和一個(gè)準(zhǔn)確可信的搜索結(jié)果。在你點(diǎn)擊任何一條搜索結(jié)果之前,快速地分析一下你的搜索結(jié)果的標(biāo)題和網(wǎng)址,會(huì)幫你節(jié)省大量的時(shí)間。
比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用的有:AND和OR或NOT,恰當(dāng)應(yīng)用它們可以使搜索結(jié)果非常精確。另外,也可以使用括號(hào)將搜索詞分別組合。
如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來(lái),這樣得到的結(jié)果最少、最精確。通過(guò)添加英文雙引號(hào)來(lái)搜索短語(yǔ)詞,這一方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。很多搜索引擎都支持在搜索詞前冠以“+”限定搜索結(jié)果中必須包含的詞匯,用“-”限定搜索結(jié)果不能包含的詞匯。
在Internet上進(jìn)行查詢(xún)時(shí)如果能注意一些細(xì)節(jié)問(wèn)題,常常能增加搜索結(jié)果的準(zhǔn)確性,如許多搜索引擎都區(qū)分字母的大小寫(xiě),因此,如果您正在搜索人名或地名等關(guān)鍵詞,應(yīng)該正確使用它們的大小寫(xiě)字母形式。
如果只給出一個(gè)單詞進(jìn)行搜索,經(jīng)常會(huì)出現(xiàn)數(shù)以千計(jì)甚至以百萬(wàn)計(jì)的匹配網(wǎng)頁(yè)。然而如果再加上一個(gè)單詞,那么搜索結(jié)果會(huì)更加切題。在搜索時(shí),給出兩個(gè)關(guān)鍵詞,并將兩個(gè)詞用AND與邏輯結(jié)合起來(lái),或者在每個(gè)詞前面加上“+”,這種與邏輯技術(shù)大大地縮小了搜索結(jié)果的范圍,從而加快了搜索。幸運(yùn)的是,所有主要的搜索引擎都使用同樣的語(yǔ)法。一個(gè)帶引號(hào)的詞組意味著只有完全匹配該詞組,包括空格的網(wǎng)頁(yè)才是要搜索的網(wǎng)頁(yè)。把這幾種符號(hào)結(jié)合起來(lái)使用,能大大提高搜索效率。網(wǎng)絡(luò)信息檢索發(fā)展
5.1網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展
1990年以前,網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展沒(méi)有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說(shuō),所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開(kāi)始的,雖然它當(dāng)時(shí)只可以實(shí)現(xiàn)簡(jiǎn)單意義上的FTP文件檢索。隨著World Wide Web的出現(xiàn)和發(fā)展,基于網(wǎng)頁(yè)的信息檢索工具出現(xiàn)并迅速發(fā)展起來(lái)。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國(guó)華盛頓大學(xué)的Eric Solberg 等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索工具也取得了十足的發(fā)展。5.2 影響網(wǎng)絡(luò)信息檢索質(zhì)量的因素
(l)搜索引擎在檢索的實(shí)現(xiàn)過(guò)程中存在一些尚未解決的問(wèn)題,影響檢索效果(本身存在的問(wèn)題)。
(2)頁(yè)面的制作、組織過(guò)程中存在的欠缺會(huì)影響到被檢索的信息質(zhì)量。
(3)檢索用戶(hù)與搜索引擎的交互過(guò)程中,由于交互的背景不同,目的不同,會(huì)影響檢索效果。
5.3網(wǎng)絡(luò)信息檢索工具展望
從最早的網(wǎng)絡(luò)信息檢索工具(如Archie)算起,它們作為一個(gè)整體只有不足十年的歷史,而基于萬(wàn)維網(wǎng)的檢索工具(如Yahoo!和AltaVista),出現(xiàn)的時(shí)間則更晚??梢?jiàn),網(wǎng)絡(luò)信息檢索工具尚處于發(fā)展高峰期。
網(wǎng)絡(luò)信息檢索現(xiàn)今的主要問(wèn)題是查準(zhǔn)率太差。如今,人們正通過(guò)一些研究,設(shè)法使網(wǎng)絡(luò)信息檢索的空間在不影響查全率這一前提下,提高查準(zhǔn)率,它們的未來(lái)充滿(mǎn)希望。在網(wǎng)絡(luò)信息檢索環(huán)境中,檢索、瀏覽和獲取這三個(gè)過(guò)程相互交融,自由轉(zhuǎn)換、合為一體,已展示出了信息檢索的新趨勢(shì),為充分地利用網(wǎng)絡(luò)信息資源創(chuàng)造了條件。
結(jié)語(yǔ)
人類(lèi)已經(jīng)進(jìn)入了信息社會(huì),信息社會(huì)化與社會(huì)信息化是當(dāng)今重要的時(shí)代特征。信息檢索作為傳遞、搜索信息的手段發(fā)展愈來(lái)愈快。如果不懂得信息檢索,要在浩如煙海的各種信息中尋找自己需要的信息,就如同大海撈針一般困難,掌握了信息檢索的方法和技巧,就可以使信息的查詢(xún)過(guò)程更有條理性、計(jì)劃性,避繁就簡(jiǎn),事半功倍。所以,我們應(yīng)充分利用信息資源,避免重復(fù)勞動(dòng)??茖W(xué)研究具有繼承和創(chuàng)造兩重性,縱觀(guān)科學(xué)技術(shù)發(fā)展史,積累、繼承和借鑒前人的研究成果是科技發(fā)展的重要前提。更新自身知識(shí)積累,適應(yīng)社會(huì)發(fā)展需要。在信息社會(huì),人們需要終生學(xué)習(xí),不斷更新知識(shí),才能適應(yīng)社會(huì)發(fā)展的需求。掌握信息檢索的方法與技能,是形成合理知識(shí)和更新知識(shí)的重要手段。
參考文獻(xiàn)
[1]董守武.網(wǎng)絡(luò)信息檢索[M].西安:西安電子科技大學(xué)出版社,2010.04 [2]朱紅、朱敬、李淑青.網(wǎng)絡(luò)信息檢索與利用[M].北京:人民郵電出版社,2010.09 [3]高凱、郭立煒、許云峰.網(wǎng)絡(luò)信息檢索技術(shù)及搜索引擎系統(tǒng)開(kāi)發(fā) [M].北京:科學(xué)出版社,2010.02 [4]陳泉.網(wǎng)絡(luò)信息資源檢索與利用 [M].北京:清華大學(xué)出版社,2010.08 [5]韓圣龍.網(wǎng)絡(luò)信息檢索工具評(píng)價(jià)指標(biāo)[J]情報(bào)學(xué)報(bào),2001,(04).[6] 黃麗紅.情報(bào)理論與實(shí)踐,2005,(02).[7]賀曉麗.信息資源網(wǎng)絡(luò)檢索的特點(diǎn)、問(wèn)題及對(duì)策.時(shí)代情報(bào),2007,5.[8]鄧燕萍.現(xiàn)代情報(bào),2004,(04).[9] 王霞,劉萍.晉圖學(xué)刊,2004,(03).