第一篇:多媒體信息檢索技術(shù)與數(shù)字化圖書館
多媒體信息檢索技術(shù)與數(shù)字化圖書館
楊勻
(鹽城師范學院圖書館,江蘇 鹽城 224002)
[摘要] 隨著信息技術(shù)的發(fā)展和數(shù)字化進程的加快,傳統(tǒng)的圖書館的管理模式也正在經(jīng)歷著一場革命。本文作者對什么是數(shù)字化圖書館以及數(shù)字化圖書館的重要特征和數(shù)字化圖書館的發(fā)展方向進行了重點研究和論述。
[關(guān)鍵詞]
多媒體 信息檢索 數(shù)字化 圖書館
圖書館作為知識和信息的交流中心,幾百年來一直受到人們的重視,并逐漸形成了一套完善的管理模式和科學方法。但隨著信息技術(shù)的發(fā)展和數(shù)字化進程的加快,傳統(tǒng)的圖書館的管理模式也正在經(jīng)歷著一場革命。將計算機和網(wǎng)絡技術(shù)應用于圖書管理之后,就實現(xiàn)了圖書的電子化管理和檢索,但這并不是真正意義上的數(shù)字化圖書館。有些人認為將傳統(tǒng)圖書館中的文本文獻全部轉(zhuǎn)化成電子文檔就是數(shù)字化圖書館,這種觀點也是錯誤的。一個完整意義上的數(shù)字化圖書館應具有以下幾個特征:1)采用計算機和數(shù)據(jù)庫技術(shù)進行文獻管理和檢索;2)館藏文獻不僅包括文本文獻,而且包括各種多媒體形式的文獻;3)在分布式網(wǎng)絡環(huán)境中以信息庫的形式存在。當前,大多數(shù)圖書館都已基本具備了第一個特征。但具備第二和第三個特征的圖書館還寥寥無幾。
一、什么是數(shù)字化圖書館
所謂數(shù)字化圖書館,簡而言之,就是一種擁有多種媒體內(nèi)容豐富的數(shù)字化信息資源,能為讀者方便、快捷地提供信息的服務機制。雖然被稱之為“館”,但它并不占用空間,很大程度上也不受時間的限制,因為它的存在方式是將文字、圖像、聲音等信息數(shù)字化,并通過國際互聯(lián)網(wǎng)傳輸,從而做到信息資源全球共享。與以往的圖書館最大的不同就在于:它變集中“人”為集中信息和服務——“館”的形式并不重要,其水平高低取決于“軟件”質(zhì)量。在專家眼中,一個建設(shè)完備的數(shù)字圖書館應當成為重要信息的生產(chǎn)基地,多種信息資源的聚集中心;讀者、專家、圖書館員交互的樞紐;信息發(fā)現(xiàn)、搜索、捕捉的導航站點;為用戶提供高水平服務的知識噴泉。
二、信息資源檢索的數(shù)字化與網(wǎng)絡化是數(shù)字化
圖書館的重要特征
電子計算機技術(shù)、通訊技術(shù)和多媒體技術(shù)相結(jié)合的現(xiàn)代信息數(shù)據(jù)處理技術(shù)的迅猛發(fā)展,加快了社會信息化的進程。遍布世界各地的Internet加速了世界范圍內(nèi)數(shù)字化和網(wǎng)絡化的信息環(huán)境的形成。高校圖書館正是借助于現(xiàn)代信息技術(shù)在圖書館的應用,推動改革和擴展了圖書館的各項職能。信息資源檢索服務也是其中之一。
信息資源檢索(Information Resource Retrieval)是將信息按一定的方式 組織或存儲起來,當讀者或用戶需要時找出或提供有關(guān)信息的過程?;蛘哒f,信息檢索是將檢索者提問的特征與檢索標識進行比較,將檢索和提問特征一致或相似的信息查找出來。信息檢索包含資源存儲的檢索。信息檢索有文獻檢索,數(shù)據(jù)檢索和事實檢索三種類型。文獻檢索是檢索文獻資料,是從已存儲的文獻中查找出所需文獻的過程。文獻檢索可檢索出某一國家和某一作者的文章和著作,事實檢索是檢索所需的事實,數(shù)據(jù)是檢索確切的數(shù)據(jù)。
隨著以計算機技術(shù),尤其是網(wǎng)絡技術(shù)為核心的現(xiàn)代信息技術(shù)的不斷進步和在圖書館的運用,高校圖書館的信息檢索服務正在由傳統(tǒng)的手工文獻資源檢索向計算機系統(tǒng)的OPAC檢索發(fā)展。尤其是廣大師生員工查找圖書館資料所需的時間進一步縮短,加快了信息檢索的速度,提高了信息檢索的效率。
今天的計算機檢索技術(shù)發(fā)展極快,已由脫機向聯(lián)機檢索和網(wǎng)絡檢索過渡。脫機檢索是指以獨立的計算機為單位,利用光盤、磁盤、磁帶等存儲介質(zhì)進行的信息檢索。聯(lián)機檢索系統(tǒng)是20世紀70年代隨著計算機和通訊技術(shù)的飛速發(fā)展,信息檢索服務進入網(wǎng)絡環(huán)境而發(fā)展起來的信息檢索系統(tǒng)。聯(lián)機檢索是利用通訊設(shè)備與存儲有信息的計算機相聯(lián)結(jié)查找有關(guān)信息的過程。檢索者在通訊線路暢通的環(huán)境下,應用計算機終端設(shè)備與主機進行人機對話查找信息的過程。檢索者可在檢索過程中隨時修改自記的檢索策略,直到獲得滿意的結(jié)果。世界上規(guī)模最大的計算機聯(lián)機數(shù)據(jù)庫檢索服務系統(tǒng)有美國俄亥俄州圖書館計算機中心的OCLC,美國絡克希德公司的DOALOG,美國系統(tǒng)發(fā)展公司的ORBIT,美國醫(yī)學圖書館的MEDLINE,歐洲空間組織的ESA,日本的JOIS等。聯(lián)機檢索不受地理位置的限制,多用戶可同時進行檢索。檢索速度快,功能多,打印輸出靈活方便。
今天,高校圖書館依托Internet開發(fā)和應用的服務項目眾多。網(wǎng) 絡信息檢索只是其中最具優(yōu)勢的服務項目之一。Internet上運行有功能完善的信息檢索工具,如Gopher、WAIS、WWW等。Gopher(分布式信息服務系統(tǒng))是Internet的重要信息檢索工具。它采用客戶機/服務器結(jié)構(gòu),通過多級菜單界面便于檢索者查看校園網(wǎng)的各種信息。WAIS(廣域信息網(wǎng))是Internet上的文本信息資源檢索工具。它為檢索者提供的自然語言界面受到檢索者的普通歡迎。WWW(環(huán)球網(wǎng))是Internet上最先進的網(wǎng)絡信息檢索系統(tǒng)。它集超文本技術(shù),網(wǎng)絡技術(shù)和多媒體技術(shù)為一體。WWW的瀏覽器/服務器模式具有優(yōu)化的結(jié)構(gòu)和強大的功能,也是最受檢索者喜愛的信息檢索系統(tǒng)之一。Internet技術(shù)遵循統(tǒng)一的協(xié)議將不同的信息系統(tǒng)連結(jié)起來,將世界上成千上萬臺服務器聯(lián)成一體,實現(xiàn)了各個信息系統(tǒng)向整體化和集成化的轉(zhuǎn)換。各高校圖書館應用Internet技術(shù)建立本館的Web網(wǎng)站和OPAC,便于檢索者在各個地理位置的聯(lián)機終端訪問圖書館并快速地檢索各學科的專業(yè)信息。因此,無論你在家中或在辦公室都可以檢索到高校圖書館網(wǎng)頁上的網(wǎng)絡數(shù)據(jù)庫或全文數(shù)據(jù)庫。
高校圖書館作為各校教學和科研的信息資源中心,大多購置和擁有豐富的館藏印刷文獻資源,電子文獻資源和網(wǎng)絡信息資源。尤其是大量的國內(nèi)外光盤全文數(shù)據(jù)庫和網(wǎng)絡信息資源在高校圖書館的Web網(wǎng)站的OPAC上可無縫鏈接檢索。如“中國學術(shù)期刊數(shù)據(jù)庫”,“中國高等教育文獻保障目錄”、“萬方數(shù)據(jù)光盤檢索系統(tǒng)”、“科學引文索引”Web版數(shù)據(jù)庫,美國俄亥俄州OCLC書目數(shù)據(jù)庫和全文數(shù)據(jù)庫等等。此外,有的高校圖書館還根據(jù)本校重點學科建設(shè)引進一些入編質(zhì)量高 和數(shù)量大的世界高水平的學術(shù)性網(wǎng)絡數(shù)據(jù)庫及電子期刊全文數(shù)據(jù)庫。
總之,擁有豐富的信息資源和多渠道檢索方式的高校圖書館借助現(xiàn)代信息技術(shù)的確為檢索者訪問圖書館,尤其是訪問圖書館的Web網(wǎng)站及時獲取所需的信息和及時了解所學專業(yè)的發(fā)展動態(tài)提供了極大的便利。
三、多媒體與超媒體信息檢索技術(shù)是數(shù)字化
圖書館的發(fā)展方向
隨著信息查詢系統(tǒng)的不斷發(fā)展,多媒體與超媒體信息檢索已得到廣泛應用,多媒體與超媒體信息檢索服務系統(tǒng)是一種人機交互的、以多媒體信息庫為基礎(chǔ)的、提供信息服務的系統(tǒng)。在多媒體與超媒體信息檢索服務系統(tǒng)問世以前,在電信領(lǐng)域有可視圖文系統(tǒng),在計算機領(lǐng)域有文獻資料檢索系統(tǒng)和各種數(shù)據(jù)庫檢索系統(tǒng)。因此,從信息檢索服務的角度來看,多媒體與超媒體信息檢索服務是可視圖文、各種數(shù)據(jù)庫檢索服務的自然發(fā)展。這種發(fā)展和變化的動因是信息從單一媒體表示發(fā)展為多媒體表示。高校圖書館要成為名符其實的數(shù)字化圖書館,必須逐步發(fā)展和提供多媒體與超媒體信息檢索服務體系。
多媒體與超媒體信息技術(shù)是一個新的領(lǐng)域,其有關(guān)技術(shù)正在發(fā)展之中,尚有許多待研究的課題。多媒體與超媒體信息技術(shù)的發(fā)展對信息存儲管理、人機界面的開發(fā)提供有力的支持,它作為人類信息通信與信息聯(lián)想的工具,將促進計算機和多媒體技術(shù)應用的深入與發(fā)展,也有利于促進數(shù)字化圖書館的高速發(fā)展和功能的不斷完善。
[參考文獻] [1] 張文俊.當代傳媒新技術(shù).上海:復旦大學出版社,1998.年8月
[2] 張樹京.陳漁源.多媒體通信和發(fā)展和應用.上海鐵道大學學報, 1994年3月第15卷第1期
[3] 劉國亮.多媒體通信的技術(shù)基礎(chǔ)與應用領(lǐng)域.長春郵電學院學報,1994年第12卷第2期
第二篇:圖書館信息檢索大賽
活動主題:圖書館信息檢索大賽
一、主辦單位:重慶醫(yī)藥高等??茖W校醫(yī)學技術(shù)系
二、指導單位:重慶醫(yī)藥高等??茖W校圖書館、醫(yī)學技術(shù)系黨團總支
三、協(xié)助媒體:圖書館公告
四、活動目的及原則:促進同學們對圖書館的了解,增強主人翁意識。使圖
書館得到合理、高效利用。認識圖書館數(shù)字資源的重要性。學會數(shù)字資源檢索知識,提高檢索能力,以便充分利用圖書館資源。本次活動本著公平、公證、公開、自愿原則。
五、活動時間地點
六、活動構(gòu)思:
(一)比賽形式重于新穎,力求提高參與度。
我們此次活動在保證比賽順利進行的前提下,力求在比賽的各個環(huán)節(jié)有所創(chuàng)新。因此,在策劃上,無論是各班級的選拔賽,還是第二階段預賽比賽流程,或是總決賽的設(shè)想,我們都應避免落入俗套。畢竟,再精彩的比賽模式,觀看得多了也就無所謂興趣使然。而只有不斷地推陳出新,才能夠真正地把握住觀眾的興趣導向,使其參與到活動中,融入到活動的氣氛中來。因此,我們設(shè)想在初賽采取“幸運52”答題的模式,預賽中采取“開心辭典”的模式,決賽采取“幸運52”和“聯(lián)合對抗”結(jié)合的答題的模式,這都是在現(xiàn)在的中國風靡一時且仍廣受關(guān)注的活動形式,且在各大高校起碼在我們學校中尚沒有較為完全或成功的借鑒。因此,我們采取這樣的比賽形式,把日常在電視中才能看到的真正拉近到同學們的身邊,讓同學們親身參與其中,體驗其前所未有卻又夢寐以求的感受。而對于決賽,由于是全系部各班代表之間的最終總決賽,除如上的某些環(huán)節(jié)
之外,我們策劃能夠加入更多關(guān)于高校發(fā)展的內(nèi)容。畢竟,在這樣的比賽中,需要的是更能夠突顯選手個性的環(huán)節(jié)。而且由于最終的勝負是由在我校特邀評委評定,不是機械的評判,結(jié)果不再一目了然,更增加了比賽的緊張性。另外,在選題方面,我們采取專家出題和征集學生所出題目相結(jié)合,力求擴大影響范圍。
(二)期盼在全校范圍內(nèi)推廣,為競賽擴大影響宣傳
一個活動是小活動,但倘若一連串小活動集合成為系列性、規(guī)模性的活動也便成為了大型的活動。所以我們希望能夠借此契機,把此項活動推廣出去。而對于此次與各系部學生會的合作,我們設(shè)想先就比賽的總實施計劃達到一致,然后前期的由各系部分別進行相同的比賽環(huán)節(jié),最后各選拔出一支冠軍隊伍參賽,使此次競賽知識競賽活動凝聚成為規(guī)模效應。這首先直接有利于競賽活動的宣傳,再者,也加強了各系部之間的合作和聯(lián)系,緊密了兄弟系部之友誼。更重要的是能夠在更大程度上吸納最廣大的學生參與到這一項活動中來,最大限度地讓最多的同學在此次活動中真正受益。
(三)全方位的媒體宣傳
為了加強此次活動的宣傳效果,我們希望能夠盡可能地發(fā)揮各種宣傳方法的宣傳效果。首先,在常規(guī)媒體宣傳上,我們力求與校園廣播站、校報取得合作,由其協(xié)助此次活動,并負責攝像、報道此次活動的總決賽,使整個活動的影響不僅僅局限于某一個系部,而是進入普通同學的思維中,使之成為他們茶余飯后的話題。其次,網(wǎng)絡媒體宣傳方面,我們會利用校園網(wǎng)絡對活動進行大力宣傳。再次,我們屆時也會通過傳單、海報、橫幅等常規(guī)宣傳渠道以及在相關(guān)單位舉辦其他活動時也會加強此次活動的宣傳。
七、參賽方式:
以代表隊形式參賽,每隊三人。
1、預賽;由各班自行選拔參賽人員,比賽形式時間地點自定。
2、初賽和復賽:初賽和復賽均采取主持人提問形式。設(shè)有最佳選擇題、判斷題和問答題。
3、決賽:決賽為3人組合賽(進入決賽的12名隊員按班級分為4組,每組3人。),決賽將采用幻燈片的形式將試題呈現(xiàn)給參賽選手,選手現(xiàn)場答題。題庫及評分標準見附錄。
八、參賽對象:重慶醫(yī)藥高等??茖W校醫(yī)學技術(shù)系全體學生(組織者除外)
九、活動前期準備
1.賽事相關(guān)活動準備
1)召開系學生會全體會議,通知相關(guān)事宜。
2)活動策劃籌備工作(負責部門:待定)
A、辦公室確定成立大賽組委會(不再以部門為單位),全權(quán)負責此次大賽的各項活動
B、就賽事各部分進行充分探討,最終確定賽事策劃細節(jié)書
C、組委會內(nèi)部確定分工細節(jié)以及各班級聯(lián)系人(各班學習委員),負責在賽事進行過程中主辦單位與各班級的聯(lián)系工作。
3)活動宣傳工作(負責部門:醫(yī)學技術(shù)系宣傳部、圖書館)
A.海報
B.橫幅
C.宣傳欄
2.各班級協(xié)辦工作
1)召開各班級參賽選手及負責人開會。
2)各班級自行組織負責此次大賽的組委會,對大賽全程負責,名單上報主辦單位組委會。
3.贊助單位聯(lián)系工作(負責部門:醫(yī)學技術(shù)系外聯(lián)部)
1)確定贊助單位
2)完成贊助單位的相關(guān)策劃書,確定需要贊助金額
3)聯(lián)系贊助單位
4.相關(guān)媒體的聯(lián)系工作(負責部門:醫(yī)學技術(shù)系宣傳部)
1)安排各媒體負責人其所負責的范圍及權(quán)限
2)相關(guān)報道具體工作事項的策劃與落實
十、比賽流程:
1、預賽:由各班級組織選拔,形式不限。選出十三支隊伍,每支限三人。
2、初賽:在十三支隊中以抽簽形式選出一支隊直接晉級復賽。其他十二支隊抽簽分為六組進行比賽,選出每組的獲勝者??偣财咧ш牎?/p>
承辦單位提前布置好比賽現(xiàn)場,為每個小組設(shè)一名記分員并提前組織參賽隊員和觀眾進入比賽現(xiàn)場。
第一環(huán)節(jié):個人必答題(選擇題)
每個小組的各隊員以抽簽形式確定首次答題順序后依次回答。
本環(huán)節(jié)的成績?yōu)閭€人成績,每位隊員賽前都有60分基準分,每位隊員必須答完屬于自己的4道題,每題10分,答對在基準分上加10分,答錯不得分也不扣分。每位隊員分別答完第一題后再答第二題,四道題均答完后完成第一個環(huán)節(jié)比賽。
第二環(huán)節(jié):小組搶答題(填空題)
本環(huán)節(jié)和下一環(huán)節(jié)的基準總分為60分。本環(huán)節(jié)各組得到的試題可以回答也可以放棄,答對得相應的分數(shù),答錯則扣除相應的分數(shù),放棄不得分也不扣分。各小組得到試題后在規(guī)定的時間內(nèi)商量好確定答案后由代表說出答案。第三環(huán)節(jié):難度命運題(簡答題,備注)
本環(huán)節(jié)試題難度較前兩環(huán)節(jié)有相應的難度。本環(huán)節(jié)答題方式和分數(shù)規(guī)則與上一環(huán)節(jié)相同。
3、復賽:在通過初賽的七支隊伍中以抽簽形式選出一支隊直接晉級決賽,其他六支隊抽簽分為三組進行比賽,選出每組的獲勝者。總共四支隊。比賽環(huán)節(jié)同上。
4、總決賽:決賽中的兩支勝者進行亞軍決賽,決賽中的兩支負者選出季軍。比賽環(huán)節(jié)同上。
十一、題庫范圍:涉及自習室作為二次利用、圖書館流通庫及各閱覽室規(guī)章制度、信息檢索知識等常識題,若兩隊均學過該專業(yè)添加專業(yè)題。
十二、獎項設(shè)置:
本次競賽設(shè)冠軍、亞軍、季軍,最終獲獎的3人組合將獲得系級獲獎證書(每人一證)。
十三、決賽現(xiàn)場觀眾互動:
決賽的每個環(huán)節(jié)之后均有兩次抽獎活動。以觀眾所在作為坐標為抽取對象。所有參與觀看決賽的同學均有機會成為幸運觀眾,并贏得精美禮品。
十四、可行性分析:
1、此次活動為重慶醫(yī)藥高等??茖W校醫(yī)學技術(shù)系首屆信息檢索知識競賽,這對圖書館來說是首次,在學校也是首次。這種活動非常有意義并且很有必要,可以考慮延續(xù)下去,每年舉辦一次。
2、我們有責任也有義務培養(yǎng)當代大學生的信息檢索素質(zhì)。我們希望通過這個活動先帶動一批人,而這些人來自系部各班級,因此活動的影響面和影響力都足夠大。
3、此次活動旨在進一步提高廣大大學生對信息檢索的重要性的認識。
4、以競賽的形式舉辦此次活動,可以充分調(diào)動同學參加的積極性、積極地投入到比賽的準備工作中,同時也擴大了同學們對信息檢索知識及我校圖書館的了解。
5、以競賽的形式舉辦形式并不復雜,所需資金也不多,但在全校大學生中的影響力卻很大。
十五、活動費用預算
幸運觀眾禮品: 元 打印各種宣傳資料:元 證書及獎品費用:元 合計: 元+待定費用
十六、預計效果:
此次活動將做好全面的宣傳工作,影響力將涉及校區(qū)各個系部班級。此次活動的開展,將使更多的同學了解圖書館各項規(guī)章制度,掌握信息檢索知識。
十七、組委會成員
總顧問:
顧問:
主任:
執(zhí)行主任:
委員:圖書館、各班學習委員、系學生會各部長
附錄一:評分標準
附錄二:題庫
第三篇:信息檢索技術(shù)論文
近年來,計算機技術(shù)、語言學以及人工智能技術(shù)的發(fā)展促進了整個信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!
信息檢索技術(shù)論文
[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領(lǐng)域的發(fā)展進行總結(jié),從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術(shù)五個方面介紹專利文獻計算機檢索技術(shù)的最新發(fā)展。機器翻譯技術(shù)和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術(shù)的發(fā)展有望使面向不同層次用戶的計算機智能化檢索系統(tǒng)得以實現(xiàn)。
[關(guān)鍵詞]專利文獻 計算機檢索 語義檢索 圖像檢索
1、前言
近年來,計算機技術(shù)、語言學以及人工智能技術(shù)的發(fā)展促進了整個信息檢索技術(shù)領(lǐng)域的發(fā)展,專利文獻的計算機檢索技術(shù)正成為情報檢索領(lǐng)域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術(shù)五個方面介紹專利文獻計算機檢索技術(shù)的最新發(fā)展。
2、多語言混合檢索
專利文獻是由各國、各地區(qū)專利局或世界知識產(chǎn)權(quán)局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現(xiàn)多語言混合檢索,機器翻譯是必不可少的技術(shù)。目前一些專利局在其上推出了機器翻譯系統(tǒng),例如我國國家知識產(chǎn)權(quán)局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產(chǎn)權(quán)局提供有韓英機器翻譯等,上述網(wǎng)絡機器翻譯系統(tǒng)對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術(shù)的發(fā)展,機器翻譯的技術(shù)也迅速發(fā)展,從傳統(tǒng)的基于規(guī)則的機器翻譯擴展到了基于實例或模版的機器翻譯、統(tǒng)計機器翻譯等。尤其是近年來語言學和人工智能技術(shù)的發(fā)展,以語義描述或以知識描述為特征的智能機器翻譯系統(tǒng)正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結(jié)構(gòu),同時例如權(quán)利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統(tǒng)內(nèi)集成多個翻譯引擎、對不同特點的內(nèi)容使用不同引擎翻譯的方式來提高翻譯質(zhì)量。
已有的機器翻譯系統(tǒng)基本局限于單篇文獻的機器翻譯,無法實現(xiàn)真正的多語言混合檢索。多語言混合檢索系統(tǒng)不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現(xiàn)方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結(jié)合的混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質(zhì)量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3、分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統(tǒng)一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現(xiàn)有IPC分類體系提出改進建議。依據(jù)2009年召開的第27次三邊會議,韓國知識產(chǎn)權(quán)局已經(jīng)加入上述計劃,而中國國家知識產(chǎn)權(quán)局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產(chǎn)權(quán)局和中國國家知識產(chǎn)權(quán)局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術(shù)領(lǐng)域的分類,進而提高檢索的效率和質(zhì)量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發(fā)展,實現(xiàn)真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4、語義檢索
當前專利文獻檢索的主要手段為關(guān)鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質(zhì)量不一以及關(guān)鍵詞的機械匹配等問題,本質(zhì)上決定了其查全率和查準率受限制。隨著計算技術(shù)、人工智能、自然語言處理等技術(shù)的發(fā)展,搜索引擎的智能化有望從根本上提高現(xiàn)有檢索系統(tǒng)的檢索質(zhì)量。
搜索引擎的智能化具體表現(xiàn)為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結(jié)果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質(zhì)在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關(guān)鍵詞匹配檢索中由于詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術(shù)以及分別用于詞義鑒別和詞匯過濾的語義識別技術(shù)和詞匯鏈算法??梢酝ㄟ^諸如WordNet等語義詞典對詞匯實現(xiàn)較完備的語義描述,保證人和機器對詞匯的理解一致。
最新發(fā)展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結(jié)合,可以揭示文檔中的詞間關(guān)系,因而適于構(gòu)建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的非技術(shù)性信息考慮在內(nèi),例如將特定的技術(shù)概念和申請人、發(fā)明人等信息進行語義聯(lián)系。此外,語義檢索還可以從用戶角度出發(fā),考慮用戶的檢索需求,從而為諸如查新、侵權(quán)等不同目的的檢索提供相應的結(jié)果。
近年來國內(nèi)一些開發(fā)商也紛紛提供具有語義檢索功能的專利文獻檢索系統(tǒng),例如東方靈盾開發(fā)的專利檢索系統(tǒng)和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實現(xiàn)傳統(tǒng)的關(guān)鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結(jié)果進行相關(guān)度排序。當前專利文獻檢索領(lǐng)域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術(shù)提高檢索的效率,還有望能對檢索結(jié)果進行分析、評價,甚至自動生成檢索報告。
5、圖像檢索
根據(jù)對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內(nèi)容的圖像檢索法(cBIR)。專利文獻一般都帶有大量的附圖,包括機械結(jié)構(gòu)或化學結(jié)構(gòu)式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統(tǒng)的關(guān)鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領(lǐng)域的研究熱點。專利文獻的附圖都是黑白二元圖像(本文
所稱專利是指發(fā)明和實用新型專利,不包括外觀設(shè)計專利),不存在顏色和紋理等特征,因此專利文獻的圖像檢索主要是基于形狀和區(qū)域的圖像特征。
雖然目前還沒有成熟的專利文獻圖像檢索系統(tǒng),但一些研究機構(gòu)已經(jīng)開發(fā)出若干可專門用于專利文獻的圖像檢索原型系統(tǒng),例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行圖像檢索,而PatMedia網(wǎng)站上的試驗系統(tǒng)僅針對歐洲專利局的專利文獻,這兩個圖像檢索系統(tǒng)都可實現(xiàn)直接輸入待檢索的圖像,系統(tǒng)自動進行相似度匹配,直接提供專利附圖,同時還可以進行基于文本的圖像檢索。
典型的專利圖像檢索系統(tǒng)包括專利文獻處理部分和圖像檢索部分,如圖1所示:
文獻處理部分又進一步包括文獻預處理和視覺、文本元數(shù)據(jù)提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進一步進行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語義特征的關(guān)鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關(guān)鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數(shù)據(jù),進行圖像相似度匹配,同時還可以基于文本進行圖像檢索。與一般領(lǐng)域的圖形檢索相比,由于專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標注或自動標注,都能提取到較好的高層語義特征,這對提高專利文獻圖形檢索的準確性非常有幫助。
目前,專利文獻圖像檢索系統(tǒng)僅處于試驗階段,只能對數(shù)量非常少的特定專利文獻進行檢索,且檢索結(jié)果相關(guān)度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優(yōu)點,相信隨著人們對專利文獻圖像檢索技術(shù)的進一步研究以及語義檢索技術(shù)的進一步發(fā)展,實現(xiàn)高精度的圖像檢索必將成為現(xiàn)實。
6、輔助技術(shù)
高質(zhì)量的專利文獻是提高檢索質(zhì)量的基礎(chǔ)。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內(nèi)容。傳統(tǒng)的專利文獻加工方法主要依賴于人工,其成本高且速度受限制,質(zhì)量不統(tǒng)一。隨著人工智能和計算機技術(shù)的發(fā)展,開始出現(xiàn)對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。
專利文獻自動分類已經(jīng)在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經(jīng)利用自然語言處理的相關(guān)技術(shù)實現(xiàn)了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對于使用K臨近算法進行自動分類的情況下,先將專利文獻按部分結(jié)構(gòu)化為語義單元可以提高74%的效率。
PATExpert代表了目前較先進的專利文獻自動處理技術(shù)的發(fā)展,通過基于語義網(wǎng)的語義處理技術(shù)實現(xiàn)了面向內(nèi)容的專利文獻自動處理,其中的一個主要技術(shù)是利用一定的語義表示結(jié)構(gòu)實現(xiàn)專利文獻知識層面的表達。該系統(tǒng)可以執(zhí)行的處理任務包括:專利文獻內(nèi)容和元數(shù)據(jù)的自動抽取;全文、圖像、相關(guān)性搜索引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。
國內(nèi)有一些研究機構(gòu)開展了大量的基于IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統(tǒng)計分類技術(shù)。近年來隨著人工智能技術(shù)的興起,基于人工智能或語義的專利文獻自動分類發(fā)展迅速,例如上文提到的Patentics試驗系統(tǒng)也開始嘗試對專利文獻進行自動分類。
中文專利文獻的自動處理仍處于研究階段,雖然國外專利文獻自動處理已經(jīng)積累了許多寶貴經(jīng)驗,但由于中文表述的特殊性,許多技術(shù)還待消化和開發(fā),例如漢語詞匯之間的分詞技術(shù)是制約自動標引質(zhì)量的一個障礙。隨著信息處理自動化相關(guān)技術(shù)的發(fā)展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜索引擎的發(fā)展帶來了極大的便利。同時,利用語義技術(shù)實現(xiàn)基于內(nèi)容的自動處理將是未來的發(fā)展主流,也是提高專利文獻自動處理質(zhì)量的主要手段。
7、結(jié)語
專利文獻計算機檢索是一個涉及了多學科的研究領(lǐng)域,其中以語義檢索為核心的技術(shù)推動了搜索引擎、機器翻譯、圖像檢索等相關(guān)技術(shù)的發(fā)展,而由于專利文獻的特殊性,分類體系和文獻自動處理技術(shù)也在其中占據(jù)了重要地位。隨著研究的進一步深入,現(xiàn)存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動檢索系統(tǒng)便利地實現(xiàn)專業(yè)化檢索。
第四篇:圖書館信息檢索大賽策劃書(模版)
活動主題:圖書館信息檢索大賽
一、主辦單位:太原工業(yè)學院圖書館學生管理委員
二、指導單位:太原工業(yè)學院圖書館
三、協(xié)助媒體:太原工業(yè)學院校園廣播站、校報
四、活動目的及原則:促進同學們對圖書館的了解,增強主人翁意識。使自習室得到合理、高效利用。認識圖書館數(shù)字資源的重要性。學會數(shù)字資源檢索知識,提高檢索能力,以便充分利用圖書館資源。本次活動本著公平、公證、公開、自愿原則。
五、活動時間地點 賽 式 組 別 時 間 地 點 預 賽 十三個系部 由各系部自定 由各系部自定 初 賽 第一組 11月14日上午09:00 第二組 第三組 第四組 第五組 第六組 復 賽 第一組 11月14日下午14:00 第二組 第三組 決 賽 第一組 11月21日上午09:00 第二組 第三組 11月21日下午14:00 第四組
六、活動構(gòu)思:
(一)比賽形式重于新穎,力求提高參與度。
我們此次活動在保證比賽順利進行的前提下,力求在比賽的各個環(huán)節(jié)有所創(chuàng)新。因此,在策劃上,無論是各系部的選拔賽,還是第二階段預賽比賽流程,或是總決賽的設(shè)想,我們都應避免落入俗套。畢竟,再精彩的比賽模式,觀看得多了也就無所謂興趣使然。而只有不斷地推陳出新,才能夠真正地把握住觀眾的興趣導向,使其參與到活動中,融入到活動的氣氛中來。因此,我們設(shè)想在初賽采取“幸運52”答題的模式,預賽中采取“開心辭典”的模式,決賽采取“幸運52”和“聯(lián)合對抗”結(jié)合的答題的模式,這都是在現(xiàn)在的中國風靡一時且仍廣受關(guān)注的活動形式,且在各大高校起碼在太原工業(yè)學院中尚沒有較為完全或成功的借鑒。因此,我們采取這樣的比賽形式,把日常在電視中才能看到的真正拉近到同學們的身邊,讓同學們親身參與其中,體驗其前所未有卻又夢寐以求的感受。
而對于總決賽,由于是全校各系部冠軍之間的最終總決賽,除如上的某些環(huán)節(jié)之外,我們策劃能夠加入更多關(guān)于高校發(fā)展的內(nèi)容。畢竟,在這樣的比賽中,需要的是更能夠突顯選手個性的環(huán)節(jié)。而且由于最終的勝負是由在我院專家人士評定,不是機械的評判,結(jié)果不再一目了然,更增加了比賽的緊張性。另外,在選題方面,我們采取專家出題和征集學生所出題目相結(jié)合,力求擴大影響范圍。
(二)期盼在全校范圍內(nèi)推廣,為競賽擴大影響宣傳
一個活動是小活動,但倘若一連串小活動集合成為系列性、規(guī)模性的活動也便成為了大型的活動。所以我們希望能夠借此契機,把此項活動推廣出去。而對于此次與各系部學生會的合作,我們設(shè)想先就比賽的總實施計劃達到一致,然后前期的由各系部分別進行相同的比賽環(huán)節(jié),最后各選拔出一支冠軍隊伍參賽,使此次競賽知識競賽活動凝聚成為規(guī)模效應。這首先直接有利于競賽活動的宣傳,再者,也加強了各系部之間的合作和聯(lián)系,緊密了兄弟系部之友誼。更重要的是能夠在更大程度上吸納最廣大的學生參與到這一項活動中來,最大限度地讓最多的同學在此次活動中真正受益。
(三)全方位的媒體宣傳
為了加強此次活動的宣傳效果,我們希望能夠盡可能地發(fā)揮各種宣傳方法的宣傳效果。首先,在常規(guī)媒體宣傳上,我們力求與校園廣播站、校報取得合作,由其協(xié)助此次活動,并負責攝像、報道此次活動的總決賽,使整個活動的影響不僅僅局限于某一個系部,而是進入普通同學的思維中,使之成為他們茶余飯后的話題。其次,網(wǎng)絡媒體宣傳方面,我們會利用校園網(wǎng)絡對活動進行大力宣傳。再次,我們屆時也會通過傳單、海報、橫幅等常規(guī)宣傳渠道以及在相關(guān)單位舉辦其他活動時也會加強此次活動的宣傳。
七、參賽方式:
各系部在冠軍隊伍中產(chǎn)生總冠軍,以代表隊形式參賽,每隊三人。
1、預賽;由各系部自行選拔參賽人員,比賽形式時間地點自定。
2、初賽和預賽:初賽和復賽均采取主持人提問形式。設(shè)有最佳選擇題、判斷題和問答題。
3、決賽:決賽為3人組合賽(進入決賽的12名隊員按系部分為4組,每組3人。),決賽將采用幻燈片的形式將試題呈現(xiàn)給參賽選手,選手現(xiàn)場答題。題庫及評分標準見附錄。
八、參賽對象:太原工業(yè)學院所有全日制本專科學生
九、活動前期準備
1.賽事相關(guān)活動準備
1)召開校學生會全體會議,通知相關(guān)事宜。
2)活動策劃籌備工作(負責部門:圖書館學生管理委員會)
a、辦公室確定成立大賽組委會,全權(quán)負責此次大賽的各項活動
b、就賽事各部分進行充分探討,最終確定賽事策劃細節(jié)書
c、組委會內(nèi)部確定分工細節(jié)以及各系部聯(lián)系人(系部學生會主
席),負責在賽事進行過程中主辦單位與各系部的聯(lián)系工作。
3)活動宣傳工作(負責部門:校學生(分)會、圖書館學生管理委員會)
a.海報
b.橫幅
c.網(wǎng)絡相關(guān)報道:校園網(wǎng)、d相關(guān)報紙的宣傳:校報、系部報紙
e.校園廣播站全程播報(包括總決賽所有內(nèi)容)---最主要的途徑。
2.各系部協(xié)辦工作
1)召開各系部參賽選手及負責人開會。
2)各系部自行組織負責此次大賽的組委會,對大賽全程負責,名單上報主辦單位組委會。
3.贊助單位聯(lián)系工作(負責部門:圖書館學生管理委員會外聯(lián)部)
1)確定贊助單位
2)完成贊助單位的相關(guān)策劃書,確定需要贊助金額
3)聯(lián)系贊助單位
4.相關(guān)媒體的聯(lián)系工作(負責部門:圖書館學生管理委員會宣傳推廣部)
1)安排各媒體負責人其所負責的范圍及權(quán)限
2)相關(guān)報道具體工作事項的策劃與落實
十、比賽流程:
1、預賽:由各系部組織選拔,形式不限。選出十三支隊伍,每支限三人。
2、初賽:在十三支隊中以抽簽形式選出一支隊直接晉級復賽。其他十二支隊抽簽分為六組進行比賽,選出每組的獲勝者??偣财咧ш牎?/p>
承辦單位提前布置好決賽現(xiàn)場,為每個小組設(shè)一名記分員并提前組織參賽隊員和觀眾進入比賽現(xiàn)場。
第一環(huán)節(jié):個人必答題(選擇題)
每個小組的各隊員以抽簽形式確定首次答題順序后依次回答。
本環(huán)節(jié)的成績?yōu)閭€人成績,每位隊員賽前都有60分基準分,每位隊員必須答完屬于自己的4道題,每題10分,答對在基準分上加10分,答錯不得分也不扣分。每位隊員分別答完第一題后再答第二題,四道題均答完后完成第一個環(huán)節(jié)比賽。
第二環(huán)節(jié):小組搶答題(填空題)
本環(huán)節(jié)和下一環(huán)節(jié)的基準總分為60分。本環(huán)節(jié)各組得到的試題可以回答也可以放棄,答對得相應的分數(shù),答錯則扣除相應的分數(shù),放棄不得分也不扣分。各小組得到試題后在規(guī)定的時間內(nèi)商量好確定答案后由代表說出答案。
第三環(huán)節(jié):難度命運題(簡答題,備注)
本環(huán)節(jié)試題難度較前兩環(huán)節(jié)有相應的難度。本環(huán)節(jié)答題方式和分數(shù)規(guī)則與上一環(huán)節(jié)相同。
3、決賽:在通過初賽的七支隊伍中以抽簽形式選出一支隊直接晉級決賽,其他六支隊抽簽分為三組進行比賽,選出每組的獲勝者??偣菜闹ш牎1荣惌h(huán)節(jié)同上。
4、總決賽:決賽中的兩支勝者進行亞軍決賽,決賽中的兩支負者選出季軍。比賽環(huán)節(jié)同上。
十一、題庫范圍:涉及自習室作為二次利用、圖書館流通庫及各閱覽室規(guī)章制度、信息檢索知識等常識題與專業(yè)題。
十二、獎項設(shè)置:
本次競賽設(shè)冠軍、亞軍、季軍,最終獲獎的3人組合將獲得校級獲獎證書(每人一證)。
十三、決賽現(xiàn)場觀眾互動:
決賽的每個環(huán)節(jié)之后均有兩次抽獎活動。以觀眾所在作為坐標為抽取對象。所有參與觀看決賽的同學均有機會成為幸運觀眾,并贏得精美禮品。
十四、可行性分析:
1、此次活動為太原工業(yè)學院圖書館首屆信息檢索知識競賽,這對圖書館學生管理委員會來說是首次,在學院也是首次。這種活動非常有意義并且很有必要,可以考慮延續(xù)下去,每年舉辦一次。
2、大學生團體是當今社會的領(lǐng)軍人物,這個團體素質(zhì)的好壞在一定程度上會影響整個社會的風氣,因此我們有責任也有義務培養(yǎng)當代大學生的信息檢索素質(zhì)。我們希望通過這個活動先帶動一批人,而這些人來自學院各系部班級,因此活動的影響面和影響力都足夠大。
3、此次活動旨在進一步提高廣大大學生對信息檢索的重要性的認識。
4、以競賽的形式舉辦此次活動,可以充分調(diào)動同學參加的積極性、積極地投入到比賽的準備工作中,同時也擴大了同學們對信息檢索知識及我院圖書館的了解。
5、以競賽的形式舉辦形式并不復雜,所需資金也不多,但在全校大學生中的影響力卻很大。
十五、活動費用預算
幸運觀眾禮品: 元
打印各種宣傳資料:元
證書及獎品費用:元
合計: 元+待定費用
十六、預計效果:
此次活動將做好全面的宣傳工作,影響力將涉及校區(qū)各個系部班級。此次活動的開展,將使更多的同學了解圖書館各項規(guī)章制度,掌握信息檢索知識。
十七、組委會成員
總顧問:
顧問:
主任: 執(zhí)行主任:
委員:圖書館學生管理委員會、各系部主席、校學生會各部長
附錄一:評分標準
附錄二:題庫
第五篇:WEB全文信息檢索技術(shù)
WEB全文信息檢索技術(shù)
摘要:本文探索了在INTERNET網(wǎng)上實現(xiàn)全文檢索的技術(shù)。計論了從網(wǎng)上信息的標引、分類等預處理到組織信息檢索的過程,并就智能檢索技術(shù)的發(fā)展進行了闡述。關(guān)鍵詞:信息檢索 因特網(wǎng) 全文檢索
一、前言
Internet網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡,它將政府、學校、圖書館、商務場所、研究機構(gòu)和其它組織中的局域網(wǎng)(LAN)集成為一個單一的、龐大的、跨越全球的通訊網(wǎng)絡。越來越多的人們利用這一網(wǎng)絡與世界各地的人進行交流。如何利用Internet網(wǎng)獲取有價值的信息,已成為科研人員必備的一項基本技能。
因特網(wǎng)是一個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;并且由于因特網(wǎng)信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網(wǎng)用戶的數(shù)量更是成倍地增長??梢姡蛱鼐W(wǎng)檢索已成為實際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。
二、概述
網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專業(yè)性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報科學研究者所關(guān)注的熱點。全文信息檢索就是概據(jù)Internet信息的特點而發(fā)展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出相關(guān)信息資料。
全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達、信息查詢的獲得以及相關(guān)信息的匹配。一個好的全文信息檢索系統(tǒng)不僅要求將輸出信息進行相關(guān)性排列,還應該能夠根據(jù)用戶的意圖、興趣和特點自適應和智能化地調(diào)整匹配機制,獲得用戶滿意的檢索輸出。
要實現(xiàn)全文檢索,首先必須對WEB信息進行預處理。
三、WEB信息的預處理
信息預處理的主要功能是過濾文件系統(tǒng)信息,為文件系統(tǒng)的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語詞切分:語詞是信息表達的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想-回溯法、全自動詞典切詞等。近年來,又出現(xiàn)了基于神經(jīng)元網(wǎng)絡的和專家系統(tǒng)的分詞方法和基于統(tǒng)計和頻度分析的分詞方法。
(3)詞法分析:漢語語詞切分中存在切分歧異,如句子“網(wǎng)球拍賣完了”,可以切分為“網(wǎng)球/拍賣完了”,也可以切分為“網(wǎng)球拍/賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據(jù)詞干建立信息索引。對于英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。
(4)詞性標注和短語識別:在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計的方法進行詞性標注。在此基礎(chǔ)上,還要利用各種語法規(guī)則,識別出重要的短語結(jié)構(gòu)。
(5)自動標引:從網(wǎng)頁文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關(guān)鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文 1 檔.
(6)自動分類:建立并維護一套完整的分類目錄體系,根據(jù)文文件的信息特征,計算出與其相關(guān)程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.
.
四、檢索
檢索包括文件信息表達和查詢信息表達以及相關(guān)信息預測過程。
(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統(tǒng)服務者提出并由整個應用系統(tǒng)的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統(tǒng)的性能。
(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數(shù)據(jù)的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關(guān)文件。
(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領(lǐng)域知識和索引、相關(guān)性、估計、查詢表達相結(jié)合實現(xiàn)查詢擴展,即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關(guān)詞,從而擴展了原始查詢。
(4)查詢詞的選擇策略:
·非獨立詞:非獨立詞指的是和查詢詞具有較大相關(guān)性的詞。但是預先必須計算文件集合中的所有詞之間的相關(guān)性。
·反饋詞:根據(jù)用戶反饋的文件信息,按照在相關(guān)文件和非相關(guān)文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢詞。
反饋網(wǎng)絡屬于人機交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據(jù)實際情況提供不同的反饋信息,不同的信息檢索服務系統(tǒng)按照其功能與檢索方法也有不同的反饋結(jié)構(gòu)和交互方式,因此查詢結(jié)果也不盡相同。
(5)信息檢索模型:信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎(chǔ)。標準布爾邏輯模型為二元邏輯,即一系列對應于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時也包括一些更為復雜的特征,如數(shù)據(jù)、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達集合。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關(guān)系遞交查詢。匹配函數(shù)由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關(guān),或者與查詢無關(guān)。查詢結(jié)果一般不進行相關(guān)性排序。
模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為[0,1]的模糊邏輯為基礎(chǔ)的,以隸屬函數(shù)概念來描述現(xiàn)象差異的中間過渡。在查詢結(jié)果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關(guān)性的優(yōu)先次序排出查詢結(jié)果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結(jié)果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內(nèi)部結(jié)構(gòu)聯(lián)系,通過歐幾里德距離和余弦法則作相似性比較,根據(jù)矢量空間的相似性,排列查詢結(jié)果。矢量空間模型不僅可以方便地產(chǎn)生有效的查詢結(jié)果,而且能夠提供查詢結(jié)果分類,為用戶提供準確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對于結(jié)果來說,定查詢結(jié)果的正確與否。對于布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基于概率排隊理論:當文件按相關(guān)概率遞減原則排列時可以獲得最大的檢索性能。
五、全文信息檢索技術(shù)的發(fā)展
目前的全文檢索技術(shù)還存在著一些未盡人意的結(jié)果,主要是通常的信息檢索系統(tǒng)性能較低,原因是將孤立詞和詞匯術(shù)語作為查詢描述子,因而文件內(nèi)容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結(jié)合的產(chǎn)物。它能使信息檢索系統(tǒng)“理解”用戶的信息需要和文件包含的信息內(nèi)容。它在對內(nèi)容的分析理解、內(nèi)容表達、知識學習、推理機制,決策等基礎(chǔ)上實現(xiàn)檢索的智能化。
目前人工智能和信息檢索的結(jié)合主要包括三方面:(1)信息檢索和專家系統(tǒng):主要研究方向是開發(fā)一個專家中介系統(tǒng)來協(xié)助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統(tǒng)。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和詞組等。(3)信息檢索和知識表達:此領(lǐng)域的研究主要是通過應用領(lǐng)域知識來理解文件和查詢的信息內(nèi)容。
目前,雖然某些在WWW上的信息檢索服務系統(tǒng)采取了智能用戶代理的等方式,可以根據(jù)用戶事先定義的信息檢索要求,在網(wǎng)絡上實時監(jiān)視信息源,如指定Web頁面的更新、網(wǎng)絡新聞、電子郵件等,并將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統(tǒng)仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術(shù)的發(fā)展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統(tǒng)的精度和相關(guān)性。隨著智能化技術(shù)的發(fā)展,全文信息檢索技術(shù)必將更廣泛地應用于網(wǎng)上信息檢索領(lǐng)域。附:參考文獻
1)、004km.cnposed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.