第一篇:LIB2.0中關(guān)于高校圖書館信息檢索系統(tǒng)的探索
一、高校圖書館信息檢索系統(tǒng)的現(xiàn)狀
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,圖書館信息檢索系統(tǒng)已經(jīng)完成從手工方式向計(jì)算機(jī)方式的轉(zhuǎn)變。讀者在信息檢索系統(tǒng)中輸入關(guān)鍵詞,信息檢索系統(tǒng)從館藏資源中檢索出滿足讀者需求的館藏資源,并標(biāo)注出館藏資源所在的位置以及該資源的館藏?cái)?shù)量和可借數(shù)量。同時(shí)讀者還可以對(duì)暫時(shí)沒有可借的館藏資源進(jìn)行預(yù)約,這些服務(wù)方式極大的方便了讀者,減少了讀者尋找館藏資源的時(shí)間,一定程度上提高了館藏資源的利用率。
檢索系統(tǒng)缺乏與讀者的交互。檢索系統(tǒng)無法獲知讀者的興趣以及讀者對(duì)這些館藏資源的反饋,無法針對(duì)讀者提供個(gè)性化的服務(wù)。讀者只能單方向接受檢索系統(tǒng)結(jié)果,沒有辦法參與檢索系統(tǒng)的建設(shè)。檢索系統(tǒng)缺乏指導(dǎo)性。對(duì)于高校這個(gè)特殊群體來說,學(xué)生的層次是有區(qū)別的,剛進(jìn)入學(xué)校的學(xué)生沒有足夠的知識(shí)來選擇合適的館藏資源來促進(jìn)他們的學(xué)業(yè),這就需要在檢索系統(tǒng)中加入更多的指導(dǎo)因素,指導(dǎo)學(xué)生選擇更合適的館藏資源。檢索的結(jié)果缺乏動(dòng)態(tài)性。檢索系統(tǒng)主要通過標(biāo)題、關(guān)鍵字、作者等信息進(jìn)行檢索。而這些信息在檢索系統(tǒng)中是不會(huì)變化的,這也就導(dǎo)致了檢索結(jié)果的靜態(tài)性。靜態(tài)的檢索結(jié)果反映不出館藏資源的優(yōu)劣、讀者的喜好等信息。
這些缺點(diǎn)影響著檢索系統(tǒng)的使用效果及館藏資源的利用率,同時(shí)檢索系統(tǒng)也不能為讀者提供個(gè)性化的服務(wù)。如何解決這些缺點(diǎn)成為當(dāng)前以及未來信息檢索系統(tǒng)的迫切要求。
二、lib2.0中高校圖書館信息檢索系統(tǒng)
(一)推薦書目互動(dòng)平臺(tái)
推薦書目,又名導(dǎo)讀書目、選讀書目,它是為了某一個(gè)特定目的將某類或特定主題的書目推薦給特定的人群。推薦書目在我國(guó)自古有之,現(xiàn)存最早的推薦書目是敦煌發(fā)現(xiàn)的《雜抄》(伯2171號(hào)卷子),為當(dāng)時(shí)讀書人列出一份包括《史記》、《三國(guó)志》、《春秋》等25種文獻(xiàn)在內(nèi)的書目清單。推薦書目平臺(tái)在充分考慮高校圖書館的特殊性前提下,構(gòu)建了可設(shè)置的多個(gè)主題與學(xué)科專欄的平臺(tái),形成以下幾個(gè)類型的推薦:
第一,按學(xué)科專業(yè)推薦。高校的學(xué)生均從屬于特定的專業(yè),如,計(jì)算機(jī)專業(yè),金融專業(yè),外語等。如何學(xué)好這個(gè)專業(yè)是學(xué)生在高校階段首要關(guān)心的話題。推薦書目廣泛邀請(qǐng)?jiān)搶I(yè)的教師或高年級(jí)的學(xué)生參與構(gòu)建學(xué)科專業(yè)推薦書目,以他們的知識(shí)和經(jīng)驗(yàn)來指導(dǎo)、幫助其他讀者順利的完成學(xué)業(yè)。
第二,按學(xué)業(yè)課程推薦。高校的學(xué)生每學(xué)期均要完成一定的課程,如何學(xué)好這些課程也是學(xué)生關(guān)心比較多的一個(gè)話題。在學(xué)業(yè)課程推薦中邀請(qǐng)已完成該課程的同學(xué)進(jìn)行推薦,介紹他們當(dāng)年學(xué)習(xí)時(shí)閱讀的書籍,同時(shí)邀請(qǐng)課程教師對(duì)推薦書目進(jìn)行修正和補(bǔ)充,以確保推薦書目的質(zhì)量。
第三,按主題推薦。同一專業(yè)的學(xué)生畢業(yè)后可能從事不同技術(shù)方向的工作,如計(jì)算機(jī)專業(yè)的學(xué)生,畢業(yè)后可以從事c語言、c++語言、c#語言、java語言等方向的工作,不同方向所要閱讀的書籍也大相徑庭。通過教師和學(xué)生廣泛參與這些主題的書籍推薦,形成了一系列不同主題的推薦書目。學(xué)有余力的同學(xué)按照自己的興趣選擇不同的方向來閱讀書籍、擴(kuò)展自己的知識(shí)面,提高自己的能力,為將來走向社會(huì)打下良好的基礎(chǔ)。
推薦書目平臺(tái)與信息檢索系統(tǒng)是一個(gè)有機(jī)的整體。讀者在輸入檢索條件檢索信息時(shí),系統(tǒng)自動(dòng)檢索這些關(guān)鍵詞的推薦書目信息,以供讀者參考。讀者在閱讀了相關(guān)的推薦書籍后,可以添加該書籍的閱讀心得,以方便后來的閱讀者。這種基于檢索系統(tǒng)的推薦書目平臺(tái),改變傳統(tǒng)信息環(huán)境下“推薦者一推薦書目一讀者”的單向推薦書目模式,形成循環(huán)的推薦書目系統(tǒng)環(huán)節(jié)鏈。讀者、檢索系統(tǒng)與推薦書目平臺(tái)三者的流程關(guān)系。
檢索系統(tǒng)引入推薦書目,方便了教師與學(xué)生的參與,加強(qiáng)了受眾的互動(dòng)與交流,實(shí)現(xiàn)了閱讀的分享與互動(dòng)。眾多用戶通過檢索系統(tǒng)的廣泛參與推薦書目平臺(tái),確保了推薦書目的質(zhì)量。同時(shí)擁有推薦書目平臺(tái)的檢索系統(tǒng)也實(shí)現(xiàn)了檢索的平面化向網(wǎng)狀化轉(zhuǎn)變。
專題信息庫針對(duì)同一學(xué)科可設(shè)置多個(gè)知識(shí)點(diǎn),這些知識(shí)點(diǎn)構(gòu)建成知識(shí)網(wǎng)絡(luò)系統(tǒng),形成在學(xué)科內(nèi)共享領(lǐng)域知識(shí)。所有讀者均可參與專題信息庫的建設(shè),設(shè)立知識(shí)點(diǎn),解釋知識(shí)點(diǎn),通過共享寫作的方式,共同維護(hù)專題信息庫的質(zhì)量與權(quán)威。
通過在檢索系統(tǒng)中嵌入專題信息庫,既能促進(jìn)已有資源的使用,又能為圖書館增加新的資源。它的應(yīng)用提供了一種嶄新的圖書館信息檢索系統(tǒng)個(gè)性化信息服務(wù)的模式。
(三)tag標(biāo)簽云
tag是一種用戶決定、更為自由靈活的分類方式,這個(gè)標(biāo)簽名可以來自關(guān)鍵詞,也可以來自分類。通過tag,不同用戶可以進(jìn)行交叉查詢,即用戶可通過關(guān)鍵詞找到其他用戶的收藏 列表,也可以通過大家收藏的url找到其他用戶。這樣,用戶在提供信息的同時(shí),也從他人的信息中受益。
傳統(tǒng)的高校信息檢索系統(tǒng)主要通過對(duì)文件的標(biāo)題與關(guān)鍵字的搜索達(dá)到檢索目的,這種搜索方式簡(jiǎn)單、準(zhǔn)確,但不夠智能。在檢索系統(tǒng)中嵌入tag,提高了檢索系統(tǒng)的智能化。用戶參與使用tag主要有三種方式: 讀者對(duì)自己搜索過的圖書進(jìn)行標(biāo)簽。這種標(biāo)簽對(duì)館藏進(jìn)行重新的聚類,可以極大的方便他人或自己再次使用館藏資源。讀者在檢索系統(tǒng)中輸入關(guān)鍵字進(jìn)行檢索,檢索系統(tǒng)在提供傳統(tǒng)檢索結(jié)果的基礎(chǔ)上,智能的檢索該關(guān)鍵字對(duì)應(yīng)的tag,這樣,讀者就可以通過他人的tag更方便地找到自己需要的圖書。在瀏覽某tag對(duì)應(yīng)圖書時(shí),檢索系統(tǒng)智能化的列出該圖書所對(duì)應(yīng)的其他tag,讀者可以通過這些tag進(jìn)行網(wǎng)狀的瀏覽,確定自己的目標(biāo)資源。
tag代表了一種新的組織和管理信息的方式,它不同于傳統(tǒng)的、針對(duì)文件本身的關(guān)鍵字搜索,而是一種模糊化、智能化的分類。在檢索系統(tǒng)中嵌入tag功能,更加符合高校圖書館中“體驗(yàn)者”提高檢索結(jié)果的相似程度,極大提高了高校圖書館提供個(gè)性化信息服務(wù)的能力。
(四)優(yōu)化檢索
傳統(tǒng)檢索系統(tǒng)主要通過書籍標(biāo)題、主題、作者等關(guān)鍵字進(jìn)行搜索。檢索的結(jié)果是靜態(tài)的,忽略了讀者對(duì)檢索系統(tǒng)的參與,無法列出最優(yōu)化的搜索結(jié)果。
lib2.0下的檢索系統(tǒng)嵌入了推薦書目平臺(tái)、專題信息庫與tag標(biāo)簽云,這為檢索的優(yōu)化提供了基礎(chǔ)。檢索的優(yōu)化主要依靠以下四個(gè)動(dòng)態(tài)因素:第一、書籍是否被推薦,以及被推薦的情況;第二、書籍是否被專題信息庫引用;第三、書籍的tag是否包含搜索的關(guān)鍵詞;第四、書籍的借閱量。在用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),系統(tǒng)通過賦予這四個(gè)因素不同的搜索權(quán)重值,自動(dòng)計(jì)算滿足關(guān)鍵詞的書籍權(quán)重,并按照權(quán)重順序進(jìn)行排序。在檢索系統(tǒng)中引入動(dòng)態(tài)檢索因素后,檢索系統(tǒng)能很好的體現(xiàn)了讀者的參與情況,并能為讀者提供個(gè)性化或有針對(duì)性的服務(wù)。
第二篇:目前信息檢索系統(tǒng)的優(yōu)缺點(diǎn)
目前信息檢索系統(tǒng)的優(yōu)缺點(diǎn)
摘要
目前,Internet上信息檢索的方式主要分為二種:即非WEB信息檢索方式和WEB信息檢索方式。這兩種檢索方式為人們及時(shí)準(zhǔn)確地檢索網(wǎng)絡(luò)信息提供了極大的方便和可能,尤其WEB信息檢索工具中的搜索引擎,它已成為人們查詢網(wǎng)上信息最重要的檢索工具,幾乎成了網(wǎng)絡(luò)信息檢索工具的代稱,因而本文在論述網(wǎng)絡(luò)信息檢索工具時(shí)以搜索引擎為主要代表。然而目前網(wǎng)絡(luò)信息檢索又面臨一系列的挑戰(zhàn),如網(wǎng)絡(luò)信息量的迅猛增加,以至人工己經(jīng)無法對(duì)它們進(jìn)行有效的分類、索引和利用;簡(jiǎn)單的關(guān)鍵詞搜索;返回的信息量過大已經(jīng)讓用戶無法承擔(dān);網(wǎng)絡(luò)信息組織的無序性;網(wǎng)絡(luò)信息日新月異的更變;信息媒體的多樣化等等,這些都給Internet信息的獲取和利用造成了極大的阻礙[1]。
引言
信息檢索系統(tǒng)的研究是伴隨著科學(xué)技術(shù)的發(fā)展和信息數(shù)量的俱增而興起的,是指信息用戶為處理解決各種問題而查找、識(shí)別、獲取相關(guān)的事實(shí)、數(shù)據(jù)、文獻(xiàn)的活動(dòng)及過程,其主要研究范圍包括:信息檢索理論、信息檢索語義、信息檢索系統(tǒng)的構(gòu)建和評(píng)價(jià)、信息檢索技術(shù)和方法等。
信息檢索的研究已經(jīng)有多年的歷史,20世紀(jì)中葉以前,信息的存儲(chǔ)和傳播主要以紙質(zhì)介質(zhì)為載體,信息檢索的研究主要圍繞文獻(xiàn)的獲取和控制展開,主要關(guān)注如何檢索和利用文獻(xiàn)中記載的信息。直到50年代,計(jì)算機(jī)被圖書館等部門廣泛用來存儲(chǔ)和管理文檔,信息檢索技術(shù)作為新的熱點(diǎn)被廣泛地研究。到了80年代,信息檢索領(lǐng)域在索引模型,文檔內(nèi)容表示以及匹配策略等方面取得了許多突破性的研究成果,并且成功地開發(fā)了一些系統(tǒng)。例如Cornell大學(xué)的SMART系統(tǒng)和Massachusetts大學(xué)的INQUERY系統(tǒng)等。Web的出現(xiàn)為信息檢索提供了一個(gè)前所未有的實(shí)驗(yàn)環(huán)境和應(yīng)用情景,許多Web信息檢索系統(tǒng)應(yīng)運(yùn)而生,例如Yahoo!,Alta-vista等[2]。
目前信息檢索系統(tǒng)的優(yōu)缺點(diǎn)
1.評(píng)價(jià)標(biāo)準(zhǔn)
目前,得到普遍認(rèn)同的檢索效果的評(píng)價(jià)標(biāo)準(zhǔn)主要有以下幾個(gè):查全率、查準(zhǔn)率、收錄范圍、輸出格式,其中以查全率和查準(zhǔn)率最為重要[1]。綜合國(guó)內(nèi)外關(guān)于搜索引擎評(píng)價(jià)及其方法的研究,筆者將搜索引擎評(píng)價(jià)的研究方法分為以下幾種。
(1)實(shí)驗(yàn)方法
(2)調(diào)查方法
(3)數(shù)據(jù)分析法
(4)觀察法
(5)綜述和評(píng)論
綜合評(píng)價(jià)指標(biāo)是指對(duì)搜索引擎各個(gè)方面進(jìn)行考量時(shí)依據(jù)的參考標(biāo)準(zhǔn),如
Carpineto等就提出了3個(gè)一級(jí)指標(biāo),分別為:檢索界面、檢索性能和檢索輸入。其中,檢索界面包括搜索引擎存在、主頁檢索框、結(jié)果頁面檢索框以及高級(jí)檢索界面等4個(gè)二級(jí)指標(biāo);檢索性能有7個(gè)二級(jí)指標(biāo):大小寫敏感度、詞干檢索、禁用詞、部分匹配、短語檢索、布爾邏輯檢索、全站檢索等;檢索輸出包括基于相關(guān)度的排序、標(biāo)記檢索式、結(jié)果建議、無死鏈4個(gè)二級(jí)指標(biāo)[3]。
2.按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
2.1目錄式搜索引擎:
以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。
這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.2機(jī)器人搜索引擎:
由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,然后索引器為搜集到的信息建立索引,再由檢索器根據(jù)用戶的查詢輸入檢索索引庫并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是搜索的信息空間大,更新及時(shí),毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。
這類搜索引擎的代表是:AltaVista,Northern Light,Excite,Infoseek,Inktomi,F(xiàn)AST/FastSearch,Lycos,Google,“天網(wǎng)”,悠游,OpenFind等。
2.3搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果更多、更全,缺點(diǎn)是不能充分利用所使用搜索引擎的功能,用戶需要做更多的篩選。
這類搜索引擎的代表是WebCrawler,InfoMarket等[4]。
3.新一代的智能Web信息檢索系統(tǒng):
3.1移動(dòng)agent技術(shù)
一般來說,所有用移動(dòng)agent實(shí)現(xiàn)的系統(tǒng)都可以用傳統(tǒng)的分布式技術(shù)賴實(shí)現(xiàn)。那么為什么要選擇移動(dòng)agent呢?這是因?yàn)橐苿?dòng)agnet為解決分布式問題提供了一個(gè)統(tǒng)一的模式。它為分布計(jì)算帶來了更多的靈活性、高效性、可靠性和可伸縮性。移動(dòng)agent已成為繼CORBA、DCOM后新一代分布處理技術(shù)。移動(dòng)agent具有以下5個(gè)優(yōu)點(diǎn):
(1)節(jié)約網(wǎng)絡(luò)帶寬和減少網(wǎng)絡(luò)延時(shí);
(2)移動(dòng)agent能夠使傳統(tǒng)的C/S計(jì)算模式下的計(jì)算任務(wù)更加動(dòng)態(tài)均勻地分配;
(3)在分布式環(huán)境下,移動(dòng)agent系統(tǒng)能實(shí)現(xiàn)較好的并行性即并行任務(wù)求解;
(4)基于移動(dòng)agent的分布式系統(tǒng)具有較好的可理解性;
(5)異步移動(dòng)計(jì)算能力。
3.2本體技術(shù)
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞語和詞語間相互關(guān)系的明確定義。
本體的研究與應(yīng)用主要包括3方面:(1)理論研究,主要研究概念及其分類和本體上的代數(shù)運(yùn)算;(2)在信息系統(tǒng)中的應(yīng)用研究,主要研究信息組織、信息檢索和異構(gòu)信息系統(tǒng)互操作問題,(3)本體作為一種能在知識(shí)層提供知識(shí)共享和重用的工具在語義Web中的應(yīng)用[4]。
3.個(gè)性化搜索引擎技術(shù)
當(dāng)前,個(gè)性化搜索引擎技術(shù)主要表現(xiàn)在如下兩個(gè)方面:
(1)搜索引擎提供的搜索結(jié)果滿足用戶的個(gè)性化需求。由個(gè)性化搜索服務(wù)獲得的搜索結(jié)果更加準(zhǔn)確,使不同用戶能夠得到各自需要的搜索結(jié)果,同時(shí)避免出現(xiàn)不相關(guān)的搜索結(jié)果。個(gè)性化搜索引擎技術(shù)通過分析用戶的搜索詞,跟蹤用戶的搜索行為和環(huán)境,結(jié)合用戶的需求變化和網(wǎng)絡(luò)信息的動(dòng)態(tài)變化實(shí)時(shí)更新等資料進(jìn)行信息檢索,從而為用戶提供更為個(gè)性化的、準(zhǔn)確的、真正需求的搜索結(jié)果。
(2)個(gè)性化搜索引擎所提供的服務(wù)和功能具有優(yōu)勢(shì)和特色,與通用搜索引擎不同。由于各大搜索引擎為了獲得競(jìng)爭(zhēng)優(yōu)勢(shì),不斷推出新的特色服務(wù)和功能,因此出現(xiàn)了從核心搜索衍生出的各種其他服務(wù),如桌面搜索、地圖搜索、生活搜索、RSS訂閱等服務(wù)。
目前不少搜索引擎都加入了個(gè)性化服務(wù)和功能,他們提出了各種技術(shù)和方法以實(shí)現(xiàn)個(gè)性化搜索服務(wù)。他們主要采用了基于規(guī)則的和基于信息、過濾的推薦技術(shù)。其中,基于信息過濾的技術(shù)又包括協(xié)作過濾和基于內(nèi)容的過濾?;谝?guī)則的技術(shù)允許系統(tǒng)管理員根據(jù)用戶的動(dòng)態(tài)和靜態(tài)屬性生成規(guī)則,規(guī)則決定了在不同情況下如何提供不同的務(wù),一個(gè)規(guī)則本質(zhì)上是一個(gè)if-then語句。該方法的優(yōu)點(diǎn)是簡(jiǎn)單、直接,缺點(diǎn)是規(guī)則不能動(dòng)態(tài)更新,質(zhì)量難以保證,隨著規(guī)則數(shù)的增加,系統(tǒng)將更難管理。典型的系統(tǒng)有IBM的Webshere,BroadVision和ILOG等。
基于內(nèi)容過濾的技術(shù)利用資源和用戶興趣的相似度進(jìn)行信息過濾。該方法的優(yōu)點(diǎn)是簡(jiǎn)單、高效,缺點(diǎn)是不能發(fā)現(xiàn)用戶新的興趣,并且難以區(qū)分資源內(nèi)容的質(zhì)量和風(fēng)格。典型的系統(tǒng)有 Personal web Watcher,syskill&webert,CiteSeer,和Web personalizer等。
基于協(xié)作的過濾技術(shù)是利用用戶之間的相似度來進(jìn)行信息過濾。該方法的優(yōu)點(diǎn)是能發(fā)現(xiàn)用戶新的興趣點(diǎn),但缺點(diǎn)是當(dāng)系統(tǒng)用戶和資源逐漸增多時(shí),系統(tǒng)性能會(huì)逐漸降低;另外,在系統(tǒng)使用的初期,難以發(fā)現(xiàn)相似的用戶。典型的系統(tǒng)有Web watcher,Let’s Browse,GrouLens,F(xiàn)irefly和Siteseer等。
還有其它的一些提供個(gè)性化服務(wù)的信息搜索系統(tǒng)同時(shí)采用了基于內(nèi)容和協(xié)作過濾兩種技術(shù)。如:webSIFT,F(xiàn)AB,Anatagonomy和Dynamicprofiler等,結(jié)合這兩種過濾技術(shù)可以克服協(xié)作過濾的稀疏性難題,使用用戶已瀏覽的內(nèi)容來預(yù)測(cè)用戶對(duì)其它資源的評(píng)價(jià),進(jìn)而增加資源評(píng)價(jià)的密度,再利用這些評(píng)價(jià)進(jìn)行協(xié)作過濾,從而改善協(xié)作過濾的效率[5]。
參考文獻(xiàn)
[1] 網(wǎng)絡(luò)信息檢索及其發(fā)展趨勢(shì)研究
[2] 基于結(jié)構(gòu)化向量空間模型的中文信息檢索系統(tǒng)研究與實(shí)現(xiàn)
[3] 搜索引擎檢索功能的性能評(píng)價(jià)研究
[4] 基于本體的Web信息檢索系統(tǒng)及其關(guān)鍵技術(shù)研究
[5] 基于內(nèi)容的個(gè)性化Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
第三篇:關(guān)于高校圖書館服務(wù)的信息檢索
關(guān)于高校圖書館服務(wù)的信息檢索
摘要:信息檢索(Information Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。本文是一篇文獻(xiàn)檢索報(bào)告,通過課題分析、檢索工具的選擇、檢索詞、檢索過程及結(jié)果、文獻(xiàn)闡述、參考文獻(xiàn)等方面闡述信息文獻(xiàn)檢索技術(shù)的運(yùn)用。
關(guān)鍵詞:高校圖書館信息檢索檢索服務(wù)
前言
隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,通過互聯(lián)網(wǎng)提供的數(shù)據(jù)庫及種類日漸增多。使得人們對(duì)于文獻(xiàn)信息的查詢、加工、存儲(chǔ)、利用等方面有了更新的要求。作為高校圖書館以組織加工數(shù)字化信息及技術(shù)為廣大讀者提供有效信息服務(wù),信息檢索服務(wù)一向是高校圖書館重要工作的組成部分,尤以為教學(xué)科研課題的檢索服務(wù)尤其顯得重要,提供的文獻(xiàn)信息對(duì)保障科研工作順利進(jìn)行起到不可忽視的作用。信息檢索服務(wù)就是把圖書館的館藏資源和網(wǎng)絡(luò)資源通過整合和有序化,進(jìn)行全方位、多途徑為教學(xué)科研及廣大讀者提供快、精、準(zhǔn)的信息服務(wù)和信息導(dǎo)航服務(wù),來滿足廣大用戶的信息需求。
一 課題分析
當(dāng)今網(wǎng)絡(luò)技術(shù)的發(fā)展。通過互聯(lián)網(wǎng)提供服務(wù)的數(shù)據(jù)庫種類日漸豐富。信息量大、分布廣、信息的自由性強(qiáng),而用戶面對(duì)浩如煙海的信息海洋,感到茫然無措,對(duì)網(wǎng)絡(luò)與數(shù)字資源利用能力準(zhǔn)備的不足,這就需要圖書館館員通過信息服務(wù)為讀者進(jìn)行信息導(dǎo)航,為讀者提供細(xì)致、周到、全方位的信息檢索服務(wù)。由于教學(xué)科研工作者的精力相對(duì)有限,對(duì)學(xué)術(shù)研究的規(guī)范性要求較高,而獲取準(zhǔn)確、有用的信息需占用大量時(shí)間和精力,這將成為制約網(wǎng)絡(luò)信息有效利用的瓶頸。高校圖書館開展信息檢索服務(wù)正是為教學(xué)科研工作者了解各國(guó)同行的研究現(xiàn)狀,進(jìn)行科技追蹤起到導(dǎo)航作用。
二 檢索工具的選擇超星數(shù)字圖書館
超星數(shù)字圖書館成立于1993年,長(zhǎng)期致力于紙張圖文資料數(shù)字化技術(shù)開發(fā)及相關(guān)應(yīng)用與推廣,是國(guó)內(nèi)專業(yè)的數(shù)字圖書館解決方案提供商和數(shù)字圖書資源提供商。超星經(jīng)過多年的研發(fā),已經(jīng)擁有了成熟的整套圖書館數(shù)字化解決方案,被公認(rèn)為數(shù)字圖書館行業(yè)中的第一品牌。超星依托雄厚的資源和技術(shù),不僅迅速占領(lǐng)了國(guó)內(nèi)絕大部分的圖書館市場(chǎng),也已經(jīng)躋身于世界圖書館數(shù)字化進(jìn)程中的領(lǐng)跑者行列。
超星數(shù)字圖書館于2000年被列入國(guó)家“863”計(jì)劃中國(guó)數(shù)字圖書館示范工程,以
其數(shù)字圖書館的方式對(duì)數(shù)字圖書館技術(shù)進(jìn)行推廣和示范。超星電子圖書數(shù)據(jù)按照“中圖法”分為文學(xué)、歷史、法律、軍事、經(jīng)濟(jì)、科學(xué)、醫(yī)藥、工程、建筑、交通、計(jì)算機(jī)、環(huán)保等22大類,目前擁有數(shù)字圖書100萬種,是國(guó)內(nèi)數(shù)字圖書資源最豐富的數(shù)字圖書館。萬方數(shù)據(jù)庫資源系統(tǒng)
萬方數(shù)據(jù)資源系統(tǒng)是建立在因特網(wǎng)上的大型科技、商務(wù)信息平臺(tái),內(nèi)容涉及自然科學(xué)和社會(huì)科學(xué)各個(gè)專業(yè)領(lǐng)域。包括:學(xué)術(shù)期刊、學(xué)位論文、會(huì)議論文、專利技術(shù)、中外標(biāo)準(zhǔn)、科技成果、政策法規(guī)、新方志、機(jī)構(gòu)、科技專家等子庫。中國(guó)維普數(shù)據(jù)庫
該數(shù)據(jù)庫源于1989 年創(chuàng)建的《中文科技期刊篇名數(shù)據(jù)庫》。其全文和題錄文摘版一一對(duì)應(yīng)。該數(shù)據(jù)庫包含1989 年以來的自然科學(xué)、工程技術(shù)、農(nóng)業(yè)、醫(yī)藥衛(wèi)生、經(jīng)濟(jì)、教育和圖書情報(bào)等學(xué)科8000 余種期刊文獻(xiàn)。數(shù)據(jù)庫按照《中國(guó)圖書館分類法》進(jìn)行分類,所有文獻(xiàn)被分為8 個(gè)專輯:社會(huì)科學(xué)、經(jīng)濟(jì)管理、教育科學(xué)、圖書情報(bào)、自然科學(xué)、農(nóng)業(yè)科學(xué)、工程技術(shù)。中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫
《中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫》簡(jiǎn)稱 CMFD,是國(guó)內(nèi)內(nèi)容最全、質(zhì)量最高、出版周期最短、數(shù)據(jù)最規(guī)范、最實(shí)用的碩士學(xué)位論文全文數(shù)據(jù)庫。出版內(nèi)容:覆蓋基礎(chǔ)科學(xué)、工程技術(shù)、農(nóng)業(yè)、哲學(xué)、醫(yī)學(xué)、哲學(xué)、人文、社會(huì)科學(xué)等各個(gè)領(lǐng)域。截止至2010年10月,收錄來自561家培養(yǎng)單位的優(yōu)秀碩士學(xué)位論文107多萬篇。
資源特色:重點(diǎn)收錄985、211高校、中國(guó)科學(xué)院、社會(huì)科學(xué)院等重點(diǎn)院校高校的優(yōu)秀碩士論文、重要特色學(xué)科如通信、軍事學(xué)、中醫(yī)藥等專業(yè)的優(yōu)秀碩士論文。專機(jī)專題:產(chǎn)品分為十大專輯:基礎(chǔ)科學(xué)、工程科技Ⅰ、工程科技Ⅱ、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、哲學(xué)與人文科學(xué)、社會(huì)科學(xué)Ⅰ、社會(huì)科學(xué)Ⅱ、信息科技、經(jīng)濟(jì)與管理科學(xué)。十大專輯下分為168個(gè)專題。收錄年限:從1984年至今的碩士學(xué)位論文。產(chǎn)品形式:WEB版(網(wǎng)上包庫)、鏡像站版、光盤版、流量計(jì)費(fèi)。出版時(shí)間:
1、中心網(wǎng)站版、網(wǎng)絡(luò)鏡像版,每工作日出版,法定節(jié)假日(春節(jié)假日一般為15天,每年假日前10天公布起止日期)除外。
2、鏡像版、光盤版,每月10日出版。
5Google搜索引擎
Google 的使命就是要為您提供網(wǎng)上最好的查詢服務(wù),促進(jìn)全球信息的交流。Google 開發(fā)出了世界上最大的搜索引擎,提供了最便捷的網(wǎng)上信息查詢方法。通過對(duì) 20 多億網(wǎng)頁進(jìn)行整理,Google 可為世界各地的用戶提供適需的搜索結(jié)果,而且搜索時(shí)間通常不到半秒。現(xiàn)在,Google 每天需要提供 1.5 億次查詢服務(wù)。Google 富于創(chuàng)新的搜索技術(shù)和典雅的用戶界面設(shè)計(jì)使 Google 從當(dāng)今的第一代搜索引擎中脫穎而出。Google 并非只使用關(guān)鍵詞或代理搜索技術(shù),它將自身建立在高級(jí)的 PageRank(tm)(網(wǎng)頁級(jí)別)技術(shù)基礎(chǔ)之上。這項(xiàng)正在申請(qǐng)專利的技術(shù)可確保始終將最重要的搜索結(jié)果首先呈現(xiàn)給用戶。百度搜索引擎
百度公司是中國(guó)互聯(lián)網(wǎng)領(lǐng)先的軟件技術(shù)提供商和平臺(tái)運(yùn)營(yíng)商。中國(guó)提供搜索引擎的主要網(wǎng)站中,超過80%由百度提供。1999年底,百度成立于美國(guó)硅谷,它的創(chuàng)建者是在美國(guó)硅谷有多年成功經(jīng)驗(yàn)的李彥宏先生及徐勇先生。2000年百度公司回國(guó)發(fā)展。百度的起名,來自于“眾里尋她千百度”的靈感,它寄托著百度公司對(duì)自身技術(shù)的信心。
三 檢索詞及檢索式
1、中文:高校圖書館信息檢索檢索服務(wù)
2英文:University LibrarySearch Service
四 檢索過程及結(jié)果
對(duì)高校圖書館服務(wù)這個(gè)概念很耳熟,但是要給出科學(xué)的精確地定義,一時(shí)難以下手。在各個(gè)搜索引擎和數(shù)據(jù)庫搜索,信息量非常大,所以要認(rèn)真慎重篩選,才能找到有效地信息。超星數(shù)字圖書館
先輸入:高校圖書館,檢索結(jié)果為:2條。萬方數(shù)據(jù)庫資源系統(tǒng)
共找到2168篇符合條件的論文。中國(guó)維普數(shù)據(jù)庫
題名或關(guān)鍵詞=高校圖書館服務(wù)。共找到810條,當(dāng)前頁1/41標(biāo)記數(shù)0條。4 中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫
輸入高校圖書館服務(wù),共有211條記錄。Google搜索引擎
獲得約 2,030,000 條結(jié)果(用時(shí) 0.14 秒)百度搜索引擎
百度一下,找到相關(guān)網(wǎng)頁約3,510,000篇,用時(shí)0.102秒
五 文獻(xiàn)闡述
隨著信息技術(shù)的發(fā)展網(wǎng)絡(luò)信息資源的劇增,其分布性、異構(gòu)性和動(dòng)態(tài)性給信息檢索帶來了新的挑戰(zhàn)。傳統(tǒng)的檢索服務(wù)已不能滿足科研對(duì)文獻(xiàn)信息檢索日益增長(zhǎng)需求,對(duì)新問題求解為目的的檢索已成一種趨勢(shì),面對(duì)這種檢索需求的轉(zhuǎn)變。需要館員對(duì)信息檢索提供的深度要求有了更大幅度的提高。要求館員在信息檢索技術(shù)上進(jìn)行資源整合。采用局部資源整合、文獻(xiàn)資源深層次整合、數(shù)據(jù)庫存資源層次的整合、異構(gòu)數(shù)據(jù)庫的同構(gòu)化整合、基于文獻(xiàn)內(nèi)容層次的整合等。通過整合從而大大提高檢索效率和資源利用率。高校用戶在對(duì)信息內(nèi)容綜合性要求的同時(shí),對(duì)所提供的文獻(xiàn)信息及信息服務(wù)的深度要求也有了更大提高,因此在對(duì)用戶提出的某一專業(yè)性較強(qiáng)課題時(shí),這就要求館員積極參與到課題的研究中去,從課題所屬的專業(yè)角度出發(fā),對(duì)其進(jìn)行一系列的分析,并挖掘其深層含義,從而將分散在本領(lǐng)域和相關(guān)領(lǐng)域的專門知識(shí)與信息加以集中組織并有序化,從中提煉出有利于用戶需求,具有創(chuàng)新思路的“知識(shí)因素”。向用戶提供潛在內(nèi)容知識(shí)、預(yù)測(cè)分析具有超前性領(lǐng)域的知識(shí)和成果,這將有利于檢索質(zhì)量的提高,也是高校圖書館今后進(jìn)行信息檢索服務(wù)的發(fā)展趨勢(shì)。
總之,高校圖書館作為高校教學(xué)科研和讀者服務(wù)的部門,必須進(jìn)一步明確自身的定位,加強(qiáng)服務(wù)意識(shí)和創(chuàng)新服務(wù)舉措,憑借自身在文獻(xiàn)信息資源特有的行業(yè)優(yōu)勢(shì),充分利用圖書館豐富的館藏文獻(xiàn)信息資源、特色數(shù)據(jù)庫等資源,為教學(xué)科研工作提供優(yōu)質(zhì)、周到的服務(wù),推動(dòng)高校教學(xué)科研工作進(jìn)一步的向前發(fā)展。
六 總結(jié)
通過課堂上對(duì)信息檢索與利用的學(xué)習(xí),以及課后信息檢索的實(shí)踐,利用各種信息檢索工具,學(xué)到了很多信息檢索方法,利用一個(gè)或者幾個(gè)相關(guān)的關(guān)鍵詞進(jìn)行檢索,然后篩選出合適的信息。通常利用網(wǎng)絡(luò)搜索引擎搜索到的信息比較繁雜,如果要搜索專業(yè)的信息資源,應(yīng)該選擇專業(yè)學(xué)術(shù)數(shù)據(jù)庫。
參考文獻(xiàn):
[1]楊瑪萍.數(shù)字圖書館服務(wù)質(zhì)量初探[J].科技情報(bào)開發(fā)與經(jīng)濟(jì).2006(16).[2]楊曉紅.高校圖書館文獻(xiàn)信息資源開發(fā)與服務(wù)創(chuàng)新[J].科技情報(bào)開發(fā)與經(jīng)濟(jì).2005(21).[3]劉芳蘭.高校圖書館服務(wù)創(chuàng)新的探討[J].湘潭師范學(xué)院學(xué)報(bào).社會(huì)科學(xué)版.2005.(2).[4]張玉峰.論知識(shí)檢索與信息檢索[J].中國(guó)圖書館學(xué)報(bào).2003(5).[5]余艷.搜索引擎原理剖析及其技術(shù)發(fā)展[J].圖書館學(xué)刊.2004(1).[6]任巖.網(wǎng)絡(luò)環(huán)境下圖書館信息服務(wù)的探討[J].情報(bào)科學(xué).2003(1).
第四篇:基于lucene的信息檢索系統(tǒng) 畢業(yè)論文
第三章 信息檢索系統(tǒng)及其關(guān)鍵技術(shù)
3.1 信息檢索系統(tǒng)簡(jiǎn)介
信息檢索系統(tǒng)是利用信息檢索技術(shù)(如全文檢索等)幫助用戶查找特定信息的一種工具。它能夠?qū)π畔⑦M(jìn)行正確的表示、存儲(chǔ)和組織,同時(shí)還提供對(duì)于信息的訪問方式。在這里,信息的概念很寬泛,它可以是一篇文章,一段文本,一個(gè)網(wǎng)頁,一封郵件,一張照片,甚至是一些虛擬信息的集合。
3.2 信息檢索的過程
檢索的整個(gè)過程包括:構(gòu)建文本庫,建立索引,進(jìn)行檢索。1.構(gòu)建文本庫
在開發(fā)檢索功能前,一個(gè)信息檢索系統(tǒng)需要做些準(zhǔn)備工作。首先,必須構(gòu)建一個(gè)文本數(shù)據(jù)庫。這個(gè)文本數(shù)據(jù)庫用來保存所有用戶可能檢索的信息。在這些信息的基礎(chǔ)上,確定檢索系統(tǒng)中的文本模型。文本模型是被系統(tǒng)所認(rèn)可的一種信息格式,這種格式應(yīng)當(dāng)具有可識(shí)別、冗余度低等特點(diǎn)。當(dāng)然,在系統(tǒng)的運(yùn)作過程中,文本數(shù)據(jù)庫的信息可能會(huì)不斷地發(fā)生變化。
2.建立索引
有了文本模型后,就應(yīng)該根據(jù)數(shù)據(jù)庫內(nèi)的文本建立索引。索引可以大大提高信息檢索的速度。目前有多種索引的建立方式,采用哪種方式取決于信息檢索系統(tǒng)的規(guī)模。大型信息檢索系統(tǒng)(如百度、Google這樣的搜索引擎)均采用倒排的方式來建立索引。
3.進(jìn)行搜索
在為文本建立索引之后,就可以開始對(duì)其進(jìn)行搜索。通常由用戶提交一個(gè)檢索請(qǐng)求,該請(qǐng)求被分析,然后在索引中檢索并返回結(jié)果。
3.3 Lucene
Lucene是一個(gè)開源全文檢索工具包,它是apache軟件基金會(huì)jakarta項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開放源代碼的全文檢索引擎工具包,即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。3.3.1 Lucene結(jié)構(gòu)分析
Lucene作為一個(gè)優(yōu)秀的全文檢索引擎,其結(jié)構(gòu)具有強(qiáng)烈的面向?qū)ο筇卣?。首先是定義了一個(gè)與平臺(tái)無關(guān)的索引文件格式,其次通過抽象將其核心組成部分設(shè)計(jì)為抽象類,具體的平臺(tái)實(shí)現(xiàn)部分設(shè)計(jì)為抽象類的實(shí)現(xiàn),此外與具體平臺(tái)相關(guān)的部分比如文件存儲(chǔ)也封裝為類,經(jīng)過層層的面向?qū)ο笫降奶幚?,最終達(dá)成了一個(gè)低耦合高效率,容易二次開發(fā)的檢索引擎。Lucene的結(jié)構(gòu)和源碼組織結(jié)構(gòu)如圖3.1所示:
查詢語句org.apache.lucene.queryPaser被索引文件查詢結(jié)果org.apache.lucene.search對(duì)org.apache.lucene.analysis外接口org.apache.lucene.index核心索引org.apache.lucene.store索引文件org.apache.lucene.documentorg.apache.lucene.store基礎(chǔ)結(jié)構(gòu)封裝 圖3.1 Lucene結(jié)構(gòu)和源碼組織結(jié)構(gòu)
從圖中可以看出,Lucene由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對(duì)外接口三大部分組成。其中直接操作索引文件的索引核心又是系統(tǒng)的重點(diǎn)。Lucene的將所有源碼分為了7個(gè)模塊(在java語言中以包即package來表示),各個(gè)模塊所屬的部分也如圖3.1所示。3.3.2 Lucene索引的建立
索引是信息檢索引擎工作的第一步,只有建立了索引才能進(jìn)行信息檢索。Lucene用Document邏輯文件和Field域來組織各種數(shù)據(jù)源。Document向Lucene提供原始的要索引的文本內(nèi)容,Lucene從Document中取出相關(guān)的數(shù)據(jù)源,并根據(jù)屬性配置進(jìn)行相應(yīng)的處理,建立索引。
索引過程如下:
(1)創(chuàng)建一個(gè)IndexWriter用來寫索引文件,它有幾個(gè)參數(shù),INDEX_DIR就是索引文件所存放的位置,Analyzer便是用來對(duì)文檔進(jìn)行詞法分析和語言處理的。(2)創(chuàng)建一個(gè)Document代表我們要索引的文檔。
(3)將不同的Field加入到文檔中。我們知道,一篇文檔有多種信息,如題目,作者,修改時(shí)間,內(nèi)容等,不同類型的信息用不同的Field來表示。(4)
IndexWriter調(diào)用函數(shù)addDocument將索引寫到索引文件夾中。
3.3.3 Lucene的搜索
Lucene建立了功能強(qiáng)大的索引機(jī)制為搜索服務(wù),這是因?yàn)樵跈z索系統(tǒng)的使用中,用戶體驗(yàn)最深的還是搜索部分。如果這一部分的性能無法達(dá)到用戶要求,那么軟件就沒有太大的意義。
搜索過程如下:
(1)IndexReader將磁盤上的索引信息讀入到內(nèi)存,INDEX_DIR就是索引文件存放的位置。
(2)創(chuàng)建IndexSearcher準(zhǔn)備進(jìn)行搜索。
(3)創(chuàng)建Analyer用來對(duì)查詢語句進(jìn)行詞法分析和語言處理。(4)創(chuàng)建QueryParser用來對(duì)查詢語句進(jìn)行語法分析。
(5)QueryParser調(diào)用parser進(jìn)行語法分析,形成查詢語法樹,放到Query中。(6)
IndexSearcher調(diào)用search對(duì)查詢語法樹Query進(jìn)行搜索,得到查詢結(jié)果存放在TopScoreDocCollector。
3.3.4 中文分詞
中文分詞是處理中文信息的基礎(chǔ)與關(guān)鍵。由于Lucene自帶的分詞器對(duì)英文的分詞效果較好,但對(duì)中文的分詞效果并不如意。為了使檢索系統(tǒng)能更好的處理中文信息,本文采用了IKAnalyzer作為分詞器。IK Analyzer是一個(gè)開源的,基于java 語言開發(fā)的輕量級(jí)的中文分詞工具包。從2006年12月推出1.0 版開始,IKAnalyzer已經(jīng)推出了3個(gè)大版本。最初,它是以開源項(xiàng)目Luence 為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer 3.X 則發(fā)展為面向Java 的公用分詞組件,獨(dú)立于Lucene 項(xiàng)目,同時(shí)提供了對(duì)Lucene 的默認(rèn)優(yōu)化實(shí)現(xiàn)。IKAnalyzer的特性:
? 采用了特有的“正向迭代最細(xì)粒度切分算法“,具有60 萬字/秒的高速處理能力。? 采用了多子處理器分析模式,支持:英文字母(IP 地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計(jì)數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。
? 優(yōu)化的詞典存儲(chǔ),更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義
? 針對(duì)Lucene 全文檢索優(yōu)化的查詢分析器IKQueryParser;采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大的提高Lucene 檢索的命中率。
第四章 信息檢索系統(tǒng)的分析與設(shè)計(jì)
4.1 系統(tǒng)功能需求
隨著科技的發(fā)展,電腦的應(yīng)用越來越普遍,人們的學(xué)習(xí)工作幾乎都不能離開電腦。而筆記本電腦由于其輕便和時(shí)尚性,受到人們普遍的喜愛。但是,在購買筆記本時(shí),我們需要詳細(xì)地了解所買型號(hào)筆記本的外表及各種功能,為此我們往往要去各個(gè)商家挑選。為了方便,需要提供一個(gè)專門的筆記本電腦信息查詢系統(tǒng),能讓用戶輕松的獲取各種型號(hào)筆記本的詳細(xì)參數(shù)與外觀。該系統(tǒng)提供一個(gè)良好的用戶界面,用戶查詢時(shí),系統(tǒng)能根據(jù)用戶查詢語句精確地給出查詢信息,能夠較好地理解用戶的查詢語句。
4.2 系統(tǒng)開發(fā)平臺(tái)設(shè)計(jì)
本系統(tǒng)采用的是Eclipse6.5+MySQL5.1+Tomcat5.5的開發(fā)環(huán)境。
? Eclipse是一個(gè)開放源代碼的、基于Java的可擴(kuò)展開發(fā)平臺(tái)。在開發(fā)時(shí)搭配使用MyEclipse進(jìn)行開發(fā)。MyEclipse企業(yè)級(jí)工作平臺(tái)是對(duì)Eclipse IDE的擴(kuò)展,利用它可以在數(shù)據(jù)庫和J2EE的開發(fā)、發(fā)布,以及應(yīng)用程序服務(wù)器的整合方面極大地提高工作效率。它是功能豐富的J2EE集成開發(fā)環(huán)境,包括了完備的編碼、調(diào)試、測(cè)試和發(fā)布功能,完整支持HTML CSS、Javascript、Struts、Spring、SQL、Hibernate和JSF。
? MySQL是最受歡迎的開源SQL數(shù)據(jù)庫管理系統(tǒng),它由MySQL AB開發(fā)、發(fā)布和支持。MySQL服務(wù)器支持關(guān)鍵任務(wù)、重負(fù)載生產(chǎn)系統(tǒng)的使用,也可以將它嵌入到一個(gè)大配置的軟件中。本文采用的是當(dāng)前的穩(wěn)定版本5.1。
? Tomcat是一個(gè)免費(fèi)的、開放源碼的、支持JSP和Servlet的web服務(wù)器。Tomcat是一個(gè)小型的輕量級(jí)應(yīng)用服務(wù)器,在中、小型系統(tǒng)和并發(fā)訪問用戶不是很多的場(chǎng)合下被普遍使用,是開發(fā)和調(diào)試JSP程序的首選。它運(yùn)行時(shí)占用的系統(tǒng)資源小,擴(kuò)展性好,支持負(fù)載平衡與郵件服務(wù)等開發(fā)應(yīng)用系統(tǒng)常用的功能。目前Tomcat5.5是較穩(wěn)定的版本,而且Eclipse也很好的支持該版本的集成,所以本文采用Tomcat5.5進(jìn)行開發(fā)。此外,本系統(tǒng)所應(yīng)用到的其它開源工具為:Struts1.2、Spring2.5、Hibernate3.1,網(wǎng)絡(luò)爬蟲Heritrix1.14.3,網(wǎng)頁解析工具HtmlParser2.0,全文檢索工具包Lucene3.0,中文分詞軟件IKAnalyzer3.0。
4.3 系統(tǒng)的組成結(jié)構(gòu)
整個(gè)系統(tǒng)由三個(gè)部分組成:網(wǎng)頁采集分析模塊、索引與數(shù)據(jù)庫模塊、web搜索界面模塊。其中網(wǎng)頁采集與分析分別由開源工具網(wǎng)絡(luò)爬蟲Heritrix和網(wǎng)頁解析器HtmlParser完成;由Lucene完成索引系統(tǒng),并將索引與數(shù)據(jù)庫關(guān)聯(lián);web查詢界面基于SSH框架設(shè)計(jì)完成。模塊組成結(jié)構(gòu)如圖4.1所示。
網(wǎng)頁抓取分析模塊索引與數(shù)據(jù)庫模塊InternetHeritrixWeb檢索模塊抓取的信息網(wǎng)頁Lucene建立索引HtmlParser文本格式信息返回查詢結(jié)果創(chuàng)建數(shù)據(jù)庫數(shù)據(jù)庫索引根據(jù)索引查找數(shù)據(jù)庫查詢索引基于SSH設(shè)計(jì)
圖4.1 系統(tǒng)模塊結(jié)構(gòu)圖
4.4 網(wǎng)頁抓取分析模塊設(shè)計(jì)
4.4.1 站點(diǎn)選擇
從技術(shù)角度看,選擇網(wǎng)站的主要依據(jù)有:
(1)網(wǎng)站能夠被Heritrix爬蟲抓取。因?yàn)橛械木W(wǎng)站使用了反爬蟲技術(shù),防止未經(jīng)授權(quán)的爬蟲對(duì)面頁進(jìn)行抓取。
(2)網(wǎng)站的信息不是用javaScript動(dòng)態(tài)生成的。這種動(dòng)態(tài)生成的內(nèi)容需要在瀏覽器中運(yùn)行生成,是爬蟲無法獲取到的。
(3)網(wǎng)站的面頁結(jié)構(gòu)不應(yīng)該經(jīng)常變化,最好是使用一種模版動(dòng)態(tài)生成的。這樣有利于在分析面頁時(shí),使用較為簡(jiǎn)單的方式從網(wǎng)頁中解析數(shù)據(jù)。
除了上述3點(diǎn)技術(shù)方面的因素,在選擇網(wǎng)站時(shí),也應(yīng)當(dāng)盡量選擇那些訪問量較大、產(chǎn)品信息比較齊全的網(wǎng)站。這樣,有利于數(shù)據(jù)完整性?;谏鲜龈饕蛩氐目紤],本文選擇太平洋電腦網(wǎng)(http://$ 例如蘋果Macbook Pro 15(MC373CH/A):
http://product.pconline.com.cn/notebook/apple/411413.html 產(chǎn)品詳細(xì)參數(shù)面頁URL的正則表達(dá)式為:
^http://product.pconline.com.cn/notebook/+[wd]+/d{5,6}_detail.html$ 例如蘋果Macbook Pro 15(MC373CH/A)詳細(xì)參數(shù): http://product.pconline.com.cn/notebook/apple/411413_detail.html 產(chǎn)品頁的產(chǎn)品圖片URL都是以.jpg結(jié)尾。
通過對(duì)網(wǎng)站URL分析,可以總結(jié)出我們要抓取的面頁URL的規(guī)律,只要抓取產(chǎn)品面頁和產(chǎn)品詳細(xì)信息面頁及產(chǎn)品圖片即可。因此,要擴(kuò)展Heritrix來實(shí)現(xiàn)上述抓取策略。Heritrix有多個(gè)擴(kuò)展點(diǎn),本文選擇擴(kuò)展FrontierScheduler來抓取特定的內(nèi)容。FrontierScheduler是Heritrix的一個(gè)PostProcessor,它的作用是將Extractor中分析得出的鏈接加入到Frontier中,以待繼續(xù)處理。擴(kuò)展代碼如下:
protected void schedule(CandidateURI caURI){
//取得URI字符串
String url = caURI.toString();try{
//URI選擇策略 //匹配 具體型號(hào)url Pattern pattern_model = Pattern.compile(MODEL_URL);Matcher matcher_model = pattern_model.matcher(url);//匹配 型號(hào)詳細(xì)參數(shù)url
}
} Pattern pattern_detail = Pattern.compile(DETAIL_URL);Matcher matcher_detail = pattern_detail.matcher(url);//URL是產(chǎn)品面頁/詳細(xì)參數(shù)面頁/jpg圖片/DNS if(//matcher_detail.find()||matcher_model.find()||url.endsWith(“.jpg”)
} e.printStackTrace();||url.indexOf(“dns:”)!=-1){
getController().getFrontier().schedule(caURI);return;}else{ }catch(Exception e){ }finally{ 4.4.3 網(wǎng)頁解析工具HtmlParser 對(duì)于抓取到的網(wǎng)頁,需要經(jīng)過解析,提取出需要的信息以便更好的建立索引和創(chuàng)建數(shù)據(jù)庫。本文Html解析器是HtmlParser,HtmlParser是一個(gè)開源的Java庫,它提供接口,支持線程和嵌套的解析Html文本。HtmlParser提供了兩種訪問Html結(jié)點(diǎn)的方法:Visitor模式和Filter模式,本文采用了Filter模式。Filter模式通過設(shè)置一定的過濾條件,對(duì)每個(gè)結(jié)點(diǎn)進(jìn)行過濾,返回一個(gè)符合規(guī)則的節(jié)點(diǎn)列表。Org.htmlparser.filters包含所有已經(jīng)實(shí)現(xiàn)的Filter類型,定義了16種Filter。
例如要解析一個(gè)網(wǎng)頁中所有包含圖片的鏈接,分析可得該節(jié)點(diǎn)中具有鏈接標(biāo)簽名”a”,并且它的字節(jié)點(diǎn)中還必須包含圖片標(biāo)簽名”img”,則過濾器的定義為:
NodeFilter filter = new AndFilter(new TagNameFilter(“A”), New HasChildFilter(new TagNameFilter(“IMG”)))4.4.4 網(wǎng)頁信息結(jié)構(gòu)化
在抓取到筆記本產(chǎn)品各種信息的Html文本后,需要用HtmlParser對(duì)Html文本解析,得到建立索引所需的各種信息。處理后的的文件如圖4.2所示。
圖4.2 處理后產(chǎn)品的信息格式
從圖中可以看出文件的格式如下:第一行是筆記本品牌(包括中文和英文名稱);第二行是筆記本具體型號(hào);最后一行則是該筆記本的對(duì)應(yīng)圖片文件名,圖片名是經(jīng)過Hash后的字符串;其余部分則是該筆記本的詳細(xì)參數(shù)。將所有筆記本產(chǎn)品的信息按上述格式存儲(chǔ),以便建立索引。
4.5 數(shù)據(jù)庫與索引設(shè)計(jì)
4.5.1 數(shù)據(jù)庫設(shè)計(jì)
本文數(shù)據(jù)庫結(jié)構(gòu)簡(jiǎn)單,只有一個(gè)數(shù)據(jù)表來存儲(chǔ)筆記本產(chǎn)品的各種信息,數(shù)據(jù)庫各字段含義如表4.1所示。
表4.1 數(shù)據(jù)庫字段含義
字段名 Id name type content abstractcontent
字段含義 主鍵
品牌名稱,如”蘋果”
型號(hào),如” ibook G4 M9627CH/A” 筆記本產(chǎn)品的詳細(xì)信息
詳細(xì)參數(shù)的摘要,供建立索引時(shí)使用
創(chuàng)建數(shù)據(jù)庫的SQL語句如下: create database searchdb;use searchdb;create table product(id
int AUTO_INCREMENT, name varchar(128), type varchar(128), content varchar(20000), abstractcontent varchar(512),);4.5.2 索引設(shè)計(jì)
在使用Lucene建立索引時(shí),需要定義Lucene的Document格式。索引中的信息應(yīng)當(dāng)盡量少,只要能夠滿足用戶檢索要求就可以了。本文中,為Document構(gòu)建了4個(gè)Field:
//當(dāng)前產(chǎn)品在數(shù)據(jù)庫中的id
Field indentifier = new Field(“id”,id + “",Field.Store.YES, Field.Index.NOT_ANALYZED);//產(chǎn)品的品牌
Field name = new Field(”name“,product.getName(),Field.Store.YES, Field.Index.ANALYZED);//產(chǎn)品型號(hào)
Field type = new Field(”type“,product.getType(),Field.Store.YES, Field.Index.ANALYZED);//將筆記本產(chǎn)品的name、type、abstractcontent信息綜合起來,默認(rèn)的檢索域 Field all = new Field(”all“,text,Field.Store.YES, Field.Index.ANALYZED);上述4中Filed中,前3個(gè)與數(shù)據(jù)庫的內(nèi)容有直接的對(duì)應(yīng)關(guān)系,而最后一個(gè)Filed則是將name、type這兩個(gè)Filed拼接起來并添加了abstractcontent來進(jìn)行保存,為用戶提供一個(gè)檢索時(shí)的默認(rèn)Filed。這種方式占用了索引空間,但卻避免了使用多域搜索帶來的性能損失,還可提高檢索的全面性。
4.6 web檢索模塊設(shè)計(jì)
web檢索模塊基于SSH設(shè)計(jì)實(shí)現(xiàn),由Struts作為控制器,Spring作為業(yè)務(wù)層,Hibernate作為數(shù)據(jù)持久層,結(jié)構(gòu)如圖4.3所示。
控制器Struts業(yè)務(wù)層SpringSpringAOP持久層HibernateHibernateTemplaterequestActionServletActionFrom數(shù)據(jù)庫responseJSPActionSpringIocHibernateDAO圖4.3 基于SSH的web檢索模塊結(jié)構(gòu)圖
從圖中可以看出,用戶的請(qǐng)求會(huì)發(fā)送給ActionServlet,用戶數(shù)據(jù)通過ActionForm Bean傳遞給Action,由Action類來通過Spring的IoC容器訪問Hibernate的DAO,DAO負(fù)責(zé)數(shù)據(jù)庫的交互,然后再返回JSP面頁將查詢結(jié)果進(jìn)行顯示。
第五章 信息檢索系統(tǒng)的實(shí)現(xiàn)
5.1 網(wǎng)頁抓取的實(shí)現(xiàn)
在抓取任務(wù)開始前,需要對(duì)抓取的內(nèi)容進(jìn)行詳細(xì)地分析,確定種子,即開始抓取的網(wǎng)頁。本文中為了能盡量獲取全部的產(chǎn)品信息,直接將需要抓取的面頁(包括產(chǎn)品面頁、詳細(xì)參數(shù)面頁、圖片)的URL作為抓取的種子,這就需要找出所有產(chǎn)品的具體URL。在太平洋電腦網(wǎng)上提供了站內(nèi)搜索功能,當(dāng)輸入查詢某品牌的筆記本就能得到站內(nèi)所有該品牌標(biāo)記本的信息的面頁,當(dāng)然面頁中也包含這些筆記本的產(chǎn)品面頁的URL,這就提供了抓取的種子。依次查詢各個(gè)品牌的筆記本,將查詢結(jié)果面頁保存到本地,然后用HtmlParser解析得到其中產(chǎn)品面頁的URl,寫入種子文件。
圖5.1 查詢結(jié)果面頁源代碼
從網(wǎng)頁源代碼中可以發(fā)現(xiàn)解析網(wǎng)頁時(shí)可以得到該品牌所有筆記本產(chǎn)品的產(chǎn)品面頁和詳細(xì)參數(shù)面頁的URL。其中產(chǎn)品詳細(xì)參數(shù)面頁URL的節(jié)點(diǎn)形如:
第五篇:用戶檔案信息在高校圖書館中的應(yīng)用分析
用戶檔案信息在高校圖書館中的應(yīng)用分析
隨著網(wǎng)絡(luò)信息時(shí)代的發(fā)展與變革,高校圖書館檔案管理突破了靜態(tài)管理狀態(tài),向動(dòng)態(tài)環(huán)境發(fā)展,尤其是圖書館個(gè)性化服務(wù)的發(fā)展與應(yīng)用,使得用戶檔案成為圖書館界研究和發(fā)展的新動(dòng)態(tài)。圖書館用戶檔案是指所有在接受圖書館提供的館藏資源、網(wǎng)絡(luò)資源及相關(guān)服務(wù)信息時(shí)所產(chǎn)生的一切與用戶相關(guān)的資料,是用戶利用圖書館的原始記錄。用戶檔案信息服務(wù)是指圖書館根據(jù)用戶檔案信息分類,為用戶提供相關(guān)專業(yè)館藏資源、數(shù)字化信息、特色資源、個(gè)性化信息等服務(wù),并根據(jù)用戶使用圖書館的軌跡分析用戶的感興趣的信息,主動(dòng)向用戶提供信息服務(wù)。高校圖書館用戶檔案的必要性
1.1 建立用戶檔案是數(shù)字化圖書館發(fā)展趨勢(shì)。以用戶為中心是高校圖書館的服務(wù)核心,轉(zhuǎn)變圖書館的服務(wù)模式,是滿足用戶信息需求基礎(chǔ)。在網(wǎng)絡(luò)化信息發(fā)展迅速的數(shù)字化圖書館時(shí)代,改變傳統(tǒng)圖書館被動(dòng)服務(wù)地位,根據(jù)用戶信息特征向用戶提供及時(shí)高效的信息路徑,利用數(shù)字化圖書館時(shí)代網(wǎng)絡(luò)信息平臺(tái),為普通專業(yè)群體及個(gè)別研究人員提供專業(yè)化信息,以滿足不同專業(yè)不同層次用戶的信息需求,探索適合我國(guó)國(guó)情發(fā)展的圖書館服務(wù)模式,已經(jīng)成為圖書情報(bào)界專家和學(xué)者們研究的一個(gè)方向。
1.2 用戶檔案是圖書館服務(wù)模式變化的內(nèi)在需求。隨著數(shù)字化圖書館服務(wù)模式的轉(zhuǎn)變,用戶檔案逐步成為圖書館界研究與應(yīng)用的對(duì)象。一方面是提高圖書館的服務(wù)質(zhì)量,發(fā)揮高校圖書館社會(huì)文獻(xiàn)和科學(xué)研究中心的地位,從“以藏為主”轉(zhuǎn)為“以用為主”,智能化服務(wù)逐步代替人工化服務(wù),面對(duì)面服務(wù)轉(zhuǎn)變?yōu)檫h(yuǎn)程化、多元化服務(wù)途徑;另一方面是向個(gè)性化、學(xué)科館員化服務(wù)方向發(fā)展,了解和掌握用戶利用信息資源的動(dòng)態(tài),分析用戶的信息需求,縮短用戶檢索信息時(shí)間,都需要建立用戶檔案信息。
1.3 用戶檔案是助推圖書館開放程度的動(dòng)力。當(dāng)前高校圖書館是以信息技術(shù)為依托的,開放型的服務(wù)模式。采用用戶檔案服務(wù)模式在圖書館利用廣度和深度上都有所增加,主要表現(xiàn)在以下兩個(gè)方面:一是圖書館通過用戶檔案信息行為數(shù)據(jù)分析,掌握用戶的專業(yè)、愛好、興趣,層次與結(jié)構(gòu)的差異性,從不同角度與需求滿足用戶的信息需求,挖掘圖書學(xué)科館員的潛能,滿足用戶基礎(chǔ)性和深層次的信息需求,加強(qiáng)圖書館的利用深度;二是用戶可以隨時(shí)隨地通過電腦、智能化設(shè)備應(yīng)用數(shù)字化圖書館的信息資源,只需要用戶向圖書館門戶驗(yàn)證相應(yīng)的用戶檔案信息,打破了利用圖書館的地域時(shí)空限制。用戶檔案在高校圖書館中的應(yīng)用現(xiàn)狀
2.1 缺乏用戶檔案管理機(jī)制。目前,圖書館用戶檔案缺乏統(tǒng)一的分類體系,用戶檔案管理沒有規(guī)范化的標(biāo)準(zhǔn)可依,圖書館借閱證多由辦公室、采編部等兼職人員辦理與管理。沒有專門的管理人員把用戶檔案進(jìn)行分類、整理、信息跟蹤分析,用戶檔案管理基本上處于靜態(tài)管理,主要在于用戶信息的簡(jiǎn)單記錄,不能全面地反映用戶利用圖書館信息資源的具體情況,及時(shí)了解各專業(yè)及學(xué)科信息需求,忽略了用戶檔案在圖書館中作用,影響到圖書館信息資源的建設(shè)與發(fā)展。
2.2 用戶檔案服務(wù)意識(shí)的差異性。圖書館服務(wù)的核心是用戶,主要包含服務(wù)內(nèi)容、服務(wù)模式及服務(wù)空間等,滿足用戶對(duì)信息的需求是根本。隨著高校圖書館的擴(kuò)建和服務(wù)提升,多數(shù)高校圖書館注重強(qiáng)調(diào)服務(wù)態(tài)度、服務(wù)設(shè)施、服務(wù)環(huán)境,在實(shí)質(zhì)性的服務(wù)內(nèi)容、服務(wù)方式及服務(wù)模式上很難觸及。用戶檔案信息服務(wù)是一種新型的服務(wù)方式,需要在人力資源、技術(shù)、設(shè)備等方面的整合,需要學(xué)科館員和館員相結(jié)合,在信息資源的利用深度和廣度上進(jìn)行提升。由于受傳統(tǒng)服務(wù)方式的影響,用戶檔案服務(wù)意識(shí)服務(wù)觀念差異大。
2.3 檔案管理人員結(jié)構(gòu)層次不齊。圖書館人力資源知識(shí)結(jié)構(gòu)、年齡結(jié)構(gòu)、職稱結(jié)構(gòu)是保持圖書館事業(yè)蓬勃發(fā)展的基礎(chǔ)。當(dāng)前高校圖書館館員知識(shí)結(jié)構(gòu)層次不齊,圖書資料專業(yè)、學(xué)科專業(yè)館員數(shù)量少,尤其是檔案專業(yè)人員少或者空缺,館員學(xué)歷水平從??频窖芯可鷧⒉畈积R,工作崗位和內(nèi)容與所學(xué)專業(yè)相差甚遠(yuǎn),導(dǎo)致圖書館用戶檔案建立機(jī)制不健全,使得用戶檔案信息資源閑置。用戶檔案信息的應(yīng)用
3.1 國(guó)內(nèi)圖書館用戶檔案研究文獻(xiàn)調(diào)查。采用文獻(xiàn)計(jì)量法對(duì)我國(guó)圖書館用戶檔案研究相關(guān)文獻(xiàn)進(jìn)行調(diào)查,從論文分布、期刊情況、基金支持情況等,闡述我國(guó)圖書館用戶(讀者)檔案信息應(yīng)用與發(fā)展趨勢(shì)。文獻(xiàn)統(tǒng)計(jì)來源于中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫,以篇名“圖書館”為檢索詞一次檢索,分別以篇名“用戶檔案”、“讀者檔案”為檢索詞二次檢索,共得到25條文摘數(shù)據(jù)。
從文獻(xiàn)分布時(shí)間和數(shù)量上看,2001年~2014年14年間關(guān)于用戶或讀者檔案文獻(xiàn)研究數(shù)量少,整體上隨著時(shí)間逐年有所增加。24篇分布在期刊上,7篇文章發(fā)表在中文核心期刊,2篇文章發(fā)表在一級(jí)學(xué)報(bào),其他發(fā)表在學(xué)報(bào)、科技信息、檔案等期刊上。24篇文章有2篇是廳級(jí)課題基金項(xiàng)目,一篇是碩士論文。從文獻(xiàn)的數(shù)量、期刊統(tǒng)計(jì)及基金項(xiàng)目方面看,圖書館用戶檔案信息已經(jīng)進(jìn)入圖書館服務(wù)的視野,用戶檔案服務(wù)理論體系逐步將成為學(xué)者的研究對(duì)象,還需要更多的圖書館去深入地研究和實(shí)踐應(yīng)用。
3.2 用戶檔案信息在實(shí)踐中的應(yīng)用。用戶檔案信息在實(shí)踐中應(yīng)用比較多,包括自動(dòng)化服務(wù)體系、參考咨詢服務(wù)、個(gè)性化服務(wù)、重點(diǎn)用戶服務(wù)體系等。自動(dòng)化服務(wù)體系最常用的智慧2000數(shù)字圖書館,利用“一卡通”信息服務(wù)技術(shù),用戶通過“一卡通”享受所有成員館的數(shù)字文獻(xiàn)服務(wù)、數(shù)字信息資源及其他文獻(xiàn)信息服務(wù)。
參考咨詢服務(wù)及個(gè)性化服務(wù)是高校圖書館常見的服務(wù)項(xiàng)目,主要針對(duì)某些專家、學(xué)者、專業(yè)教師等用戶,根據(jù)群體用戶的專業(yè)特征,向用戶適時(shí)地提供專業(yè)前沿信息,主要包括專業(yè)研究動(dòng)態(tài)和發(fā)展方向、技術(shù)研究、科研成果、市場(chǎng)動(dòng)態(tài),以虛擬資源信息、參考信息、科技信息專輯的形式進(jìn)行服務(wù)。
重點(diǎn)用戶、重點(diǎn)項(xiàng)目服務(wù)是圖書館開拓的新服務(wù)項(xiàng)目,根據(jù)學(xué)校重點(diǎn)專業(yè)、重點(diǎn)課題檔案信息進(jìn)行跟蹤服務(wù),服務(wù)貫穿于整個(gè)項(xiàng)目的過程當(dāng)中,讓用戶了解項(xiàng)目的前沿信息和文獻(xiàn)資源信息,提高用戶的工作效率。
另外,用戶滿意度分析、用戶利用信息統(tǒng)計(jì)分析等都要按照用戶檔案信息進(jìn)行分類,研究不同專業(yè)、年級(jí)、群體對(duì)信息需求狀況,然后根據(jù)信息反饋,及時(shí)地調(diào)整和完善圖書館的信息資源建設(shè),提高圖書館館員的服務(wù)質(zhì)量。提高圖書館用戶檔案信息應(yīng)用的基本措施
4.1 建立用戶檔案管理意識(shí)。用戶檔案信息在高校圖書館服務(wù)中已有所體現(xiàn),但是處于一種靜態(tài)的管理,還沒有作為一種常規(guī)性的服務(wù)工作,缺乏普遍性的應(yīng)用。圖書館用戶檔案信息服務(wù)需要考慮到所有用戶的信息需求,需要從學(xué)校管理層到圖書館館員都要意識(shí)到用戶檔案信息的必要性和重要性。牢固樹立以用戶為中心的管理理念,認(rèn)識(shí)到用戶檔案在圖書館服務(wù)工作中的基礎(chǔ)作用。通過用戶檔案信息進(jìn)行逐級(jí)、分層的信息服務(wù),避免信息推送的盲目性、無序性,有利于圖書館學(xué)科館員工作科學(xué)化,有助于圖書館特色資源館建設(shè),有助于提升圖書館在用戶中的影響力,增加圖書館的核心競(jìng)爭(zhēng)力。
4.2 建立用戶檔案信息管理體系。建立科學(xué)化、規(guī)范化的用戶檔案管理體系,形成圖書館用戶檔案管理制度和管理規(guī)程,是完善圖書館用戶檔案信息的基本保障,也是促進(jìn)數(shù)字化圖書館發(fā)展的基礎(chǔ)條件。用戶檔案信息包括用戶的基本信息、用戶特征、用戶信息反饋及評(píng)價(jià)等,通過對(duì)用戶檔案行為信息的動(dòng)態(tài)跟蹤與統(tǒng)計(jì),從零星的雜亂無章的行為中分析用戶的信息軌跡,了解用戶信息需求的基本特征。
4.3 提高檔案管理人員的素質(zhì)水平。用戶檔案承載了圖書館的歷史,在圖書館技術(shù)創(chuàng)新與知識(shí)儲(chǔ)備中起到了決策作用,把圖書館用戶檔案從保管轉(zhuǎn)變到利用和開發(fā)上,需要專業(yè)水平的檔案管理人員付出辛勤的勞動(dòng)和智慧。把知識(shí)管理融入圖書館人力資源體系中,不斷地挖掘檔案管理人員的聰明才智,通過用戶檔案信息行為大數(shù)據(jù),發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的信息,并研究數(shù)據(jù)存在的價(jià)值信息,研發(fā)出用戶行為數(shù)據(jù)增值的職能挖掘系統(tǒng)。
4.4 建立圖書館用戶檔案信息監(jiān)督機(jī)制,保護(hù)用戶的權(quán)利。用戶檔案信息在圖書館利用中有很多益處,同時(shí)也會(huì)給用戶帶來一些侵權(quán)行為,需要建立相應(yīng)的保護(hù)措施。首先是建立健全用戶檔案信息監(jiān)督機(jī)制及反饋機(jī)制體系,促進(jìn)檔案人員服務(wù)新模式的構(gòu)建,使圖書館的潛在用戶變?yōu)楝F(xiàn)實(shí)用戶,體現(xiàn)“以人為本”的服務(wù)理念;其次是建立健全用戶檔案信息及知識(shí)產(chǎn)權(quán)的保障機(jī)制,逐層逐級(jí)設(shè)立隱私權(quán)限,有利于檔案用戶和圖書館之間的信息溝通,有利于圖書館信息服務(wù)的動(dòng)態(tài)跟蹤,保護(hù)用戶知識(shí)產(chǎn)權(quán)的安全性,避免在信息服務(wù)中造成不必要的麻煩和損失。
(作者單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院 來稿日期:2015-02-18)


文檔為doc格式
聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。
高校圖書館工作計(jì)劃
篇一:學(xué)校圖書室工作計(jì)劃 學(xué)校圖書室工作計(jì)劃 校圖書室的主要功能是為教師的教學(xué)和學(xué)生的學(xué)習(xí)服務(wù)的,為了更好的發(fā)揮圖書室的服務(wù)功能,使圖書室成為教師教學(xué)、學(xué)生學(xué)習(xí)的好......
高校圖書館工作總結(jié)
篇一:高校圖書館工作總結(jié) 1. 研究會(huì)組織工作(1)研究會(huì)換屆 20xx年2月23-24日,召開了北京高校圖書館期刊工作研究會(huì)換屆暨學(xué)術(shù)研討會(huì)。會(huì)議對(duì)上屆研究會(huì)工作進(jìn)行總結(jié),對(duì)北京高校......
對(duì)高校圖書館信息資源共享的再思考
對(duì)高校圖書館信息資源共享的再思考【摘 要】高校圖書館信息資源共享成效不佳,首當(dāng)其沖的問題是認(rèn)識(shí)不足,概念不清。要科學(xué)全面地解讀《圖書館合作與信息資源共享武漢宣言》,把......
民族高校圖書館讀者服務(wù)與創(chuàng)新之探索
民族高校圖書館讀者服務(wù)與創(chuàng)新之探索 邵鳳君 摘要: 民族高校圖書館的讀者服務(wù)工作是圖書館生存和發(fā)展的基礎(chǔ),如何更好的為讀者服務(wù),發(fā)揮民族高校圖書館的優(yōu)勢(shì),是圖書館工作者的......
高校圖書館工作計(jì)劃(最終五篇)
圖書館,是搜集、整理、收藏圖書資料以供人閱覽、參考的機(jī)構(gòu),早在公元前3000年就出現(xiàn)了圖書館,圖書館有保存人類文化遺產(chǎn)、開發(fā)信息資源、參與社會(huì)教育等職能。以下是小編為大家......
教育部高校圖書館館長(zhǎng)
第三屆教育部高校圖工委各工作組成員名單 信息素質(zhì)教育工作組(8人) 召集人:薛芳渝(清華大學(xué))、沙勇忠(蘭州大學(xué)) 成員:黃家發(fā)(湖北大學(xué))、鄭章飛(湖南大學(xué))、劉萬國(guó)(東北師大)、薛芳渝(清華......
高校圖書館調(diào)研報(bào)告
圖書館調(diào)研報(bào)告建筑1004班11號(hào)李明 調(diào)研時(shí)間:2012.11.13——2012.11.15 調(diào)研方式:實(shí)地調(diào)研、網(wǎng)絡(luò)查閱資料 調(diào)研地點(diǎn):南京工業(yè)大學(xué)逸夫圖書館 南京審計(jì)學(xué)院圖書館 南京圖書館......
2015年高校圖書館工作總結(jié)
一、政治思想方面 1、本人能堅(jiān)持四項(xiàng)基本原則,服從學(xué)校黨委、行政的領(lǐng)導(dǎo),思想上、政治上始終與黨中央保持一致。積極參加政治學(xué)習(xí)、中層干部理論學(xué)習(xí),認(rèn)真學(xué)習(xí)江澤民同志“七一......