第一篇:WEB全文信息檢索技術(shù)
WEB全文信息檢索技術(shù)
摘要:本文探索了在INTERNET網(wǎng)上實(shí)現(xiàn)全文檢索的技術(shù)。計(jì)論了從網(wǎng)上信息的標(biāo)引、分類等預(yù)處理到組織信息檢索的過程,并就智能檢索技術(shù)的發(fā)展進(jìn)行了闡述。關(guān)鍵詞:信息檢索 因特網(wǎng) 全文檢索
一、前言
Internet網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡(luò),它將政府、學(xué)校、圖書館、商務(wù)場(chǎng)所、研究機(jī)構(gòu)和其它組織中的局域網(wǎng)(LAN)集成為一個(gè)單一的、龐大的、跨越全球的通訊網(wǎng)絡(luò)。越來越多的人們利用這一網(wǎng)絡(luò)與世界各地的人進(jìn)行交流。如何利用Internet網(wǎng)獲取有價(jià)值的信息,已成為科研人員必備的一項(xiàng)基本技能。
因特網(wǎng)是一個(gè)開放型的巨大的信息資源庫(kù),擁有上千萬臺(tái)以上的主機(jī)和過億的用戶;并且由于因特網(wǎng)信息蘊(yùn)含的無限豐富,信息組織、表達(dá)的直觀、生動(dòng)以及信息服務(wù)的方便性和多樣性,愈來愈多的信息搜索者被其獨(dú)特的魅力所吸引。而在近幾年,因特網(wǎng)用戶的數(shù)量更是成倍地增長(zhǎng)。可見,因特網(wǎng)檢索已成為實(shí)際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。
二、概述
網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專業(yè)性不強(qiáng)等特點(diǎn),給情報(bào)搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報(bào)科學(xué)研究者所關(guān)注的熱點(diǎn)。全文信息檢索就是概據(jù)Internet信息的特點(diǎn)而發(fā)展起來的一種檢索方式。它主要指研究對(duì)整個(gè)文檔信息的表示,存儲(chǔ)、組織和訪問,即根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫(kù)中檢索出相關(guān)信息資料。
全文檢索的中心環(huán)節(jié)是文件內(nèi)容表達(dá)、信息查詢的獲得以及相關(guān)信息的匹配。一個(gè)好的全文信息檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該能夠根據(jù)用戶的意圖、興趣和特點(diǎn)自適應(yīng)和智能化地調(diào)整匹配機(jī)制,獲得用戶滿意的檢索輸出。
要實(shí)現(xiàn)全文檢索,首先必須對(duì)WEB信息進(jìn)行預(yù)處理。
三、WEB信息的預(yù)處理
信息預(yù)處理的主要功能是過濾文件系統(tǒng)信息,為文件系統(tǒng)的表達(dá)提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預(yù)處理應(yīng)該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語(yǔ)詞切分:語(yǔ)詞是信息表達(dá)的最小單位,而漢語(yǔ)不同于西方語(yǔ)言,其句子的語(yǔ)詞間沒有分隔符因此需要進(jìn)行語(yǔ)詞切分。常用的語(yǔ)詞切分方法有按詞典進(jìn)行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想-回溯法、全自動(dòng)詞典切詞等。近年來,又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專家系統(tǒng)的分詞方法和基于統(tǒng)計(jì)和頻度分析的分詞方法。
(3)詞法分析:漢語(yǔ)語(yǔ)詞切分中存在切分歧異,如句子“網(wǎng)球拍賣完了”,可以切分為“網(wǎng)球/拍賣完了”,也可以切分為“網(wǎng)球拍/賣完了”。因此需要利用各種上下文知識(shí)解決語(yǔ)詞切分歧異。此外,還需要對(duì)語(yǔ)詞進(jìn)行詞法分析,識(shí)別出各個(gè)語(yǔ)詞的詞干,以便根據(jù)詞干建立信息索引。對(duì)于英語(yǔ)語(yǔ)詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。
(4)詞性標(biāo)注和短語(yǔ)識(shí)別:在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計(jì)的方法進(jìn)行詞性標(biāo)注。在此基礎(chǔ)上,還要利用各種語(yǔ)法規(guī)則,識(shí)別出重要的短語(yǔ)結(jié)構(gòu)。
(5)自動(dòng)標(biāo)引:從網(wǎng)頁(yè)文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該組信息對(duì)文文件進(jìn)行標(biāo)引,使用戶可以通過輸入關(guān)鍵信息檢索到該文文件的簡(jiǎn)要信息,如標(biāo)題、摘要、時(shí)間、作者和URL等,進(jìn)一步點(diǎn)擊可查詢到該文 1 檔.
(6)自動(dòng)分類:建立并維護(hù)一套完整的分類目錄體系,根據(jù)文文件的信息特征,計(jì)算出與其相關(guān)程度最大的一個(gè)或多個(gè)分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.
.
四、檢索
檢索包括文件信息表達(dá)和查詢信息表達(dá)以及相關(guān)信息預(yù)測(cè)過程。
(1)信息表達(dá):信息的表達(dá)有多種方式,如布爾表達(dá)、矢量空間表達(dá)、自然語(yǔ)言表達(dá)等,每種表達(dá)方式由應(yīng)用系統(tǒng)服務(wù)者提出并由整個(gè)應(yīng)用系統(tǒng)的目的和需求所決定,并對(duì)應(yīng)于相應(yīng)的存儲(chǔ)模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲(chǔ)的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。
(2)查詢分析:用戶端的查詢信息首先要進(jìn)行分析處理,提取出查詢項(xiàng)索引、邏輯表達(dá)式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時(shí)地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索和獲取預(yù)先生成的本地索引。查詢索引和文件索引采取同樣的表達(dá)方式,因此能夠采取相似性估計(jì)算法檢索出相關(guān)文件。
(3)查詢擴(kuò)展:近年來,為了提高信息檢索的性能,將應(yīng)用領(lǐng)域知識(shí)和索引、相關(guān)性、估計(jì)、查詢表達(dá)相結(jié)合實(shí)現(xiàn)查詢擴(kuò)展,即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢?cè)~部分。典型的知識(shí)庫(kù)查詢擴(kuò)展應(yīng)用如圖1所示,知識(shí)庫(kù)中存儲(chǔ)的知識(shí)為原始查詢?cè)鎏砹讼嚓P(guān)詞,從而擴(kuò)展了原始查詢。
(4)查詢?cè)~的選擇策略:
·非獨(dú)立詞:非獨(dú)立詞指的是和查詢?cè)~具有較大相關(guān)性的詞。但是預(yù)先必須計(jì)算文件集合中的所有詞之間的相關(guān)性。
·反饋詞:根據(jù)用戶反饋的文件信息,按照在相關(guān)文件和非相關(guān)文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢?cè)~。
反饋網(wǎng)絡(luò)屬于人機(jī)交互范疇,目的在于提高查詢性能和針對(duì)性。不同的用戶根據(jù)實(shí)際情況提供不同的反饋信息,不同的信息檢索服務(wù)系統(tǒng)按照其功能與檢索方法也有不同的反饋結(jié)構(gòu)和交互方式,因此查詢結(jié)果也不盡相同。
(5)信息檢索模型:信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復(fù)雜信息中,篩選出符合用戶需要的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡(jiǎn)單的檢索模型,也是其他檢索模型的基礎(chǔ)。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,即一系列對(duì)應(yīng)于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時(shí)也包括一些更為復(fù)雜的特征,如數(shù)據(jù)、短語(yǔ)、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達(dá)集合。用戶可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系遞交查詢。匹配函數(shù)由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關(guān),或者與查詢無關(guān)。查詢結(jié)果一般不進(jìn)行相關(guān)性排序。
模糊邏輯模型為了處理精度和復(fù)雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為[0,1]的模糊邏輯為基礎(chǔ)的,以隸屬函數(shù)概念來描述現(xiàn)象差異的中間過渡。在查詢結(jié)果處理過程中引入模糊邏輯運(yùn)算,將所檢索的文件信息和用戶的查詢要求進(jìn)行模糊邏輯比較,按照相關(guān)性的優(yōu)先次序排出查詢結(jié)果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結(jié)果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢?cè)~和文件的內(nèi)部結(jié)構(gòu)聯(lián)系,通過歐幾里德距離和余弦法則作相似性比較,根據(jù)矢量空間的相似性,排列查詢結(jié)果。矢量空間模型不僅可以方便地產(chǎn)生有效的查詢結(jié)果,而且能夠提供查詢結(jié)果分類,為用戶提供準(zhǔn)確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對(duì)查詢本身來說,它不能唯一地表示信息需求,對(duì)于結(jié)果來說,定查詢結(jié)果的正確與否。對(duì)于布爾檢索也是如此,因?yàn)椴樵兊奶峤槐旧砭褪且环N不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基于概率排隊(duì)理論:當(dāng)文件按相關(guān)概率遞減原則排列時(shí)可以獲得最大的檢索性能。
五、全文信息檢索技術(shù)的發(fā)展
目前的全文檢索技術(shù)還存在著一些未盡人意的結(jié)果,主要是通常的信息檢索系統(tǒng)性能較低,原因是將孤立詞和詞匯術(shù)語(yǔ)作為查詢描述子,因而文件內(nèi)容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結(jié)合的產(chǎn)物。它能使信息檢索系統(tǒng)“理解”用戶的信息需要和文件包含的信息內(nèi)容。它在對(duì)內(nèi)容的分析理解、內(nèi)容表達(dá)、知識(shí)學(xué)習(xí)、推理機(jī)制,決策等基礎(chǔ)上實(shí)現(xiàn)檢索的智能化。
目前人工智能和信息檢索的結(jié)合主要包括三方面:(1)信息檢索和專家系統(tǒng):主要研究方向是開發(fā)一個(gè)專家中介系統(tǒng)來協(xié)助查詢形成、搜索策略選擇以及預(yù)測(cè)檢索文件;(2)信息檢索和自然語(yǔ)言處理:它實(shí)際上是以字或詞為符號(hào)的一種符號(hào)系統(tǒng)。目前自然語(yǔ)言處理對(duì)信息檢索的應(yīng)用仍停留在簡(jiǎn)單語(yǔ)言處理上,例如確認(rèn)詞根和詞組等。(3)信息檢索和知識(shí)表達(dá):此領(lǐng)域的研究主要是通過應(yīng)用領(lǐng)域知識(shí)來理解文件和查詢的信息內(nèi)容。
目前,雖然某些在WWW上的信息檢索服務(wù)系統(tǒng)采取了智能用戶代理的等方式,可以根據(jù)用戶事先定義的信息檢索要求,在網(wǎng)絡(luò)上實(shí)時(shí)監(jiān)視信息源,如指定Web頁(yè)面的更新、網(wǎng)絡(luò)新聞、電子郵件等,并將用戶所需的信息通過電子郵件等方式,主動(dòng)提供給用戶,減少用戶檢索信息的時(shí)間。但是商用信息檢索系統(tǒng)仍主要以布爾模糊邏輯為主,輔以部分自然語(yǔ)言的處理。智能化信息檢索技術(shù)的發(fā)展,特別是知識(shí)學(xué)習(xí)和知識(shí)庫(kù)以及人機(jī)交互方式的應(yīng)用,將大大提高信息檢索服務(wù)系統(tǒng)的精度和相關(guān)性。隨著智能化技術(shù)的發(fā)展,全文信息檢索技術(shù)必將更廣泛地應(yīng)用于網(wǎng)上信息檢索領(lǐng)域。附:參考文獻(xiàn)
1)、004km.cnposed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.
第二篇:信息檢索技術(shù)論文
近年來,計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!
信息檢索技術(shù)論文
[摘要]通過對(duì)近年來計(jì)算機(jī)科學(xué)、人工智能、專利文獻(xiàn)加工等領(lǐng)域的發(fā)展進(jìn)行總結(jié),從多語(yǔ)言混合檢索、分類檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專利文獻(xiàn)計(jì)算機(jī)檢索技術(shù)的最新發(fā)展。機(jī)器翻譯技術(shù)和多邊共同分類體系的完善有助于提高計(jì)算機(jī)檢索效率、消除語(yǔ)言障礙,而語(yǔ)義檢索、圖像檢索和文獻(xiàn)自動(dòng)處理技術(shù)的發(fā)展有望使面向不同層次用戶的計(jì)算機(jī)智能化檢索系統(tǒng)得以實(shí)現(xiàn)。
[關(guān)鍵詞]專利文獻(xiàn) 計(jì)算機(jī)檢索 語(yǔ)義檢索 圖像檢索
1、前言
近年來,計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展,專利文獻(xiàn)的計(jì)算機(jī)檢索技術(shù)正成為情報(bào)檢索領(lǐng)域研究的熱點(diǎn)。下文擬從多語(yǔ)言混合檢索、分類檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專利文獻(xiàn)計(jì)算機(jī)檢索技術(shù)的最新發(fā)展。
2、多語(yǔ)言混合檢索
專利文獻(xiàn)是由各國(guó)、各地區(qū)專利局或世界知識(shí)產(chǎn)權(quán)局出版的官方文獻(xiàn),因此一般以各局官方語(yǔ)言出版。雖然大部分專利文獻(xiàn)是英語(yǔ)文獻(xiàn),但是仍然存在大量日文、中文、德文、法文及其他語(yǔ)種的文獻(xiàn)。出版語(yǔ)言的多樣性給專利文獻(xiàn)的檢索和利用帶來了極大的障礙,要實(shí)現(xiàn)多語(yǔ)言混合檢索,機(jī)器翻譯是必不可少的技術(shù)。目前一些專利局在其上推出了機(jī)器翻譯系統(tǒng),例如我國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局提供有漢英機(jī)器翻譯,日本特許廳提供有日英機(jī)器翻譯,韓國(guó)知識(shí)產(chǎn)權(quán)局提供有韓英機(jī)器翻譯等,上述網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)對(duì)其他國(guó)家的用戶閱讀方便和使用本國(guó)專利文獻(xiàn)起到了幫助作用。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器翻譯的技術(shù)也迅速發(fā)展,從傳統(tǒng)的基于規(guī)則的機(jī)器翻譯擴(kuò)展到了基于實(shí)例或模版的機(jī)器翻譯、統(tǒng)計(jì)機(jī)器翻譯等。尤其是近年來語(yǔ)言學(xué)和人工智能技術(shù)的發(fā)展,以語(yǔ)義描述或以知識(shí)描述為特征的智能機(jī)器翻譯系統(tǒng)正逐步成為研究的熱點(diǎn)。專利文獻(xiàn)作為一種特殊的科技文獻(xiàn),由于其具有特定的句法和語(yǔ)言結(jié)構(gòu),同時(shí)例如權(quán)利要求書等具有法律公示性文件的作用,這對(duì)翻譯的準(zhǔn)確性提出了更高的要求,已有研究者通過在機(jī)器翻譯系統(tǒng)內(nèi)集成多個(gè)翻譯引擎、對(duì)不同特點(diǎn)的內(nèi)容使用不同引擎翻譯的方式來提高翻譯質(zhì)量。
已有的機(jī)器翻譯系統(tǒng)基本局限于單篇文獻(xiàn)的機(jī)器翻譯,無法實(shí)現(xiàn)真正的多語(yǔ)言混合檢索。多語(yǔ)言混合檢索系統(tǒng)不僅可以允許混合語(yǔ)言的檢索式,而且同一個(gè)檢索式還可以對(duì)不同語(yǔ)言的專利文獻(xiàn)進(jìn)行檢索,其實(shí)現(xiàn)方式主要有如下三種:翻譯檢索式、翻譯文獻(xiàn)或者兩者相結(jié)合的混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語(yǔ)境,翻譯難度較大;翻譯文獻(xiàn)的方式雖然有利于提高翻譯質(zhì)量,進(jìn)而有利于文獻(xiàn)檢索,但存在的主要問題是翻譯量太大、翻譯時(shí)間長(zhǎng)。
3、分類檢索
分類號(hào)一直是專利文獻(xiàn)檢索的重要手段。目前除了基本涵蓋各國(guó)專利文獻(xiàn)的國(guó)際專利分類(IPC)之外,美國(guó)專利商標(biāo)局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標(biāo)準(zhǔn)不統(tǒng)一、分類條目不夠完備、文獻(xiàn)分類更新不及時(shí)等缺陷,導(dǎo)致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國(guó)和日本的專利文獻(xiàn),ECLA雖然能夠檢索到多國(guó)的文獻(xiàn),但仍然不能有效地檢索日本、韓國(guó)、中國(guó)等國(guó)的專利文獻(xiàn)。
為改善這種局面,美國(guó)、日本和歐洲自2000年即開始了“三邊分類和諧計(jì)劃”,該計(jì)劃旨在推進(jìn)ECLA、UC和FI三個(gè)分類體系的融合以增強(qiáng)分類號(hào)檢索的功能,同時(shí)對(duì)現(xiàn)有IPC分類體系提出改進(jìn)建議。依據(jù)2009年召開的第27次三邊會(huì)議,韓國(guó)知識(shí)產(chǎn)權(quán)局已經(jīng)加入上述計(jì)劃,而中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局也以觀察國(guó)的身份參與這項(xiàng)工作。此外,近年來美國(guó)專利商標(biāo)局、日本特許廳、歐洲專利局、韓國(guó)知識(shí)產(chǎn)權(quán)局和中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局五局積極開展合作,其中一個(gè)重要的合作項(xiàng)目是“共同的分類”。該項(xiàng)目的實(shí)施將有利于提高分類的一致性,擴(kuò)展或細(xì)化部分技術(shù)領(lǐng)域的分類,進(jìn)而提高檢索的效率和質(zhì)量。
不管是美日歐三方開展的“三邊分類和諧計(jì)劃”,還是五局共同開展的“共同的分類”項(xiàng)目,都必將推進(jìn)專利文獻(xiàn)分類體系的進(jìn)一步發(fā)展,實(shí)現(xiàn)真正意義上的“基于檢索的分類”,進(jìn)一步增強(qiáng)分類號(hào)在專利文獻(xiàn)計(jì)算機(jī)檢索中的作用。
4、語(yǔ)義檢索
當(dāng)前專利文獻(xiàn)檢索的主要手段為關(guān)鍵詞和分類號(hào)檢索,而由于一詞多義、一義多詞,專利文獻(xiàn)撰寫、加工和翻譯質(zhì)量不一以及關(guān)鍵詞的機(jī)械匹配等問題,本質(zhì)上決定了其查全率和查準(zhǔn)率受限制。隨著計(jì)算技術(shù)、人工智能、自然語(yǔ)言處理等技術(shù)的發(fā)展,搜索引擎的智能化有望從根本上提高現(xiàn)有檢索系統(tǒng)的檢索質(zhì)量。
搜索引擎的智能化具體表現(xiàn)為語(yǔ)義檢索,也稱為知識(shí)檢索或概念檢索。語(yǔ)義檢索是對(duì)檢索條件、信息組織及檢索結(jié)果顯示賦予一定語(yǔ)義成分的一種新的檢索方式。語(yǔ)義檢索的本質(zhì)在于以語(yǔ)義為對(duì)象進(jìn)行搜索,而不是對(duì)字符串進(jìn)行簡(jiǎn)單的機(jī)械匹配,因此可避免關(guān)鍵詞匹配檢索中由于詞和義不對(duì)應(yīng)所導(dǎo)致的問題。
語(yǔ)義檢索過程一般包括對(duì)被檢索的文檔以及輸入的檢索式進(jìn)行語(yǔ)義分析和匹配處理。這種語(yǔ)義分析處理依賴于詞匯的語(yǔ)義描述技術(shù)以及分別用于詞義鑒別和詞匯過濾的語(yǔ)義識(shí)別技術(shù)和詞匯鏈算法??梢酝ㄟ^諸如WordNet等語(yǔ)義詞典對(duì)詞匯實(shí)現(xiàn)較完備的語(yǔ)義描述,保證人和機(jī)器對(duì)詞匯的理解一致。
最新發(fā)展的潛在語(yǔ)義索引通過將文獻(xiàn)搜索過程中的向量空間模型和奇異值分解相結(jié)合,可以揭示文檔中的詞間關(guān)系,因而適于構(gòu)建專利文獻(xiàn)搜索引擎”…。利用語(yǔ)義進(jìn)行檢索還可以將專利文獻(xiàn)中的非技術(shù)性信息考慮在內(nèi),例如將特定的技術(shù)概念和申請(qǐng)人、發(fā)明人等信息進(jìn)行語(yǔ)義聯(lián)系。此外,語(yǔ)義檢索還可以從用戶角度出發(fā),考慮用戶的檢索需求,從而為諸如查新、侵權(quán)等不同目的的檢索提供相應(yīng)的結(jié)果。
近年來國(guó)內(nèi)一些開發(fā)商也紛紛提供具有語(yǔ)義檢索功能的專利文獻(xiàn)檢索系統(tǒng),例如東方靈盾開發(fā)的專利檢索系統(tǒng)和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實(shí)現(xiàn)傳統(tǒng)的關(guān)鍵詞檢索功能,還支持語(yǔ)義檢索,僅通過輸入檢索所針對(duì)的專利文獻(xiàn)號(hào),即可自動(dòng)對(duì)其進(jìn)行語(yǔ)義分析、文獻(xiàn)檢索,并對(duì)結(jié)果進(jìn)行相關(guān)度排序。當(dāng)前專利文獻(xiàn)檢索領(lǐng)域還未廣泛應(yīng)用語(yǔ)義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語(yǔ)義技術(shù)提高檢索的效率,還有望能對(duì)檢索結(jié)果進(jìn)行分析、評(píng)價(jià),甚至自動(dòng)生成檢索報(bào)告。
5、圖像檢索
根據(jù)對(duì)圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內(nèi)容的圖像檢索法(cBIR)。專利文獻(xiàn)一般都帶有大量的附圖,包括機(jī)械結(jié)構(gòu)或化學(xué)結(jié)構(gòu)式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統(tǒng)的關(guān)鍵詞檢索和分類號(hào)檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導(dǎo)致的漏檢,因此它正在成為專利文獻(xiàn)檢索領(lǐng)域的研究熱點(diǎn)。專利文獻(xiàn)的附圖都是黑白二元圖像(本文
所稱專利是指發(fā)明和實(shí)用新型專利,不包括外觀設(shè)計(jì)專利),不存在顏色和紋理等特征,因此專利文獻(xiàn)的圖像檢索主要是基于形狀和區(qū)域的圖像特征。
雖然目前還沒有成熟的專利文獻(xiàn)圖像檢索系統(tǒng),但一些研究機(jī)構(gòu)已經(jīng)開發(fā)出若干可專門用于專利文獻(xiàn)的圖像檢索原型系統(tǒng),例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對(duì)美國(guó)專利文獻(xiàn)進(jìn)行圖像檢索,而PatMedia網(wǎng)站上的試驗(yàn)系統(tǒng)僅針對(duì)歐洲專利局的專利文獻(xiàn),這兩個(gè)圖像檢索系統(tǒng)都可實(shí)現(xiàn)直接輸入待檢索的圖像,系統(tǒng)自動(dòng)進(jìn)行相似度匹配,直接提供專利附圖,同時(shí)還可以進(jìn)行基于文本的圖像檢索。
典型的專利圖像檢索系統(tǒng)包括專利文獻(xiàn)處理部分和圖像檢索部分,如圖1所示:
文獻(xiàn)處理部分又進(jìn)一步包括文獻(xiàn)預(yù)處理和視覺、文本元數(shù)據(jù)提取和索引兩部分。前者是找出文獻(xiàn)中的圖形和對(duì)應(yīng)的文字描述;后者則是進(jìn)一步進(jìn)行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語(yǔ)義特征的關(guān)鍵詞,由此分別形成索引后的圖形特征矢量庫(kù)、圖像庫(kù)、文本描述關(guān)鍵詞庫(kù)和知識(shí)庫(kù)。在圖像檢索部分,基于上述提取的元數(shù)據(jù),進(jìn)行圖像相似度匹配,同時(shí)還可以基于文本進(jìn)行圖像檢索。與一般領(lǐng)域的圖形檢索相比,由于專利文獻(xiàn)中每幅圖形一般都對(duì)應(yīng)有文字描述,即使不再進(jìn)行人工標(biāo)注或自動(dòng)標(biāo)注,都能提取到較好的高層語(yǔ)義特征,這對(duì)提高專利文獻(xiàn)圖形檢索的準(zhǔn)確性非常有幫助。
目前,專利文獻(xiàn)圖像檢索系統(tǒng)僅處于試驗(yàn)階段,只能對(duì)數(shù)量非常少的特定專利文獻(xiàn)進(jìn)行檢索,且檢索結(jié)果相關(guān)度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優(yōu)點(diǎn),相信隨著人們對(duì)專利文獻(xiàn)圖像檢索技術(shù)的進(jìn)一步研究以及語(yǔ)義檢索技術(shù)的進(jìn)一步發(fā)展,實(shí)現(xiàn)高精度的圖像檢索必將成為現(xiàn)實(shí)。
6、輔助技術(shù)
高質(zhì)量的專利文獻(xiàn)是提高檢索質(zhì)量的基礎(chǔ)。專利文獻(xiàn)分類、標(biāo)引和摘要改寫是專利文獻(xiàn)加工的主要內(nèi)容。傳統(tǒng)的專利文獻(xiàn)加工方法主要依賴于人工,其成本高且速度受限制,質(zhì)量不統(tǒng)一。隨著人工智能和計(jì)算機(jī)技術(shù)的發(fā)展,開始出現(xiàn)對(duì)專利文獻(xiàn)進(jìn)行自動(dòng)分類、自動(dòng)標(biāo)引、自動(dòng)摘要和自動(dòng)聚類。
專利文獻(xiàn)自動(dòng)分類已經(jīng)在歐洲、美國(guó)、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經(jīng)利用自然語(yǔ)言處理的相關(guān)技術(shù)實(shí)現(xiàn)了專利文獻(xiàn)的自動(dòng)初分類;對(duì)日本專利文獻(xiàn)自動(dòng)分類研究表明,對(duì)于使用K臨近算法進(jìn)行自動(dòng)分類的情況下,先將專利文獻(xiàn)按部分結(jié)構(gòu)化為語(yǔ)義單元可以提高74%的效率。
PATExpert代表了目前較先進(jìn)的專利文獻(xiàn)自動(dòng)處理技術(shù)的發(fā)展,通過基于語(yǔ)義網(wǎng)的語(yǔ)義處理技術(shù)實(shí)現(xiàn)了面向內(nèi)容的專利文獻(xiàn)自動(dòng)處理,其中的一個(gè)主要技術(shù)是利用一定的語(yǔ)義表示結(jié)構(gòu)實(shí)現(xiàn)專利文獻(xiàn)知識(shí)層面的表達(dá)。該系統(tǒng)可以執(zhí)行的處理任務(wù)包括:專利文獻(xiàn)內(nèi)容和元數(shù)據(jù)的自動(dòng)抽取;全文、圖像、相關(guān)性搜索引擎;專利文獻(xiàn)的自動(dòng)分類和聚類;面向多語(yǔ)言的輔助理解工具;專利價(jià)值自動(dòng)評(píng)估等。
國(guó)內(nèi)有一些研究機(jī)構(gòu)開展了大量的基于IPC體系的專利文獻(xiàn)自動(dòng)分類的研究,這些研究大部分集中在統(tǒng)計(jì)分類技術(shù)。近年來隨著人工智能技術(shù)的興起,基于人工智能或語(yǔ)義的專利文獻(xiàn)自動(dòng)分類發(fā)展迅速,例如上文提到的Patentics試驗(yàn)系統(tǒng)也開始嘗試對(duì)專利文獻(xiàn)進(jìn)行自動(dòng)分類。
中文專利文獻(xiàn)的自動(dòng)處理仍處于研究階段,雖然國(guó)外專利文獻(xiàn)自動(dòng)處理已經(jīng)積累了許多寶貴經(jīng)驗(yàn),但由于中文表述的特殊性,許多技術(shù)還待消化和開發(fā),例如漢語(yǔ)詞匯之間的分詞技術(shù)是制約自動(dòng)標(biāo)引質(zhì)量的一個(gè)障礙。隨著信息處理自動(dòng)化相關(guān)技術(shù)的發(fā)展,專利文獻(xiàn)的自動(dòng)分類、自動(dòng)標(biāo)引、自動(dòng)聚類和自動(dòng)摘要正在逐步由半自動(dòng)走向全自動(dòng)化,這給搜索引擎的發(fā)展帶來了極大的便利。同時(shí),利用語(yǔ)義技術(shù)實(shí)現(xiàn)基于內(nèi)容的自動(dòng)處理將是未來的發(fā)展主流,也是提高專利文獻(xiàn)自動(dòng)處理質(zhì)量的主要手段。
7、結(jié)語(yǔ)
專利文獻(xiàn)計(jì)算機(jī)檢索是一個(gè)涉及了多學(xué)科的研究領(lǐng)域,其中以語(yǔ)義檢索為核心的技術(shù)推動(dòng)了搜索引擎、機(jī)器翻譯、圖像檢索等相關(guān)技術(shù)的發(fā)展,而由于專利文獻(xiàn)的特殊性,分類體系和文獻(xiàn)自動(dòng)處理技術(shù)也在其中占據(jù)了重要地位。隨著研究的進(jìn)一步深入,現(xiàn)存的語(yǔ)言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動(dòng)檢索系統(tǒng)便利地實(shí)現(xiàn)專業(yè)化檢索。
第三篇:當(dāng)代信息檢索技術(shù)實(shí)習(xí)報(bào)告
0
《當(dāng)代信息檢索技術(shù)》
實(shí)習(xí)報(bào)告
學(xué)院:教育學(xué)院 班級(jí):2012級(jí)7班 姓名:王靜宜
學(xué)號(hào):201201440721
一、簡(jiǎn)答題
1、布爾邏輯運(yùn)算符有幾種?其定義與功能分別是什么?
布爾邏輯運(yùn)算符有三種,分別是邏輯“與”AND,邏輯“或”O(jiān)R,邏輯“非”NOT。
定義:A AND B:檢索詞A和檢索詞B同時(shí)出現(xiàn)在一條記錄中。A OR B:記錄中出現(xiàn)檢索詞A或檢索詞B或兩詞同時(shí)出現(xiàn)在一條記錄中。適用于連接具有并列關(guān)系或同義關(guān)系的詞。A NOT B:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻(xiàn)中去除含有B檢索詞的文獻(xiàn)。
功能:AND的功能是縮小檢索范圍,提高查準(zhǔn)率;OR的功能是擴(kuò)大檢索范圍,提高查全率;NOT的功能是縮小檢索范圍,提高查準(zhǔn)率。
2、什么時(shí)候適用于截詞檢索?
截詞檢索主要用于檢索詞的單復(fù)數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。尤其在英語(yǔ)中檢索詞詞干相同、詞義相近,但詞尾或詞中間有變化時(shí)(多數(shù)英語(yǔ)單詞的單復(fù)數(shù)變化和英美不同拼寫形式),可以采用截詞符,或稱通配符擴(kuò)展檢索詞。截詞檢索可以擴(kuò)大檢索結(jié)果。
3、在機(jī)檢中可以使用什么辦法提高檢索結(jié)果的查準(zhǔn)率?
(1)提高檢索詞的專指度,增加或換用下位詞和專指性較強(qiáng)的自由詞;(2)增加概念組面,用AND連接相關(guān)檢索項(xiàng);
(3)限制檢索詞出現(xiàn)的可檢字段,如限定在篇名和敘詞字段中檢索;(4)用位置算符控制檢索詞的詞間順序與位置;
(5)利用限制符、前綴符限制文獻(xiàn)的外表特征,如文獻(xiàn)類型、出版年代、語(yǔ)種、作者等;(6)用邏輯非NOT來排除一些無關(guān)的檢索項(xiàng);(7)進(jìn)行加權(quán)檢索,從定量角度加以控制。
4、在信息檢索的實(shí)際過程中,如果需要擴(kuò)大檢索范圍時(shí),如何調(diào)整檢索策略?
(1)檢查檢索名詞的拼寫是否有誤;(2)增加檢索名詞的普遍性——查閱工具如詞表,字典, 分類表及字匯表。(3)減少使用邏輯“與”,丟掉一些次要的或者太專指的概念;(4)使用邏輯“或”連接同義詞及相關(guān)詞,或采用分類號(hào)檢索,增加網(wǎng)羅度;(5)增加被檢索的數(shù)據(jù)庫(kù)調(diào)整位置算符,由嚴(yán)變松,取消某些過嚴(yán)的限制符,如字段限制符、位置算符限制(或者改用限制程度較小的位置算符)(6)在詞干相同的單詞后使用截詞
5、核心期刊的特點(diǎn)是什么?核心期刊的判定標(biāo)準(zhǔn)是什么?與你專業(yè)相關(guān)的核心期刊有哪些(請(qǐng)列舉5種)
核心期刊的特點(diǎn)是集中性、代表性、學(xué)科性、權(quán)威性、層次性、相對(duì)性、動(dòng)態(tài)性;核心期刊的判定標(biāo)準(zhǔn)是刊載論文數(shù)量多、品質(zhì)高,而且能反應(yīng)出該學(xué)科最新研究成果及發(fā)展趨勢(shì),受到讀者重視之學(xué)術(shù)期刊;與我專業(yè)相關(guān)的核心期刊有:《學(xué)前教育研究》 《外國(guó)教育研究》 《教育評(píng)論》 《教育研究》 《心理發(fā)展與教育》
二、自選教育學(xué)專業(yè)任意研究課題,使用CNKI、維普、讀秀三個(gè)檢索平臺(tái)回答以下問題:
1、你的課題名稱是什么?你確定的檢索詞、檢索式與檢索途徑是什么?
我的課題名稱是:關(guān)于幼兒入學(xué)準(zhǔn)備的研究 檢索詞:幼兒 入學(xué)準(zhǔn)備
檢索式:題名或關(guān)鍵詞=幼兒 并且 題名或關(guān)鍵詞=入學(xué)準(zhǔn)備 并且 年份=2002-2013 并且 期刊范圍=核心期刊
檢索途徑:CNKI高級(jí)檢索、維普高級(jí)檢索、讀秀高級(jí)檢索 2、2002-2013年,該課題發(fā)表于核心期刊的研究論文有哪些?分別列出文章名、作者名、發(fā)表期刊、刊載時(shí)間(至少列舉5條。需要注明該期刊是哪一類核心期刊CSCD、CA、SCI、EI、CSSCI,如該期刊同時(shí)被多個(gè)核心目錄收錄,則全部注明。如所列期刊為非核心,該題不得分)。檢索平臺(tái)一:CNKI高級(jí)檢索
1.優(yōu)質(zhì)家庭環(huán)境的特點(diǎn):對(duì)高入學(xué)準(zhǔn)備水平幼兒家長(zhǎng)的訪談研究 孫蕾;邰宇;于濤 東北師大學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2009年05期 切實(shí)提高弱勢(shì)家庭幼兒入學(xué)準(zhǔn)備水平:美國(guó)公立幼兒園項(xiàng)目及其啟示 何婷婷;王建梁 外國(guó)教育研究 2009年05期 起點(diǎn)上的差距:城鄉(xiāng)幼兒入學(xué)準(zhǔn)備水平的對(duì)比研究 “城鄉(xiāng)兒童入學(xué)準(zhǔn)備狀況比較研究”課題組;蓋笑松 學(xué)前教育研究 2008年07期 河南省城鄉(xiāng)幼兒教育現(xiàn)狀調(diào)查——兼談?dòng)變航逃搅?yáng)輝 內(nèi)蒙古師范大學(xué)學(xué)報(bào)(教育科學(xué)版)2013年08期 5 公平視域下我國(guó)城鄉(xiāng)學(xué)前教育發(fā)展差異分析 洪秀敏;羅麗 教育學(xué)報(bào) 2012年05期 中國(guó)兒童的入學(xué)準(zhǔn)備:問題分析與促進(jìn)途徑 蓋笑松;楊世君;孫蕾 東北師大學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2008年06期
檢索平臺(tái)二:重慶維普高級(jí)檢索
1題名:學(xué)前一年幼兒入學(xué)語(yǔ)言準(zhǔn)備的城鄉(xiāng)比較研究 作者:劉焱[1] 秦金亮[2] 潘月娟[1] 石曉波[3] 出處:《教育學(xué)報(bào)》 CSSCI 2012年第5期 題名:學(xué)前一年幼兒入學(xué)數(shù)學(xué)準(zhǔn)備的城鄉(xiāng)比較研究 作者:潘月娟[1] 裘指揮[2] 劉焱[1] 周雪[3] 出處:《教育學(xué)報(bào)》 CSSCI 2012年第4期 題名:做好新生入學(xué)的準(zhǔn)備工作 作者:孫娜 出處:《教學(xué)與管理:小學(xué)版》 2012年第7期 題名:美國(guó)圣保羅幼兒教育獎(jiǎng)學(xué)金項(xiàng)目述評(píng) 作者:魏登尖 賀紅風(fēng) 出處:《上海教育科研》 CSSCI 2012年第5期 題名:公辦幼兒園兒童入學(xué)語(yǔ)言準(zhǔn)備現(xiàn)狀調(diào)查——以河南省為例 作者:楊雪萍 出處:《上海教育科研》 CSSCI 2012年第5期
6題名:起點(diǎn)上的差距:城鄉(xiāng)幼兒入學(xué)準(zhǔn)備水平的對(duì)比研究 出處:《學(xué)前教育研究》 CSSCI 2008年第7期
檢索平臺(tái)三:讀秀(讀秀無法選擇核心期刊,也未作特殊標(biāo)記)
3、有關(guān)該課題的圖書有哪些?分別列出書名、著者、出版社、出版時(shí)間、ISBN號(hào)(至少列舉5條)。
1.《幼兒入學(xué)準(zhǔn)備》 【作 者】王平
【出版發(fā)行】 北京:朝華少年兒童出版社 , 2003.01 【ISBN號(hào)】7-5061-1135-7
2.《幼兒入學(xué)準(zhǔn)備 我要上小學(xué)了 智力篇》 【作 者】胡冬娟編
【出版發(fā)行】 北京:連環(huán)畫出版社 , 2006.05 【ISBN號(hào)】7-5056-0722-7
3.《幼兒入學(xué)準(zhǔn)備 我要上小學(xué)了 行為能力篇》 【作 者】胡冬娟編
【出版發(fā)行】 北京:連環(huán)畫出版社 , 2006.05 【ISBN號(hào)】7-5056-0723-5
4.《新編幼兒入學(xué)準(zhǔn)備教材 美術(shù)·手工準(zhǔn)備 下》 【作 者】許巍巍選編
【出版發(fā)行】 北京:中國(guó)少年兒童出版社 , 2003.01 【ISBN號(hào)】7-5007-6427-8
5.《新編幼兒入學(xué)準(zhǔn)備教材 學(xué)數(shù)學(xué)準(zhǔn)備 下》 【作 者】周梅林文
【出版發(fā)行】 北京:中國(guó)少年兒童出版社 , 2003.01 【ISBN號(hào)】7-5007-6423-5
6.《幼兒入學(xué)準(zhǔn)備 看圖說話 新版》 【作 者】謝軍編
【出版發(fā)行】 北京:中國(guó)少年兒童出版社 , 2014.05 【ISBN號(hào)】978-7-5148-1644-0
4、通過以上檢索結(jié)果,你認(rèn)為該研究領(lǐng)域內(nèi)的權(quán)威學(xué)者有哪些?列舉五位,選擇其中一位,檢索其在最近10年中發(fā)表于核心期刊的研究論文,分別列出文章名、發(fā)表期刊、刊載時(shí)間(至少列舉5條,如所列期刊為非核心,該題不得分)。
我認(rèn)為該研究領(lǐng)域內(nèi)的權(quán)威學(xué)者有:龐麗娟 馮曉霞 孫蕾 劉焱 蓋笑松,我選擇龐麗娟進(jìn)行檢索
對(duì)權(quán)威學(xué)者進(jìn)行檢索研究論文
1.《中國(guó)學(xué)前教育立法:思考與進(jìn)程》 龐麗娟;韓小雨 北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2010/05 2.《完善機(jī)制 落實(shí)義務(wù)教育教師績(jī)效工資政策》 龐麗娟;韓小雨;謝云麗;李琳;夏婧 教育研究 2010/04 3.《我國(guó)農(nóng)村義務(wù)教育教師隊(duì)伍建設(shè):問題及其破解》 龐麗娟;韓小雨 教育研究 2006/09 4.《“省級(jí)統(tǒng)籌 以縣為主”完善我國(guó)學(xué)前教育管理體制》 龐麗娟;范明麗 教育研究 2013/10 5.《當(dāng)前我國(guó)學(xué)前教育管理體制面臨的主要問題與挑戰(zhàn)》 龐麗娟;范明麗 教育發(fā)展研究 2012/04
5、根據(jù)以上檢索結(jié)果,你認(rèn)為該課題最近10年經(jīng)歷了怎樣的發(fā)展過程,其最新研究進(jìn)展如何?(至少500字)?
關(guān)于入學(xué)準(zhǔn)備近十年發(fā)展歷程和最新進(jìn)展
入學(xué)準(zhǔn)備一直是近些年來研究中的熱點(diǎn)問題,隨著學(xué)前教育被更多的學(xué)者關(guān)注,研究的人越來越多,而且入學(xué)準(zhǔn)備研究也將成為更重要的研究方向。關(guān)于入學(xué)準(zhǔn)備的研究主要從:概念研究、兒童個(gè)體的準(zhǔn)備、學(xué)校的準(zhǔn)備、家庭的準(zhǔn)備、社區(qū)的準(zhǔn)備、評(píng)估工具方面著手研究,此外還有學(xué)者從影響兒童入學(xué)準(zhǔn)備的因素、兒童自身的因素、家庭方面的影響因素、社區(qū)或居住環(huán)境因素進(jìn)行分析研究。關(guān)于幼兒入學(xué)準(zhǔn)備的研究仍處于探索階段, 關(guān)于幼兒入學(xué)準(zhǔn)備的概念的研究已經(jīng)比較成熟,普遍接受的是NEGP的生態(tài)化模型,即兒童個(gè)體的準(zhǔn)備、學(xué)校的準(zhǔn)備和家庭與社區(qū)的準(zhǔn)備。在評(píng)估工具方面,更多使用的是以往的單一領(lǐng)域內(nèi)容評(píng)估的工具,對(duì)家庭和學(xué)校的準(zhǔn)備狀態(tài)評(píng)估非常少。在學(xué)前干預(yù)方面,家庭收入和社會(huì)經(jīng)濟(jì)地位很大程度上決定著兒童學(xué)前教育的獲得和質(zhì)量。此外關(guān)于兒童入學(xué)準(zhǔn)備的測(cè)量工具的開發(fā)、兒童入學(xué)準(zhǔn)備影響因素,以及對(duì)入學(xué)準(zhǔn)備狀態(tài)不足的風(fēng)險(xiǎn)兒童進(jìn)行早期診斷和干預(yù)的研究則相對(duì)更是薄弱,急待研究者的進(jìn)一步研究和探索。幼兒入學(xué)準(zhǔn)備對(duì)幼兒的學(xué)習(xí)有著很大的影響,幼兒入學(xué)準(zhǔn)備這個(gè)課題會(huì)不斷受學(xué)者關(guān)注。雖然目前各國(guó)對(duì)幼兒入學(xué)準(zhǔn)備的研究不斷增加,但是中國(guó)對(duì)該課題的研究還是不太深入。
三、自擬一個(gè)任意專業(yè)領(lǐng)域研究課題,使用CNKI、維普、讀秀三個(gè)檢索平臺(tái)依次回答以
下問題。
1、你自擬的課題名稱是什么?它屬于哪個(gè)學(xué)科?中圖分類號(hào)是什么?對(duì)課題內(nèi)容作簡(jiǎn)單概述(200字以內(nèi))。
我的課題名稱是:關(guān)于紅樓夢(mèng)評(píng)論的研究 屬于:中國(guó)文學(xué) 中圖分類號(hào) I207.411 《紅樓夢(mèng)》是一部具有高度思想性和藝術(shù)性的偉大作品,成書于封建社會(huì)晚期,該書系統(tǒng)總結(jié)了中國(guó)封建社會(huì)的文化、制度,對(duì)封建社會(huì)的各個(gè)方面進(jìn)行了深刻的批判。不同的人看待《紅樓夢(mèng)》的角度和方式方法不一樣,就會(huì)有各種對(duì)紅樓夢(mèng)的評(píng)論,所謂仁者見仁智者見智,學(xué)者們對(duì)這部書都有自己獨(dú)到的見解,我們通過學(xué)者的視角我們會(huì)更加了解這一部曠世奇書,豐富自己的文化底蘊(yùn),增長(zhǎng)自己對(duì)傳統(tǒng)文化的理解。
2、檢索該課題文獻(xiàn)資料需利用哪些數(shù)據(jù)庫(kù)、搜索引擎或工具書?
數(shù)據(jù)庫(kù):CNKI、讀秀、百鏈 收索引擎:百度
工具書:CNKI工具書
3、檢索該課題文獻(xiàn)資料,你確定的檢索詞、檢索式與檢索途徑是什么?
檢索詞:紅樓夢(mèng) 評(píng)論
檢索式:題名或關(guān)鍵詞=紅樓夢(mèng) 并且 題名或關(guān)鍵詞=評(píng)論
檢索途徑:CALIS外文期刊網(wǎng)高級(jí)檢索、百鏈高級(jí)檢索、讀秀高級(jí)檢索、CNKI高級(jí)檢索
4、通過擬定的檢索詞與檢索式進(jìn)行檢索,獲得的中外文圖書、期刊論文、學(xué)位論文、會(huì)議論文結(jié)果有哪些(各列舉5條)?
中文圖書
1.紅樓夢(mèng)評(píng)論 【作 者】王國(guó)維著
【出版發(fā)行】 長(zhǎng)沙:岳麓書社 , 1999 【ISBN號(hào)】7-80520-966-9
2紅樓夢(mèng)評(píng)論資料選編
【作 者】鄭州大學(xué)中文系資料室,中國(guó)古代文學(xué)教研組編輯
【出版發(fā)行】 鄭州大學(xué)中文系資料室 中國(guó)古代文學(xué)教研組 , 1973
3《紅樓夢(mèng)》評(píng)論文選
【作 者】新華日?qǐng)?bào)資料組編印 【出版發(fā)行】 1974.12
4《紅樓夢(mèng)》評(píng)論
【作 者】南京大學(xué)圖書館,中文系古典文學(xué)教研組編輯
【出版發(fā)行】 南京大學(xué)圖書館 南京大學(xué)中文系古典文學(xué)教研組 , 1974
5《紅樓夢(mèng)》評(píng)論選編 【作 者】浙江圖書館編輯
【出版發(fā)行】 浙江圖書館 , 1974
外文圖書
外文期刊
中文期刊
1.王國(guó)維《紅樓夢(mèng)評(píng)論》美學(xué)思想之思考
作者:黃西華
文獻(xiàn)出處:名作欣賞
ISSN:10060189 年代:2014 期號(hào):第17期
頁(yè)碼:70-71 作者單位:南昌師范學(xué)院中文系
2.王國(guó)維《紅樓夢(mèng)評(píng)論》美學(xué)思想之思考
作者:黃西華
文獻(xiàn)出處:名作欣賞(中旬)年代:2014 期號(hào):第6期
頁(yè)碼:70-71 作者單位:南昌師范學(xué)院中文系
3.宇宙的大著述:從《紅樓夢(mèng)評(píng)論》看《紅樓夢(mèng)》
作者:周哲良
文獻(xiàn)出處:四川職業(yè)技術(shù)學(xué)院學(xué)報(bào)
ISSN:16722094 年代:2014 期號(hào):第3期
頁(yè)碼:59-61 作者單位:四川職業(yè)技術(shù)學(xué)院
4.王國(guó)維悲劇思想之轉(zhuǎn)變:以《〈紅樓夢(mèng)〉評(píng)論》與《宋元戲曲考》為中心的考察
作者:來梅
文獻(xiàn)出處:嘉興學(xué)院學(xué)報(bào)
ISSN:10086781 年代:2014 期號(hào):第3期
頁(yè)碼:88-91 作者單位:安徽師范大學(xué)文學(xué)院
5.王國(guó)維與日本明治時(shí)期的文學(xué)批評(píng):以《紅樓夢(mèng)評(píng)論》、《宋元戲曲考》為例
作者:祁曉明
文獻(xiàn)出處:文學(xué)評(píng)論
ISSN:05114683 年代:2014 期號(hào):第3期
頁(yè)碼:174-180
中文學(xué)位論文
1論王國(guó)維美學(xué)思想中的叔本華——《<紅樓夢(mèng)>評(píng)論》和“境界”說研究
賴彧煌
福建師范大學(xué)
碩士
2003年論王國(guó)維《紅樓夢(mèng)評(píng)論》中的美學(xué)思想及其對(duì)西論中化的啟示
王斌
遼寧大學(xué)
碩士
2011年王國(guó)維《紅樓夢(mèng)評(píng)論》的悲劇思想探究
王要有
景德鎮(zhèn)陶瓷學(xué)院
碩士
2010年
4“中間地帶”的王國(guó)維——從《紅樓夢(mèng)評(píng)論》看理解王國(guó)維的幾種路徑
張琳
海南大學(xué)
碩士
2011年紅樓夢(mèng)與清代婚姻法律制度評(píng)論
萬梅
華東政法大學(xué)
碩士
2008年
外文學(xué)位論文
中文會(huì)議論文1文學(xué)外譯的助力/阻力:外文社《紅樓夢(mèng)》英譯本編輯行為反思 江帆 中國(guó)翻譯學(xué)學(xué)科建設(shè)高層論壇2013-10-19 2 《葫蘆廟》中的紅樓夢(mèng)精神——評(píng)戲曲新作《葫蘆廟》 朱國(guó)慶 中國(guó)戲劇獎(jiǎng)·理論評(píng)論獎(jiǎng)獲獎(jiǎng)?wù)撐募?2009-06-01 3 周玉清 中國(guó)楹聯(lián)學(xué)會(huì)會(huì)員大典 2006-06-01 4 王國(guó)維《紅樓夢(mèng)評(píng)論》之今讀 劉麗麗 2006貴州省首屆古典文學(xué)與民俗文化研討會(huì) 2006-05 5 留得枯荷聽雨聲——關(guān)于網(wǎng)上《紅樓夢(mèng)》詩(shī)詞評(píng)論的綜述
劉麗麗;王云閣
2006貴州省首屆古典文學(xué)與民俗文化研討會(huì)
2006-05
外文會(huì)議
5、根據(jù)以上檢索結(jié)果,為該課題作一篇簡(jiǎn)要研究綜述(至少500字)。
關(guān)于《紅樓夢(mèng)》評(píng)論的研究綜述
《紅樓夢(mèng)》是中國(guó)古典小說最高峰,宗璞先生在王蒙《紅樓啟示錄》一書的序言中說:“《紅樓夢(mèng)》是一部挖掘不盡的書,隨著時(shí)代的變遷,讀者的更換,會(huì)產(chǎn)生新的內(nèi)容,新的活力。它本身是無價(jià)之寶,又起著聚寶盆的作用,把種種的睿思,色色深情都聚在周圍,發(fā)出耀目的光輝?!?/p>
關(guān)于《紅樓夢(mèng)》的評(píng)論,在國(guó)內(nèi)以王國(guó)維的《紅樓夢(mèng)評(píng)論》最受紅學(xué)者關(guān)注,也是第一篇用系統(tǒng)的理論來評(píng)論《紅樓夢(mèng)》的著作。王國(guó)維的《紅樓夢(mèng)評(píng)論》于1904年發(fā)表在《教育世界》上,這本書運(yùn)用了西方哲學(xué)和悲劇意識(shí)的理論對(duì)《紅樓夢(mèng)》進(jìn)行系統(tǒng)的評(píng)論和分析。雖然其中有些觀點(diǎn)邏輯力量不足,結(jié)論有待商榷,但是行文縝密,觀點(diǎn)明確。指出《紅樓夢(mèng)》是“悲劇中之悲劇”,第一次從理論上闡明了《紅樓夢(mèng)》的悲劇性。不少學(xué)者就王國(guó)維研究的基礎(chǔ)上對(duì)《紅樓夢(mèng)》進(jìn)行研究評(píng)論,越來越多的學(xué)者都考慮了多方面的因素。
此外關(guān)于《紅樓夢(mèng)》的評(píng)論還體現(xiàn)在詩(shī)詞文學(xué)藝術(shù)方面,《紅樓夢(mèng)>中韻語(yǔ)體裁眾多,如詩(shī)、詞、曲、賦、歌謠、燈謎、酒令、對(duì)聯(lián)、偈語(yǔ)、誄、贊等應(yīng)有盡有。然而才華橫溢的曹雪芹對(duì)此卻駕熟就輕?!都t樓夢(mèng)》有詩(shī)云:“滿紙荒唐言,一把辛酸淚。都云作者癡,誰解其中味”。有學(xué)者認(rèn)為其創(chuàng)作構(gòu)思巧妙,且內(nèi)藏玄機(jī)、不易把握,理解其中的詩(shī)詞無疑是解讀《紅樓夢(mèng)》的一把鑰匙。評(píng)論書本身要從評(píng)論詩(shī)詞開始。
在《紅樓夢(mèng)》評(píng)論的研究中中國(guó)學(xué)者占了相當(dāng)大的比例,在外國(guó)可能由于文化的隔閡,鮮有外國(guó)學(xué)者研究《紅樓夢(mèng)》評(píng)論。就中國(guó)學(xué)者對(duì)《紅樓夢(mèng)》評(píng)論的研究也趨于飽和、完善,各個(gè)學(xué)者對(duì)《紅樓夢(mèng)》從詞句、詩(shī)詞、名俗、建筑、人物、服飾小說構(gòu)思等各方面對(duì)小說進(jìn)行評(píng)論。
不僅《紅樓夢(mèng)》是我國(guó)的一塊瑰寶,而且依托《紅樓夢(mèng)》而進(jìn)行的《紅樓夢(mèng)》評(píng)論,也會(huì)成長(zhǎng)為中國(guó)文化不可缺少的文化結(jié)晶。
第四篇:信息檢索技術(shù)論文
期末課程論文
論文標(biāo)題:課程名稱:信息檢索技術(shù)課程編號(hào):學(xué)生姓名:潘國(guó)偉學(xué)生學(xué)號(hào):所在學(xué)院:計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)習(xí)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)課程教師:
基于音頻的信息檢索
1220500 1100310220
王
沖
2013年7月3 日
引言:
進(jìn)入知識(shí)經(jīng)濟(jì)時(shí)代,知識(shí)管理、知識(shí)服務(wù)的理念得到廣泛認(rèn)同,信息檢索技術(shù)也由基于關(guān)鍵詞的信息檢索逐步轉(zhuǎn)向針對(duì)內(nèi)容的基于知識(shí)的信息檢索。較之前者,其檢索結(jié)果更準(zhǔn)確,更貼近用戶需求。信息檢索是將信息按照一定的規(guī)律組織起來,找到所需信息的過程和技術(shù),簡(jiǎn)單的說,就是信息的有序化識(shí)別和查找。信息檢索效率就是實(shí)施識(shí)別和查找過程的效率。信息檢索效率不僅是影響信息檢索工具價(jià)值的重要因素,也是評(píng)價(jià)信息檢索技術(shù)發(fā)展的重要指標(biāo)。目前一些基于文本的Web引擎,如Google,Baidu,功能已非常強(qiáng)大,但還缺乏比較實(shí)用的音頻搜索引擎。Internet上的多媒體流非常巨大,需要一些高效的搜索引擎從浩如煙海的數(shù)據(jù)中找出需要的信息。另外,音頻檢索在輔助視頻檢索和卡拉OK檢索系統(tǒng)以及軍事、刑偵領(lǐng)域方面都有巨大的應(yīng)用價(jià)值和廣闊的研究前景。
基于內(nèi)容的音頻檢基索關(guān)鍵技術(shù)
問題:
傳統(tǒng)的方法,其主要缺點(diǎn)有:
一是當(dāng)數(shù)據(jù)量越來越多時(shí),人工注釋的工作量加大;
二是人對(duì)音頻的感知有時(shí)難以用文字注釋表達(dá)清楚,人工注釋存在不完整性和主觀性; 三是不能支持實(shí)時(shí)音頻數(shù)據(jù)流的檢索。
這里主要綜述了音頻檢索方法,討論了一些音頻檢索中的關(guān)鍵技術(shù):音頻特征提取、音頻分類、語(yǔ)音識(shí)別技術(shù)等??傮w介紹:
語(yǔ)音識(shí)別技術(shù)概述
語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說話人而非其中所包含的詞匯內(nèi)容。
語(yǔ)音識(shí)別技術(shù)是以語(yǔ)音信號(hào)處理為研究對(duì)象,讓機(jī)器接收并識(shí)別、理解語(yǔ)音信號(hào),并將其轉(zhuǎn)換為相應(yīng)數(shù)字信號(hào)的技術(shù)。讓機(jī)器聽懂人類的語(yǔ)言,這是人們長(zhǎng)期以來夢(mèng)寐以求的事情,而語(yǔ)音識(shí)別是一門非常復(fù)雜的交叉性學(xué)科,它涉及語(yǔ)音語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、信號(hào)處理學(xué)、生理學(xué)、心理學(xué)等一系列學(xué)科,是模式識(shí)別的重要分支。50年代,是語(yǔ)音識(shí)別研究工作的開始時(shí)期,它以貝爾實(shí)驗(yàn)室研制成功可識(shí)別十個(gè)數(shù)字的Audry系統(tǒng)為標(biāo)志。20世紀(jì)80年代語(yǔ)言識(shí)別研究進(jìn)一步走向深入,基于特定人孤立語(yǔ)音技術(shù)的系統(tǒng)研制成功。在過去的30年里,隱馬爾可夫模型和人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中得到了成功的應(yīng)用。
語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。并通過算法和計(jì)算機(jī)技術(shù)相結(jié)合的方式來實(shí)現(xiàn)。目前,這樣的系統(tǒng)能夠做到識(shí)別理解數(shù)十萬條詞匯的連續(xù)語(yǔ)音信號(hào)。這種現(xiàn)代模式識(shí)別系統(tǒng)除了在語(yǔ)音領(lǐng)域的應(yīng)用外,還可以廣泛應(yīng)用于信號(hào)處理和模式識(shí)別的其他領(lǐng)域。語(yǔ)音識(shí)別一般分為兩個(gè)步驟:
學(xué)習(xí)和識(shí)別階段。學(xué)習(xí)階段的任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及語(yǔ)言模型。識(shí)別階段是將輸入的目標(biāo)語(yǔ)言的特征參數(shù)和模型進(jìn)行比較,得到識(shí)別結(jié)果。語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上講是一種模式識(shí)別系統(tǒng),其原理如下圖所示:
圖1語(yǔ)音識(shí)別原理示意圖
語(yǔ)音信號(hào)的獲取
計(jì)算機(jī)聲卡作為語(yǔ)音信號(hào)與計(jì)算機(jī)的接口卡件,其最基本的一項(xiàng)功能就是A/D轉(zhuǎn)換。聲卡是pc的一種多媒體設(shè)備,可以用windows的MCI(Media Control Interface)命令來控制聲卡。
圖3信號(hào)獲取過程中相關(guān)函數(shù)使用流程示意圖
音頻檢索的基本方法
音頻檢索第一步是建立數(shù)據(jù)庫(kù),對(duì)音頻數(shù)據(jù)進(jìn)行特征提取,并通過特征對(duì)數(shù)據(jù)聚類。音頻檢索主要采用示例查詢方式(Query by example),用戶通過查詢界面選擇一個(gè)查詢例子,并設(shè)定屬性值,然后提交查詢。系統(tǒng)對(duì)用戶選擇的示例提取特征,結(jié)合屬性值確定查詢特征矢量,并對(duì)特征矢量進(jìn)行模糊聚類,然后檢索引擎對(duì)特征矢量與聚類參數(shù)集匹配,按相關(guān)性排序后通過查詢接口返回給用戶。相似音頻例子檢索
相似音頻例子檢索是指基于用戶提交的查詢音頻,得到最相似的音頻,即計(jì)算音頻特征的距離。對(duì)音頻數(shù)據(jù)提取特征后,假設(shè)共N個(gè)特征,則形成了一個(gè)N維特征矢量的序列。為了縮減數(shù)據(jù)量而又不失掉每個(gè)音頻原來的特征,可以對(duì)N維特征矢量進(jìn)行聚類,提取出固定數(shù)目的質(zhì)心來表示音頻,即用聚類質(zhì)心來為音頻建立索引。一般采用模糊聚類法,模糊聚類首先要對(duì)N維特征矢量進(jìn)行歸一化,一般采用高斯歸一化。音頻分類識(shí)別
音頻分類是判斷一個(gè)給定樣本所在的類別,其任務(wù)是通過相似度匹配算法將相似音頻歸屬到一類,屬于模式識(shí)別的問題。首先應(yīng)提供適量的訓(xùn)練樣本,比如選取足量的音樂文件,然后提取樣本特征,類似如上所述進(jìn)行聚類處理,不同的是將每類的全體文件看成一個(gè)音頻數(shù)據(jù)來處理,計(jì)算該類的樣本模板。
判斷文件的類別時(shí),與計(jì)算音頻相似度類似,計(jì)算音頻的模板與各類模板間的距離,當(dāng)距離小于某一閾值或?yàn)樽钚【嚯x時(shí),則此時(shí)的類即為文件所在的類。結(jié)
語(yǔ)
本文闡述了基于音頻檢索的一些常用技術(shù)及相關(guān)問題,包括音頻特征提取、相似音頻檢索及音頻分類?;谝纛l檢索是一個(gè)涵蓋十分廣泛的研究領(lǐng)域與想好處理,人感知心理研究,語(yǔ)音識(shí)別等科學(xué)密切相關(guān)。為使計(jì)算機(jī)與人一樣能自動(dòng)對(duì)音頻語(yǔ)義實(shí)現(xiàn)自動(dòng)理解并根據(jù)語(yǔ)義高級(jí)內(nèi)容進(jìn)行音頻檢索,還要面臨很大挑戰(zhàn)。參考文獻(xiàn):
[1] 盧 堅(jiān), 陳毅松, 孫正興, 等.基于隱馬爾可夫模型的音頻自動(dòng)分類[J].軟件學(xué)報(bào), 2002, 13(8): 1 593-597.[2] 莊越挺, 潘云鶴, 吳 飛.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學(xué)出版社,2002.[3] 李國(guó)輝,李恒峰.基于內(nèi)容的音頻檢索:概念和方法[J].小型微型計(jì)算機(jī)系統(tǒng), 2000,(11): 1 173-1 177.[4]尹江艷.基于HMM和ANN語(yǔ)音識(shí)別研究[J].2007.4:14 [5] 柳春 語(yǔ)音識(shí)別技術(shù)研究進(jìn)展[J] 甘肅科技 2008/09 [6劉幺和 語(yǔ)音識(shí)別與控制應(yīng)用技術(shù)[M] 北京科學(xué)出版社 2008
文中涉及的公式:
Em?1N?[x(n)]m2
頻率中心 是度量聲音亮度(brightness)的指標(biāo),計(jì)算公式為
WFC??0F(w)wdw/E
第五篇:網(wǎng)絡(luò)信息檢索技術(shù)
網(wǎng)絡(luò)信息檢索技術(shù)
網(wǎng)絡(luò)信息檢索中,基本的檢索技術(shù)有布爾邏輯檢索、截詞檢索、位置檢索、限制檢索等。
一、布爾邏輯檢索
邏輯檢索是一種開發(fā)較早、比較成熟、在信息檢索系統(tǒng)中廣泛應(yīng)用的技術(shù)。布爾邏輯檢索就是采用布爾關(guān)系運(yùn)算符來表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法,目前最常用的布爾邏輯運(yùn)算符主要包括邏輯“與”(AND)、邏輯“或”(OR)、邏輯“非”(NOT)。
(一)邏輯“與”
邏輯“與”,也稱為邏輯乘,用AND表示,是用來組配不同含義檢索詞之間的限定關(guān)系。檢索詞A、B以AND(或“*”)相連,即A AND B(或A*B),表示同時(shí)包含A、B兩詞的文獻(xiàn)才是命中記錄,因而邏輯“與”運(yùn)算用于對(duì)檢索詞進(jìn)行限定,從而縮小檢索范圍,提高檢索結(jié)果的查準(zhǔn)率。
例如,要查找children education(兒童教育)方面的文獻(xiàn),檢索邏輯式可表示為“children * education”或者“children AND education”。運(yùn)算的結(jié)果是同時(shí)含有檢索詞children和檢索詞education的文獻(xiàn)才被檢索出來。
(二)邏輯“或”
邏輯“或”,也稱為邏輯加,用OR或者“+”表示,是用來組配同義或者同族檢索詞之間的并列關(guān)系。檢索詞A、B若以O(shè)R或“+”相連,即A OR B(或A+B),表示只要含有A、B之一或者同時(shí)包含A、B的文獻(xiàn)都是命中記錄。因而邏輯“或”運(yùn)算可用于擴(kuò)大檢索范圍。
例如,要查找“汽車”方面的文獻(xiàn),因?yàn)槠囋谟⒄Z(yǔ)中可以用car或者automobile表示,所以為了將有關(guān)汽車的文獻(xiàn)全部檢出,避免漏檢,檢索邏輯式就可表示為“car OR automobile”或者“car + automobile”。運(yùn)算的結(jié)果是含有car或者automobile任意一個(gè)或者同時(shí)兩個(gè)的文獻(xiàn)均被檢索出來。
(三)邏輯“非”
邏輯“非”用NOT或者“-”來表示,是用來組配概念的包含關(guān)系,可以從原檢索范圍中排除一部分,因而使用邏輯“非”運(yùn)算可以縮小檢索范圍。檢索詞A、B若以NOT(或“-”)相連,即A NOT B(或A-B),表示只含有檢索詞A而不含有B的文獻(xiàn)才是命中記錄。邏輯“非”可用于縮小檢索范圍,但是不一定能提高文獻(xiàn)命中的準(zhǔn)確率。在使用時(shí)要注意,避免將相關(guān)的有用文獻(xiàn)排除在外。
例如,要查找有關(guān)“energy(能源)”,但又不涉及“nuclear(核能)”方面的文獻(xiàn),檢索邏輯式可表示為“energy NOT nuclear”“energy-nuclear”。運(yùn)算的結(jié)果是含有energy,但不含有nuclear的文獻(xiàn)將被檢索出來。
這三種邏輯式的文氏圖如下:
圖3-1布爾邏輯文氏圖
上面三種檢索邏輯式是最為簡(jiǎn)單的布爾邏輯運(yùn)算。在檢索實(shí)踐中,可以根據(jù)實(shí)際需要,組合使用多個(gè)布爾運(yùn)算符,以準(zhǔn)確表達(dá)檢索主題。
布爾邏輯檢索與人們的思維習(xí)慣一致,表達(dá)清晰,方便用戶進(jìn)行擴(kuò)檢和縮檢,而且易于計(jì)算機(jī)實(shí)現(xiàn),因此,在計(jì)算機(jī)信息檢索系統(tǒng)中得到廣泛使用。但是它無法反映檢索詞對(duì)于檢索的重要性,無法反映概念之間內(nèi)在的語(yǔ)義聯(lián)系,因而檢索結(jié)果不能按照用戶定義的重要性排序輸出。
使用布爾邏輯運(yùn)算符的注意事項(xiàng):
布爾邏輯檢索在聯(lián)機(jī)檢索、光盤檢索和網(wǎng)絡(luò)檢索中都有廣泛的應(yīng)用,但是不同的檢索工具的布爾邏輯檢索技術(shù)存在一定的差異,因此,使用布爾邏輯檢索需要注意以下問題:
1、布爾邏輯檢索的執(zhí)行順序。三種布爾邏輯檢索運(yùn)算符之間的運(yùn)算順序?yàn)镹OT、AND、OR。有括號(hào)時(shí),先執(zhí)行括號(hào)內(nèi)的邏輯運(yùn)算。
2、不同檢索工具的布爾邏輯檢索有不同的表現(xiàn)形式和使用規(guī)則。首先,不同檢索工具表示布爾邏輯關(guān)系的符號(hào)不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求運(yùn)算符必須大寫,有的則要求為小寫形式;其次,不同檢索工具的檢索詞之間的默認(rèn)布爾邏輯關(guān)系不同,有的檢索工具檢索詞之間的默認(rèn)關(guān)系是AND,有的檢索工具的檢索詞之間的默認(rèn)關(guān)系是OR;此外,不同檢索工具支持布爾邏輯的方式不同,有的檢索工具使用符號(hào)來實(shí)現(xiàn)布爾邏輯關(guān)系,一些檢索工具則完全省略了任何符號(hào),直接用文字和表格來體現(xiàn)不同的邏輯關(guān)系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。
二、截詞檢索
截詞檢索是指在檢索式中使用專門的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化,用檢索詞的詞干或不完整的詞形查找信息的一種檢索方法。并認(rèn)為凡滿足這個(gè)詞局部中的所有字符的文獻(xiàn),都為命中的文獻(xiàn)。在實(shí)際檢索的過程中,為了減少檢索詞的輸入量,同時(shí)又?jǐn)U大檢索范圍,保證查全率,可以使用截詞檢索。
截詞的方式有多種。按截?cái)嗟奈恢脕矸?,可分為后截?cái)?、中截?cái)嗪颓敖財(cái)?;按截?cái)嗟淖址麛?shù)量來分,可分為有限截?cái)嗪蜔o限截?cái)唷S邢藿財(cái)嗍侵刚f明具體截去字符的數(shù)量,通常用“?”表示;而無限截?cái)嗍侵覆徽f明具體截去字符的數(shù)量,通常用“x”表示。
(一)后截?cái)?/p>
后截?cái)嗍亲畛S玫慕卦~檢索技術(shù),是將截詞符號(hào)放置在一個(gè)字符串右方,以表示其右的有限或無限個(gè)字符將不影響該字符串的檢索,是一種前方一致的檢索。這種方法可以省略輸入各種詞尾有變化的檢索詞的麻煩,有助于提高查全率。
例如,輸入“inform x”,則前6個(gè)字符為inform的所有詞均滿足條件,因而能檢索出含有informant、informal、information、informative、informed、informer等詞的文獻(xiàn)。而輸入“inform??”,可檢索出含有inform、informal、informed、informer的文獻(xiàn)。(二)前截?cái)?/p>
前截?cái)嗍菍⒔卦~符號(hào)放置在一個(gè)字符串左方,以表示其左方的有限或無限個(gè)字符不影響該字符串檢索,是一種后方一致的檢索。這種檢索方法在各種詞頭有變化的復(fù)合詞的檢索中應(yīng)用比較多,有助于提高查全率。
例如,輸入“x magnetic”,可以檢索出含magnetic、electro-magnetic等詞的文獻(xiàn)。
(三)中截?cái)?/p>
中截?cái)嗍前呀財(cái)喾?hào)放置在一個(gè)檢索詞的中間。一般地,中截?cái)嘀辉试S有限截?cái)?。中截?cái)嘀饕鉀Q一些英文單詞拼寫不同,單復(fù)數(shù)形式不同的詞的輸入。
例如,輸入“c?t”,可以檢索出含有詞cat、cut的文獻(xiàn);輸入“mod?ation”可以檢索出含有詞moderation、modernization、modification的文獻(xiàn)。
利用截詞檢索技術(shù)可以減少檢索詞的輸入量,簡(jiǎn)化檢索,擴(kuò)大檢索范圍,提高查全率。但是,不同的檢索工具有不同的截詞規(guī)則,使用的截詞符號(hào)也沒有統(tǒng)一的標(biāo)準(zhǔn),如Dialog系統(tǒng)用“?”,BRS系統(tǒng)用“$”,ORBIT系統(tǒng)用“#”等。
三、位置檢索
位置檢索,也稱臨近檢索,主要是通過位置運(yùn)算符來規(guī)定和限制檢索詞之間的相對(duì)位置或者檢索詞在記錄中的特定位置來實(shí)施檢索的技術(shù)。這里我們只介紹位置檢索中的詞位置檢索。
詞位置檢索主要是利用位置邏輯算符限定檢索詞之間的位置,來反映要檢索的信息概念。常用的詞位置算符有(W)與(nW)、(N)與(nN)以及(X)與(nX)三類。
(一)(W)算符與(nW)算符
(W)算符是Word和With的縮寫,它表示在此算符兩側(cè)的檢索詞必須按輸入時(shí)的前后順序排列,而且所連接的詞之間除可以有一個(gè)空格、一個(gè)標(biāo)點(diǎn)符號(hào)或一個(gè)連接號(hào)外,不得夾有任何其他單詞或字母,且詞序不能顛倒。(nW)算符的含義是允許在連接的兩個(gè)詞之間最多夾入n個(gè)其他單元詞。
例如,“VISUAL(W)FOXPRO”可以檢出
VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以檢出含有contro1 system、control of system和contro1 in system的文獻(xiàn)。
(二)(N)算符與(nN)算符
(N)算符是Near的縮寫,它表示在此算符兩側(cè)的檢索詞必須緊密相連,所連接的檢索詞之間不允許插入任何其他單詞或字母,但詞序可以顛倒。(nN)算符表示在兩個(gè)檢索詞之間最多可以插入n個(gè)單詞,且這兩個(gè)檢索詞的詞序任意。
例如,“control(1N)system”不僅可以檢出含有control system、control of systcm和control in system 的文獻(xiàn),還可以檢出含有system of control、system without control等的文獻(xiàn)。
(三)(X)算符與(nX)算符
(X)算符要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,且中間不允許插入任何其他單詞或字母。它常用來限定兩個(gè)相同且必須相鄰的詞。(nX)算符的含義是要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,兩個(gè)檢索詞之間最多可以插入n個(gè)單元詞。
例如,“side(1X)side”可以檢索到含有side by side的文獻(xiàn)。
四、限制檢索
限制檢索是通過限制檢索范圍,從而達(dá)到約束和優(yōu)化檢索結(jié)果的一種方法。限制檢索的方式有多種,常用的有字段限制檢索和限制符限制檢索。
(一)字段檢索
數(shù)據(jù)庫(kù)記錄是由若干個(gè)字段組成的,字段檢索是把檢索詞限定在數(shù)據(jù)庫(kù)記錄的特定字段中的檢索方法,如果記錄的相應(yīng)字段中含有輸入的檢索詞則為命中記錄。字段限制檢索可以縮小檢索范圍,提高查準(zhǔn)率。
數(shù)據(jù)庫(kù)中提供的可供檢索的字段通常分為基本索引字段和輔助索引字段兩大類。基本索引字段表示文獻(xiàn)的內(nèi)容特征,有TI(篇名、題目)、AB(摘要)、DE(敘詞)、ID(自由標(biāo)引詞)等;輔助索引字段表示文獻(xiàn)的外部特征,有AU(作者)、CS(作者單位)、JN(刊物名稱)、PY(出版年份)、LA(語(yǔ)言)等。在檢索提問式中,可以利用后綴符“/”對(duì)基本索引字段進(jìn)行限制,利用前綴符“=”對(duì)輔助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表達(dá)的檢索要求是,查找2006年出版的關(guān)于信息檢索或數(shù)字圖書館方面的文獻(xiàn),并要求information retrieval一詞在命中文獻(xiàn)的TI(篇名)字段中出現(xiàn),digital library一詞在DE(敘詞)字段中出現(xiàn)。
(二)限制檢索
限制符檢索是使用AU(作者)、CS(作者單位)、JN(刊物名稱)、PY(出版年份)、LA(語(yǔ)言)等限制符號(hào)從文獻(xiàn)的外部特征方面限制檢索范圍和檢索結(jié)果的一種方法。限制符的用法與后綴符相同,而它的作用則與前綴符相同。
例如,“aircraft/TI,PAT”表示檢索結(jié)果只包含aircraft這一主題的專利文獻(xiàn)。限制符還可以與前、后綴符同時(shí)使用,這時(shí)字段代碼與限制符之間的關(guān)系是邏輯“與”,即最終的檢索結(jié)果應(yīng)同時(shí)滿足字段檢索和限制符檢索兩方面的要求。