第一篇:畢業(yè)設(shè)計(論文)排版樣式
沈陽工程學(xué)院畢業(yè)設(shè)計
下列各排版樣式中的空行指采用小4號漢字、單倍行距時的空行。文字的字體和字號以排版樣式中的為準。
摘要與Abstract排版樣式:(空1行)
摘 要(新起一頁)
(空1行)
××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
(空1行)
關(guān)鍵詞 電力系統(tǒng),×××××,×××××,×××××(關(guān)鍵詞3-5個)
(空1行)
Abstract(新起一頁)
(空1行)
In this paper ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
(空1行)
Key Words electric power system, ×××××, ×××××
沈陽工程學(xué)院畢業(yè)設(shè)計
正文排版樣式:(空1行)××××(各章均新起一頁、居中)
(空1行)
2.1 ××××
(空1行)
×××……×××××××××××××××××××××××××××××× ×××……××××××××××××××××××××××××××××××
(空1行)
2.2 ××××
(空1行)
2.2.1 ××××××
(空1行)
×××××××××××××××××××××××××××××××××××××××××××××……
(空1行)
2.2.2 ××××××
(空1行)
××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
2.2.2.1 ××××××
(1)××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
∶ ∶(空1行)
2.5 ××××
(空1行)
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
(空1行)
結(jié) 論(新起一頁)
(空1行)
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……
第二篇:安徽工業(yè)大學(xué)工商學(xué)院畢業(yè)設(shè)計(論文)用紙樣式
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊安徽工業(yè)大學(xué)工商學(xué)院畢業(yè)設(shè)計(論文)說明書
共頁第1頁
第三篇:計算機信息管理??飘厴I(yè)設(shè)計論文框架樣式
摘要
本文介紹了數(shù)據(jù)庫管理系統(tǒng)的基本設(shè)計方法,詳細闡述了整個應(yīng)用系統(tǒng)的設(shè)計思路,并對各部分設(shè)計周期進行了詳盡的分析,最終達成了一個完整的設(shè)計方案;在文章的最后,還根據(jù)數(shù)據(jù)庫系統(tǒng)的調(diào)試結(jié)果,提出了可以進一步改進的部分,以便在投入實際應(yīng)用后系統(tǒng)可以更加穩(wěn)定可靠的工作。
本文的數(shù)據(jù)庫系統(tǒng)是一個圖書管理系統(tǒng),包括管理員界面和借閱者界面,分別有添加、刪除、查閱等功能。
【關(guān)鍵詞】圖書管理系統(tǒng)圖書管理系統(tǒng)的實現(xiàn)數(shù)據(jù)庫系統(tǒng)
I
目錄
摘要及關(guān)鍵詞 ………………………………………………………………………Ⅰ目錄 …………………………………………………………………………………Ⅱ
第一章、概述……………………………………………………………………… 11.1 數(shù)據(jù)庫及其應(yīng)用……………………………………………………1
1.2 數(shù)據(jù)庫系統(tǒng)…………………………………………………………1
1.3 數(shù)據(jù)庫系統(tǒng)簡介……………………………………………………1
第二章、數(shù)據(jù)庫系統(tǒng)設(shè)計 ………………………………………………………… 2
2.1數(shù)據(jù)庫設(shè)計概述…………………………………………………… 2
2.2數(shù)據(jù)庫設(shè)計周期……………………………………………………2
第三章、圖書管理系統(tǒng)具體設(shè)計 ………………………………………………… 3
3.1 圖書管理系統(tǒng)總體規(guī)劃……………………………………………3
3.2需求分析……………………………………………………………3
3.3概念設(shè)計……………………………………………………………5
3.4邏輯設(shè)計……………………………………………………………6
3.5物理設(shè)計……………………………………………………………7
第四章、數(shù)據(jù)庫實現(xiàn) ……………………………………………………………… 8
第五章、結(jié)束語…………………………………………………………………… 31 參考文獻…………………………………………………………………………… 32
(正文):
參考文獻:
第四篇:畢業(yè)設(shè)計(論文)
四川交通學(xué)院畢業(yè)設(shè)計(論文)目錄1 VI設(shè)計綜合概述....................11.1 VI的定義.......................1
1.2 VI基礎(chǔ)要素系統(tǒng)設(shè)計表....................1
1.3 VI應(yīng)用要素系統(tǒng)設(shè)計表.....................1
1.4 VI設(shè)計的基本原則.........................設(shè)計軟件介紹.........................32.1設(shè)計軟件介紹.....................43 設(shè)計基本的思路......................53.1 牛牛啤酒有限公司VI設(shè)計基本思路....................5
3.2 牛牛啤酒有限公司VI設(shè)計的詳細介紹................5啤酒行業(yè)的現(xiàn)狀....................17中國啤酒市場的現(xiàn)狀..........................20
5.1 總述.............................20
5.2 分述...............................20外國啤酒對于我國啤酒市場的影響.....................23
參考文獻...........................26
致謝............................27
四川交通學(xué)院畢業(yè)設(shè)計(論文)VI設(shè)計綜合概述
1.1 VI的定義
VI即(Visual Identity),通譯為視覺識別,是CIS系統(tǒng)中最具傳播力和感染力的層面。人們所感知的外部信息,有83%是通過視覺通道到達人們心智的。也就是說,視覺是人們接受外部信息的最重要和最主要的通道。企業(yè)形象的視覺識別,即是將CI的非可視內(nèi)容轉(zhuǎn)化為靜態(tài)的視覺識別符號,以無比豐富的多樣的應(yīng)用形式,在最為廣泛的層面上,進行最直接的傳播。設(shè)計科學(xué)、實施有利的視覺識別,是傳播企業(yè)經(jīng)營理念、建立企業(yè)知名度、塑造企業(yè)形象的快速便捷之途。
1.2 VI基礎(chǔ)要素系統(tǒng)設(shè)計表
1.企業(yè)標識
2.產(chǎn)品商標
3.企業(yè)標志釋義
4.標志制圖法
5.標志的使用規(guī)范
6.標志的色彩規(guī)范
8.中文標準字
9.英文標準字
10.中文指定印刷字體
11.英文指定印刷字體
12.企業(yè)輔助色
13企業(yè)象征圖案
1.3 VI應(yīng)用要素系統(tǒng)設(shè)計表
1.待客用項目類:洽談會、會客廳、會議廳家具、煙灰缸、坐墊、招待餐飲具、客戶用文具。商品及包裝類商品包裝設(shè)計、包裝紙、包裝箱、包裝盒、各種包裝用的徽章、封套、封緘、粘貼商標、膠帶、標簽等。
2.符號類
公司名稱招牌、建筑物外觀、招牌、室外照明、霓虹燈、出入口指示、櫥窗展示、活 動式招牌、路標、紀念性建筑、各種標示牌、經(jīng)銷商用各類業(yè)務(wù)招牌、標示。
3.帳票類
訂單、貨單、帳單、委托單、各類帳單、申請表、通知書、確認信、契約書、支票、收據(jù)等。
4.文具類
專用信箋、便條、信封、文件紙、文件袋、介紹信等。
5.服裝類
男女職工工作服、制服、工作帽、領(lǐng)帶、領(lǐng)結(jié)、手帕、領(lǐng)帶別針、傘、手提袋
等。
6.印刷類
股票、報告書、公司一覽表、調(diào)查報告、自辦報刊、公司簡歷、概況、獎狀等。
7.大眾傳播類
報紙廣告、雜志廣告、電視廣告、廣播廣告、郵寄廣告等。
8.SP類
產(chǎn)品說明書、廣告?zhèn)鞑巍⒄故緯贾?、公關(guān)雜志、促銷宣傳物、視聽資料、季節(jié)問候卡、明信片、各種POP類。
9.交通類
業(yè)務(wù)用車、宣傳廣告用車、貨車、員工通勤車等外觀識別。
10.證件類
徽章、臂章、名片、識別證、公司旗幟。
1.4 VI設(shè)計的基本原則
VI的設(shè)計不是機械的符號操作,而是以MI為內(nèi)涵的生動表述。所以,VI設(shè)計應(yīng)多角度、全方位地反映企業(yè)的經(jīng)營理念。VI設(shè)計不是設(shè)計人員的異想天開而是要求具有較強的可實施性。如果在實施性上過于麻煩,或因成本昂貴而影響實施,再優(yōu)秀的VI
也會由于難以落實而成為空中樓閣、紙上談兵。
1.風(fēng)格的統(tǒng)一性原則
2.強化視覺沖擊的原則
3.強調(diào)人性化的原則
4.增強民族個性與尊重民族風(fēng)俗的原則
5.可實施性原則
6.符合審美規(guī)律的原則
7.嚴格管理的原則
VI系統(tǒng)千頭萬緒,因此,在積年累月的實施過程中,要充分注意各實施部門或人員的隨意性,嚴格按照VI手冊的規(guī)定執(zhí)行,保證不走樣。企業(yè)視覺識別系統(tǒng)中的基本要素與應(yīng)用要素的內(nèi)容、形式,需要根據(jù)企業(yè)經(jīng)營的內(nèi)容與服務(wù)的性質(zhì)來決定。其內(nèi)容、項目的多少,一
般說來,是與企業(yè)識別系統(tǒng)開發(fā)設(shè)計工程的大小和實施程度而成正比;其風(fēng)格與特色也與企業(yè)產(chǎn)品、經(jīng)營特色及企業(yè)識別系統(tǒng)在應(yīng)用中的展開程度而不同。另外,企業(yè)在實行視覺識別系統(tǒng)時,還應(yīng)考慮到企業(yè)費用和時間的問題,逐步改善企業(yè)的設(shè)計并使之統(tǒng)一化。因此,視覺識別系統(tǒng)的實施、設(shè)計,還應(yīng)該根據(jù)企業(yè)識別系統(tǒng)逐步實行,只有這樣,才能真正發(fā)揮視覺識別的功效。為了達成企業(yè)形象對外傳播的一致性與一貫性,應(yīng)該運用統(tǒng)一設(shè)計和統(tǒng)一大眾傳播,用完美的視覺一體化設(shè)計,將信息與認識個性化、明晰化、有序化,把各種形式傳播媒體上的形象統(tǒng)一,創(chuàng)造能儲存與傳播的統(tǒng)一的企業(yè)理念與視覺形象,這樣能集中與強化企業(yè)形象,使信息傳播更為迅速有效,給社會大眾留下強烈的印象與影響力對企業(yè)識別的各種要素,從企業(yè)理念到視覺要素予以標準化,采同一的設(shè)計,對外傳播均采同一的模式,并堅持長期一貫的運用,不輕易進行變動。要設(shè)計的簡化:對設(shè)計內(nèi)容進行提煉,使組織系統(tǒng)在滿足推廣需要前提下盡可能條理清晰,層次簡明,優(yōu)化系統(tǒng)結(jié)構(gòu)。如VI系統(tǒng)中,構(gòu)成元素的組合結(jié)構(gòu)必須化繁為簡,有利于標準的施行。設(shè)計軟件介紹
2.1設(shè)計軟件介紹
本組設(shè)計主要用了兩種平面設(shè)計軟件,是PhotoshopCS ILLUSTRATOR CS 這是款很經(jīng)典的平面設(shè)計軟件,在介紹我們的具體設(shè)計之前,首先向大家大致介紹一下它:
PhotoshopCS ILLUSTRATOR CS是Adobe公司開發(fā)的,它是一款集圖形設(shè)計、文字編輯和高品質(zhì)輸出于一體的矢量圖形軟件,可以保證所繪制的圖形任意地放大或是縮小而不影響其質(zhì)量。它被廣泛地應(yīng)用于海報、包裝和排版等平面廣告設(shè)計、網(wǎng)頁圖形制作和藝術(shù)效果的處理等諸多領(lǐng)域。該軟件具有圖形繪制、圖形優(yōu)化以及藝術(shù)處理等多方面的超強功能,能充分滿足設(shè)計者的實際工作需要。設(shè)計基本的思路
3.1 牛牛啤酒有限公司
VI設(shè)計基本思路我們這次是為一家啤酒有限公司做VI設(shè)計。首先,我們調(diào)查了各類啤酒公司的各種廣告、宣傳等涉及到VI方面的案例,然后又在網(wǎng)上搜索了大量關(guān)于啤酒行業(yè)VI設(shè)計中所牽涉到的知識、需求;在調(diào)查中積累了一定的經(jīng)驗后,我們開始對這家公司的性質(zhì)進行分析:這是一家以突出青春和活力為主的啤酒公司,而且根據(jù)現(xiàn)在的市場需要,又往往都會提到“價格”這個概念,那么,我們就決定圍繞著“青春”、“活力”“環(huán)?!?、“價格中等”這四個中心來思考設(shè)計方案;經(jīng)過討論,然后考慮到我們的消費對象主要是中下水平家庭,基本這種情況,所以我們基本確定了標志的設(shè)計方向:青春、活力、環(huán)保、價格中等。我分別設(shè)計了各種標志,然后放在一塊進行比較、討論,最后,經(jīng)過反復(fù)討論、修改,最后確定了“beer jjan”企業(yè)標志確定下來以后,我們就開始了整個VIS的基礎(chǔ)系統(tǒng)和應(yīng)用系統(tǒng)部分的定義和設(shè)計,以下就是我們最后設(shè)計出來的樣稿。
第五篇:畢業(yè)設(shè)計論文
一、綜述..........................................................................................................................2
一、信息檢索技術(shù).....................................................................................................2
1、信息檢索技術(shù)的發(fā)展.....................................................................................2
2、信息檢索技術(shù)的簡介.....................................................................................3
3、信息檢索技術(shù)的模型.....................................................................................5
一、綜述
一、信息檢索技術(shù)
由于以因特網(wǎng)為主體的信息高速公路的不斷普及和發(fā)展,信息技術(shù)已經(jīng)滲透到我們社會生活的各個角落,正以前所未有的速度和能力改變著我們的生活的工作方式,我們真正處于一個“信息爆炸”的時代。一方面,因特網(wǎng)上面蘊含的海量信息遠遠超過人們的想象;另一方面,面對信息的汪洋大海,人們往往感到束手無策,無所適從,出現(xiàn)所謂的“信息過載”和“信息迷向”的現(xiàn)象。于是一個極富挑戰(zhàn)性的課題:如何幫助人們有效地選擇和利用所感興趣的信息,盡量剔除不相關(guān)的信息。同時保證人們在信息選擇方面的個人隱私權(quán)利?成為學(xué)術(shù)界和企業(yè)界所十分關(guān)注的焦點。
隨著在線文本的日益增多,其中包括新聞、電子雜志、電子郵件、技術(shù)報告、文檔以及網(wǎng)上圖書館。如此眾多的信息,僅僅依靠大腦來收集和整理所需要的信息顯然是不夠的。所以,自動收集和整理所需要的各類信息成為信息產(chǎn)業(yè)面臨新的挑戰(zhàn)和新的發(fā)展契機。根據(jù)不同的應(yīng)用背景和不同的使用目的,信息處理技術(shù)已經(jīng)演化信息檢索、信息過濾、信息分類、問題回答等方向。
由于目前網(wǎng)上信息的表現(xiàn)形式大多數(shù)為文本,而且文本也是廣大用戶所習(xí)慣接收的形式。因此我們在下面主要討論中文文本檢索和相關(guān)的評價方案。
1、信息檢索技術(shù)的發(fā)展
信息檢索(Information Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程。
信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。1945年,Vannevar Bush的論文《就像我們可能會想的??》第一次提出了設(shè)計自動的,在大規(guī)模的存儲數(shù)據(jù)中進行查找的機器的構(gòu)想。這被認為是現(xiàn)在信息檢索技術(shù)的開山之作。進入50年代后,研究者們開始為逐步的實現(xiàn)這些設(shè)想而努力。在50年代中期,在利用電腦對文本數(shù)據(jù)進行檢索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在IBM公司的工作,他提出了利用詞對文檔構(gòu)建索引并利用檢索與文檔中詞的匹配程度進行檢索 的方法,這種方法就是目前常用的倒排文檔技術(shù)的雛形。
在著名的國際文本檢索會議(Text Retrieval Conference,TREC)上,有兩個最重 要的研究方向:Routing Task和Ad Hoc Task。其熱點問題包括從早期的文本檢索、文本過濾到當(dāng)前的問題回答。
文本信息檢索就是根據(jù)用戶提出的具體查詢,在大量相對穩(wěn)定的文本源中,檢索出符合用戶查詢條件的文本,并按其滿足查詢的程度排序列出。文本檢索技術(shù)的發(fā)展已經(jīng)有四十多年的歷史,取得了很大的成就,產(chǎn)生了大批實用的檢索系統(tǒng),積累了很多成熟的技術(shù)。
1992年,NIST(美國國家標準和技術(shù)研究所)與DARPA聯(lián)合贊助了每年一次的TREC,對于文本檢索和文本過濾和問題回答等專題傾注了極大的熱忱。
目前隨著因特網(wǎng)的迅速發(fā)展,需求的不斷增加,文本檢索以及相關(guān)技術(shù)方面取得了長足的進展,成為信息產(chǎn)業(yè)新的增長點。
2、信息檢索技術(shù)的簡介
信息檢索系統(tǒng)流程大致如下圖所示:
總體上,系統(tǒng)可分為四個部分:數(shù)據(jù)預(yù)處理,索引生成,查詢處理,檢索。下面我們分別對各個部分采用的技術(shù)加以介紹。
1.數(shù)據(jù)預(yù)處理
目前檢索系統(tǒng)的主要數(shù)據(jù)來源是Web,格式包括網(wǎng)頁、WORD 文檔、PDF 文檔等,這些格式的數(shù)據(jù)除了正文內(nèi)容之外,還有大量的標記信息,因此從多種格式的數(shù)據(jù)中提取正文和其他所需的信息就成為數(shù)據(jù)預(yù)處理的主要任務(wù)。此外,眾所周知,中文字符存在多種編碼,比如GB2312、BIG5、Unicode(CJK 區(qū)),而原始數(shù)據(jù)集往往包含多種編碼,因此要正確地檢索到結(jié)果必須進行統(tǒng)一編碼轉(zhuǎn)換。研究者們對預(yù)處理部分要提取哪些信息并沒有共識,這與后續(xù)處理所需的信息密切相關(guān),一般來說,正文、錨文本和鏈接地址都是要提取出來的。
2.索引生成 對原始數(shù)據(jù)建索引是為了快速定位查詢詞所在的位置,為了達到這個目的,索引的結(jié)構(gòu)非常關(guān)鍵。目前主流的方法是以詞為單位構(gòu)造倒排文檔表,其結(jié)構(gòu)大致如下圖所示:
每個文檔都由一串詞組成,而用戶輸入的查詢條件通常是若干關(guān)鍵詞,因此如果預(yù)先記錄這些詞出現(xiàn)的位置,那么只要在索引文件中找到這些詞,也就找到了包含它們的文檔。為了進一步提高查詢的速度,在組織索引時還可以采用一些更復(fù)雜的方法,比如B樹、TRIE 樹、哈希表等。這個階段還需要對預(yù)處理之后的文檔進行詞法分析,這是因為很多語言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的詞與詞之間不存在分隔符,因此必須先進行分詞,而英文中的詞存在很多變形,比如“compute”就存在“computes”、“computing”、“computed”等多種變形,應(yīng)先進行詞根還原。此外,有些詞雖然出現(xiàn)頻率很高,但對于查詢沒有任何幫助,比如“的”、“了”等,就無需放入索引,為此需要預(yù)備一個停用詞表(stop word list)對這類詞進行過濾。
3.查詢處理
用戶輸入的查詢條件可以有多種形式,包括關(guān)鍵詞、布爾表達式、自然語言形式的描述語句甚至是文本,但如果把這些輸入僅當(dāng)作關(guān)鍵詞去檢索,顯然不能準確把握用戶的真實信息需求。很多系統(tǒng)采用查詢擴展來克服這一問題。各種語言中都會存在很多同義詞,比如查“計算機”的時候,包含“電腦”的結(jié)果也應(yīng)一并返回,這種情況通常會采用查詞典的方法解決。但完全基于詞典所能提供的信息有限,而且很多時候并不適宜簡單地以同義詞替換方法進行擴展,因此很多研究者還采用相關(guān)反饋、關(guān)聯(lián)矩陣等方法對查詢條件進行深入挖掘。
4.檢索
最簡單的檢索系統(tǒng)只需要按照查詢詞之間的邏輯關(guān)系返回相應(yīng)的文檔就可以了,但這種做法顯然不能表達結(jié)果與查詢之間的深層關(guān)系。為了把最符合用戶需求的結(jié)果顯示在前面,還需要利用各種信息對結(jié)果進行重排序。目前有兩大主流技術(shù)用于分析結(jié)果和查詢的相關(guān)性:鏈接分析和基于內(nèi)容的計算。許多研究者 發(fā)現(xiàn),WWW 上超鏈結(jié)構(gòu)是個非常豐富和重要的資源,如果能夠充分利用的話,可以極大地提高檢索結(jié)果的質(zhì)量?;谶@種鏈接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些學(xué)者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經(jīng)在實際的系統(tǒng)中實現(xiàn)和使用,并且取得了良好的效果。而基于內(nèi)容的計算則沿用傳統(tǒng)的文本分類方法,多采用向量空間模型、概率模型等方法來逐一計算用戶查詢和結(jié)果的相似度(相關(guān)性)。兩者各有優(yōu)缺點,而且恰好互補。鏈接分析充分利用了Web 上豐富的鏈接結(jié)構(gòu)信息,但它很少考慮網(wǎng)頁本身的內(nèi)容,而直觀上看,基于內(nèi)容的計算則較為深入地揭示了查詢和結(jié)果之間的語義關(guān)系,但忽略了不同網(wǎng)頁之間的指向關(guān)系,因此現(xiàn)在很多系統(tǒng)嘗試把兩者結(jié)合起來,以達到更好的性能。
3、信息檢索技術(shù)的模型
信息檢索模型可形式化地表示成為一個四元組< D, Q, F, R(qi,dj)>,D是一個文檔集合,Q是一個查詢集合,F(xiàn)是一個對文檔和查詢建模的框架,R(qi,dj)是一個排序函數(shù),它給查詢qi和文檔 dj 之間的相關(guān)度賦予一個排序值。3.1、布爾模型
所謂布爾檢索, 就是采用布爾代數(shù)的方法, 用布爾表達式表示用戶提問, 通過對文本標識與用戶給出的檢索式進行邏輯比較來檢索文本。設(shè)文本集D 中某一文本i, 該文本可表示為:Di =(t1 , t2, ?, tm),其中, t1 , t 2, ?, t m 為標引詞, 用以反映i 的內(nèi)容。另設(shè)用戶某一檢索式如下:Qj =(t1 ∧ t 2)∨(t3 ∧(t4)).對于該檢索式, 系統(tǒng)響應(yīng)并輸出的一組文本應(yīng)為: 它們都含有標引詞t1 和t2 , 或者含有標引詞t 3, 但不含有標引詞t 4。
布爾檢索具有簡單、易理解、易實現(xiàn)等優(yōu)點, 故得到廣泛的應(yīng)用。1967年后, 布爾檢索模型正式被大型文獻檢索系統(tǒng)采用, 并漸成為各種商業(yè)性聯(lián)機檢索系統(tǒng)的標準檢索模式, 服務(wù)信息情報界30多年, 直到現(xiàn)在, 大多數(shù)商用檢索系統(tǒng)仍采用布爾檢索。盡管布爾檢索有著種種的優(yōu)點, 但是它的缺點仍然是明顯的, 它存在的主要缺陷有以下幾點。
(1)布爾邏輯式的構(gòu)造不易全面反映用戶的需求。用標引詞的簡單組配不能完全反映用戶的實際需要, 用戶需要那一方面內(nèi)容的文本, 需要到多大程度, 這是檢索式無法表達清楚的, 如對上述檢索式, t1 和t2 , 究竟用戶希望能得到更多地反映t1 內(nèi)容的文本還是反映t2 內(nèi)容的文本, 傳統(tǒng)的布爾檢索無法 5 解決此問題。
(2)匹配標準存在某些不合理的地方。例如, 在響應(yīng)某個用“∧”連接的檢索時, 系統(tǒng)把只含有其中一個或數(shù)個但非全部檢索詞的文本看作與那些根本不含有其中一個檢索詞的文本一樣差, 同樣加以排除;另一方面, 用響應(yīng)某個用“∨”連接的檢索式時, 系統(tǒng)都不能把含有所有這些檢索詞的文本看作比那些只含有其中一個檢索詞的文本更好一些。
(3)檢索結(jié)果不能按照用戶定義的重要性排序輸出。系統(tǒng)檢索輸出的文本中, 排在第一位的文本不一定是文本集中最適合用戶需要的文本, 用戶只能從頭到尾瀏覽才能知道輸出文本中那些更適合自己的需要。
針對于標準的布爾模型中文獻表達形式過于簡單、檢索條件過于嚴格而出現(xiàn)的問題,人們對其采取了擴充和修改,提出了擴展的布爾模型。如Salton 于1983年提出的一種所謂的擴展布爾檢索模型, 它是將向量檢索模型與布爾檢索模型融為一體, 并克服了傳統(tǒng)希爾模型的一些缺陷, 下面我們用矢量的方法來討論布爾檢索。設(shè)文本集中每篇文本僅由兩個標引詞t1 和t2 標引, 并且t1、t2允許賦以權(quán)值, 其權(quán)值范圍為[ 0, 1] , 權(quán)值越接近1, 說明該詞越能反映文本的內(nèi)容, 反之, 越不能反映文本的內(nèi)容, 在Salton 模型中, 上述情形用平面坐標系上某點代表某一文本和用戶給出的檢索式, 如圖:
圖中的橫、縱坐標用t1、t2 表示, 其中A(0, 1)表示詞t1 權(quán)值為0, 詞t 2 權(quán)值為1 的文本, B(1, 0)表示詞t 1權(quán)值為1, 詞t 2 權(quán)值為0 的文本, C(1, 1)表示詞t
1、t 2 的權(quán)值均為1 的文本, 文本集D 中凡是可以用t
1、t 2 標引的文本可以用四邊形OACB 中某一點表示, 同樣, 用戶給出檢索式后, 也可用四邊形OACB 中某一點表示。
下面我們來看看Salton 模型中是如何構(gòu)造相似度計算式的。對于由t1 和t2 構(gòu)成的檢索式q = t1 ∨ t2 , 在圖1中只有A、B、C 3點所代表的各文本才是最理想的文本, 對于某一文本D 來說, 當(dāng)D 點離A、B、C 3點越接近時說明相似度越大,或者說,當(dāng)D點離O點越遠時,相似度越大。因而D與O的距離
DO =(d1?0)?(d2?0)22 =
d1?d222 可以作為我們衡量一文本與查詢q 的相關(guān)程度的一個尺度, 顯然0 ≤ 2 , 為了使相似度控制在0 與1 之間, 將相似度定義為:
d1?d222DO ≤
sim(D, Q(t1 ∨ t2))= 與C 的距離
DO(1)對于由t1 和t 2 構(gòu)成的查詢q = t1 ∧ t 2, 只有C 點才是最理想的文本, 用D =(1?d1)?(1?d2)22
作為我們衡量一文本與查詢q 的相關(guān)程度的一個尺度, 于是, 把相似度定義為:
(1?d1)?(1?d2)22sim(D, Q(t1 ∧ t2))= 1-(2)(1)、(2)式還可推廣到對檢索標引詞進行加權(quán)的情形, 設(shè)檢索標引詞t1、t2 的權(quán)值分別為a, b,0 ≤ a, b ≤ 1, 則(1)式、(2)式可進一步推廣為:
a(1?d1)?b(1?d2)2222sim(d, Q(t1 , a)∨(t2, b))= 1?
在文本信息檢索中, 布爾檢索不僅具有簡單、易理解等特點, 而且易于在計算機中加以實現(xiàn), 是一種最為常用的檢索方法。擴展的布爾模索模型——Salton 模型克服了傳統(tǒng)布爾模型的一些缺陷, 更符合了用戶的需要。
3.2、向量空間模型 向量空間模型是由Salton及其學(xué)生們在六十年代末到七十年代初提出并發(fā)展起來的。這一模型將給定的文本(文章、查詢或文章中的一段等)轉(zhuǎn)換成一個維數(shù)很高,由一系列關(guān)鍵詞組成的向量。模型并沒有規(guī)定關(guān)鍵詞如何定義,但是一般來說,關(guān)鍵詞可以是字,詞或者短語。假設(shè)我們用“詞”作為Term,那么在詞典中的每一個詞,都定義向量空間中的一維。如果一篇文檔包含這個詞,那么表示這個文檔的向量在這個詞所定義的維度上應(yīng)該擁有一個非0值。這個模型最大特點是可以方便地計算出任意兩個向量的近似程度,即向量所對應(yīng)的文本間的相似性。用信息檢索的術(shù)語來說,如果兩個向量是相近的,則其對應(yīng)的文本是語義相關(guān)的。將所有文獻和查詢以向量形式表示,則針對特定的查詢向量,比較它與所有文獻向量的相似度,并依相似度將文獻降序排列,這便是現(xiàn)代信息檢索系統(tǒng)中常用的方法。Salton及其學(xué)生們還根據(jù)向量空間模型實現(xiàn)了Smart系統(tǒng)。該系統(tǒng)在過去的30多年中,對信息檢索的研究有非常重要的影響。信息檢索的許多理論和技術(shù)(如自動索引、加權(quán)技術(shù)、相關(guān)反饋、文獻聚類等)都是在Smart上首先實現(xiàn)或測試的。
假設(shè)表示文檔向量,而
表示查詢向量,文檔與查詢的相關(guān)性可以用余弦距離表示如下:
如果我們用進行歸一化,即令和表示和中的第i維的值,并且對每個文檔矢量,那么上式有可以表示為
在此,究竟如何取值是一個重要的問題,其取值一般被稱為關(guān)鍵詞i在文檔D中的權(quán)重。
目前,對關(guān)鍵詞權(quán)重的確定方法一般都需要獲取一些關(guān)于關(guān)鍵詞的統(tǒng)計量,而后根據(jù)這些統(tǒng)計量,應(yīng)用某種認為規(guī)定的計算公式來得到權(quán)重。最常用的統(tǒng)計量包括:
? ? ?
tf,Term Frequency的縮寫,表示某個關(guān)鍵詞在某個文檔中出現(xiàn)的頻率。
qtf,Query Term Frequency的縮寫。表示查詢中某關(guān)鍵詞的出現(xiàn)頻率。
N,集合中的文檔總數(shù) ? df,Document Frequency的縮寫,表示文檔集合中,出現(xiàn)某個關(guān)鍵詞的文檔個數(shù)。
? ? ? idf,Inversed Document Frequency的縮寫。dl,文檔長度 adl,平均文檔長度
權(quán)重的計算:
在向量空間模型下,構(gòu)造關(guān)鍵詞權(quán)重計算公式有三個基本原則:
1.如果一個關(guān)鍵詞在某個文檔中出現(xiàn)次數(shù)越多,那么這個詞應(yīng)該被認為越重要。
2.如果一個關(guān)鍵詞在越多的文檔中出現(xiàn),那么這個詞區(qū)分文檔的作用就越低,于是其重要性也應(yīng)當(dāng)相應(yīng)降低。
3.一篇文檔越長,那么其出現(xiàn)某個關(guān)鍵詞的次數(shù)可能越高,而每個關(guān)鍵詞對這個文檔的區(qū)分作用也越低,相應(yīng)的應(yīng)該對這些關(guān)鍵詞予以一定的折扣。早期的權(quán)重往往直接采用tf,但是顯然這種權(quán)重并沒有考慮上述第二條原則,因此在大規(guī)模系統(tǒng)中是不適用的。目前,常用的關(guān)鍵詞權(quán)重計算公式大多基于tf和df進行構(gòu)建,同時,一些較為復(fù)雜的計算公式也考慮了文檔長度?,F(xiàn)簡要列舉如下:
TF-IDF得分。嚴格地說,TF/IDF得分并不特指某個計算公式,而是一個計算公式集合。其中TF與IDF都可以進行各種變換,究竟何種變換較能符合實際需求,需要由實驗和應(yīng)用來驗證。常見的變換方法有:
其中,最后一個公式,即:
被大量系統(tǒng)證明是最有效的。
此外,較為常用的關(guān)鍵詞權(quán)重算法還包括Okapi權(quán)重和Pivoted Normalization 權(quán)重(PNW)。這些公式綜合考慮了查詢和文檔中的詞頻,以及文檔的長度。Okapi權(quán)重需要預(yù)設(shè)三個參數(shù):
? ? ? k1,在1.0-2.0之間 b,通常為0.75 k3,在0-1000之間 而PNW則需要預(yù)設(shè)一個參數(shù)s,大部分情況下取0.20。
在經(jīng)典模型中,假設(shè)索引項是獨立的,或者說是正交的。這個假設(shè)極大地簡化了索引項權(quán)值的計算過程,盡管這一假設(shè)有時不符合自然語言的實際情況,但是在這個假設(shè)下,計算權(quán)值的過程簡單快捷,因而在目前很多實用的信息檢索模型中仍被廣泛采用。向量空間模型中索引項權(quán)重的算法提高了檢索的性能,改進了檢索效果,同時采用了部分匹配的策略和一定的相似度計算方法,使得模型可以根據(jù)結(jié)果文檔與檢索項的相似度進行排序,檢索出與用戶查詢要求接近的文檔,從而有效地控制返回文檔的數(shù)量和質(zhì)量,檢索的結(jié)果文檔集更接近用戶的檢索需求。但是事實上,在自然語言中,有些索引項是相互關(guān)聯(lián)的,比如當(dāng)在一個文檔中看到“計算機”時,就非常有可能同時看到“科學(xué)”;而當(dāng)在一個文檔中看到“土豆”時,看到“計算機”的可能性就很小。再比如:“王勵勤”“乒乓球”的出現(xiàn)不是獨立的。同時,該模型丟失了句法信息(如短語結(jié)構(gòu)、詞的順序等),而權(quán)重的計算需要利用整個文檔集合的信息。
3.3、概率模型
由于信息檢索中文本信息的相關(guān)判斷的不確定性和查詢信息表示的模糊性,導(dǎo)致了人們用概率的方法解決這方面的問題。Maron和Kuhns在1960年提出了第一概率檢索模型;1976年Robertson和Sparck Jones等在此基礎(chǔ)上進行改進提出了第二概率檢索模型;之后,Turtle、Fuhr和Roberston又提出了統(tǒng)一化模型,即第三概率檢索模型,提高了文檔的排序精度。
信息檢索的概率模型基于概率排序原則:對于給定的用戶查詢Q,對所有文本計算概率,并從大到小進行排序,概率公式為:P(R|D,Q)。其中,R表示文本D與用戶查詢Q相關(guān)。另外,用R’表示文本D與用戶查詢Q不相關(guān),有:
P(R|D,Q)+ P(R’|D,Q)= 1,也就是用二值形式判斷相關(guān)性。把文本用特征向量表示:x =(x1,x2,???,xn)。其中,N為特征項的個數(shù),xi為0或者1,分別表示特征相i在文本中出現(xiàn)或不出現(xiàn)。
在信息檢索中,估計參數(shù)是困難的,一般地并不直接地計算P,而是把計算P(R|di,qk)換為計算P(R|x,qk),這樣處理略去了公式中與文本無關(guān)的特征項,計算的結(jié)果可能與實際不符。為了容易計算,現(xiàn)在假設(shè)包括相同特征項的文本,經(jīng)過計算后,它們的可能性是相同的。將所有文本按相關(guān)概率P進行排序,等價于所有文本按特征向量排序。一個文本D的概率相關(guān)性的計算為: