欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      語(yǔ)料庫(kù)的應(yīng)用(最終)

      時(shí)間:2019-05-15 01:56:42下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫(xiě)寫(xiě)幫文庫(kù)小編為你整理了多篇相關(guān)的《語(yǔ)料庫(kù)的應(yīng)用(最終)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫(xiě)寫(xiě)幫文庫(kù)還可以找到更多《語(yǔ)料庫(kù)的應(yīng)用(最終)》。

      第一篇:語(yǔ)料庫(kù)的應(yīng)用(最終)

      語(yǔ)料庫(kù)的應(yīng)用

      語(yǔ)料庫(kù)方法廣泛應(yīng)用于語(yǔ)言學(xué)理論研究、軍事等領(lǐng)域。當(dāng)代語(yǔ)料庫(kù)語(yǔ)言學(xué)(以語(yǔ)料庫(kù)方法為取向的研究語(yǔ)言的分支就被稱為語(yǔ)料庫(kù)語(yǔ)言學(xué))已是高歌猛進(jìn),日新月異,新的語(yǔ)料庫(kù)更是層出不窮,經(jīng)過(guò)科學(xué)選材和標(biāo)注,具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況,人們通過(guò)語(yǔ)料庫(kù)觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律,極大地方便了語(yǔ)言研究者。

      軍事語(yǔ)料庫(kù)對(duì)信息化條件下的軍事斗爭(zhēng)具備潛在價(jià)值,積極開(kāi)展軍事語(yǔ)料庫(kù)的研究和建設(shè)實(shí)踐活動(dòng),并把研究成果轉(zhuǎn)化到實(shí)戰(zhàn)之中。和平時(shí)期對(duì)信息化高科技武器的建設(shè)不可小視,對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的綜合信息捕捉、把握和利用的能力建設(shè)至關(guān)重要,但對(duì)身邊已有的各類信息的綜合收集和利用也同樣不可忽視。軍事語(yǔ)料庫(kù)的建設(shè)正是針對(duì)實(shí)現(xiàn)信息化戰(zhàn)爭(zhēng)中爭(zhēng)奪與占有信息資源、獲取不對(duì)稱的戰(zhàn)爭(zhēng)中的信息掌握和信息利用的不對(duì)稱優(yōu)勢(shì)。

      【一】、語(yǔ)料庫(kù)成為語(yǔ)言學(xué)理論研究的基礎(chǔ)資源

      語(yǔ)料庫(kù)是計(jì)算語(yǔ)言學(xué)的基礎(chǔ)。語(yǔ)料庫(kù)對(duì)應(yīng)的英文是corpus,復(fù)數(shù)形式為corpora。這個(gè)詞既可以指語(yǔ)料也可以表示語(yǔ)料庫(kù)。英國(guó)語(yǔ)言學(xué)專家戴維?克里斯特爾認(rèn)為,語(yǔ)料庫(kù)“指收集的一批語(yǔ)言學(xué)數(shù)據(jù),或?yàn)闀?shū)面文本或?yàn)檠哉Z(yǔ)錄音的轉(zhuǎn)寫(xiě),可用作語(yǔ)言學(xué)描寫(xiě)的出發(fā)點(diǎn),也可作為驗(yàn)證語(yǔ)言假說(shuō)的手段。計(jì)算機(jī)語(yǔ)料庫(kù)是一大批機(jī)器可讀文本的結(jié)集。各種為不同目的而建立的語(yǔ)料庫(kù)可以應(yīng)用在詞匯、語(yǔ)法、語(yǔ)義、語(yǔ)用、語(yǔ)體研究,社會(huì)語(yǔ)言學(xué)研究,口語(yǔ)研究,詞典編纂,語(yǔ)言教學(xué)以及自然語(yǔ)言處理、人工智能、機(jī)器翻譯、言語(yǔ)識(shí)別與合成等領(lǐng)域。

      起初語(yǔ)料庫(kù)主要用于語(yǔ)言學(xué)研究,而且建成的語(yǔ)料庫(kù)多為通用語(yǔ)料庫(kù),服務(wù)的研究領(lǐng)域主要集中于詞典編纂、詞語(yǔ)搭配與結(jié)構(gòu)、基于平行語(yǔ)料庫(kù)的英漢互譯、文學(xué)作品和作家語(yǔ)言風(fēng)格的研究以及基于語(yǔ)料庫(kù)的外語(yǔ)教學(xué)研究等。隨著研究的不斷深入,各種專業(yè)領(lǐng)域語(yǔ)料庫(kù)也相繼建立,語(yǔ)料庫(kù)的應(yīng)用研究逐漸擴(kuò)大到其他學(xué)科。

      我國(guó)在語(yǔ)料庫(kù)的應(yīng)用上還處于起步階段,在計(jì)算語(yǔ)言學(xué)和語(yǔ)言信息處理領(lǐng)域,語(yǔ)料庫(kù)主要用來(lái)為統(tǒng)計(jì)語(yǔ)言模型提供語(yǔ)言特征信息和概率數(shù)據(jù),在語(yǔ)言研究的其他領(lǐng)域,多使用語(yǔ)料的檢索和頻率統(tǒng)計(jì)結(jié)果。

      目前國(guó)外已建成且較有影響的主要為以下的語(yǔ)料庫(kù):美國(guó):布朗大學(xué)的今日美國(guó)英語(yǔ)標(biāo)準(zhǔn)語(yǔ)料庫(kù)(The Brown University Standard Corpusof Present Day American English)、蘭卡斯特一奧斯陸/卑爾根語(yǔ)料庫(kù)(The Lancast-er-Oslo/Bergen(LOB)Corpus)、英語(yǔ)語(yǔ)庫(kù)(TheBank of English)、英國(guó)國(guó)家語(yǔ)料庫(kù)(The BritishNational Corpus(BNC、倫敦一隆德語(yǔ)料庫(kù)(Lon-don-Lund Corpus(LLC》、美國(guó)傳統(tǒng)中介語(yǔ)料(American Heritage Intermediate(AHI)Corpus)以及英語(yǔ)國(guó)際語(yǔ)料庫(kù)(The Intemational Corpus ofEnglish(ICE》等。國(guó)內(nèi)在語(yǔ)料庫(kù)建設(shè)方面雖然較晚,但已體現(xiàn)出較強(qiáng)的后發(fā)優(yōu)勢(shì),個(gè)別語(yǔ)料庫(kù)在世界上也形成了一定的影響。趨于領(lǐng)先地位的有廣東外語(yǔ)外貿(mào)大學(xué)的中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(Chinese Learner English Corpus(CLEC)、中國(guó)社科院語(yǔ)言所的漢語(yǔ)情景會(huì)話口語(yǔ)庫(kù)(北京地區(qū))(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英語(yǔ)語(yǔ)料庫(kù)(JDESt)近期由文秋芳等編著的中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料庫(kù)無(wú)疑是對(duì)以上的語(yǔ)料庫(kù)的有效補(bǔ)充。

      【二】、語(yǔ)料庫(kù)在軍事領(lǐng)域的應(yīng)用

      <一>、信息化條件下的軍事語(yǔ)料庫(kù)的應(yīng)用背景

      從世紀(jì)之交的幾場(chǎng)局部戰(zhàn)爭(zhēng)來(lái)看,信息化戰(zhàn)爭(zhēng)已成為當(dāng)代和未來(lái)戰(zhàn)爭(zhēng)的主要形式。信息化戰(zhàn)爭(zhēng)的核心是對(duì)信息資源的爭(zhēng)奪與占有,信息匱乏或信息弱勢(shì)的一方注定會(huì)成為戰(zhàn)爭(zhēng)的輸家。不對(duì)稱的戰(zhàn)爭(zhēng)中很大的不對(duì)稱就是信息掌握和信息利用的不對(duì)稱。要想實(shí)現(xiàn)信息化的部隊(duì),避免在戰(zhàn)爭(zhēng)中成為信息弱勢(shì)的一方,和平時(shí)期對(duì)信息化高科技武器的建設(shè)不可小視,對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的綜合信息捕捉、把握和利用的能力建設(shè)至關(guān)重要,但對(duì)身邊已有的各類信息的綜合收集和利用也同樣不可忽視。對(duì)于后者,軍事語(yǔ)料庫(kù)的建設(shè)正是針對(duì)實(shí)現(xiàn)這一目標(biāo)的有力依靠和手段,具有不可低估的價(jià)值。首先,可以借助語(yǔ)料庫(kù)對(duì)海量信息進(jìn)行情報(bào)處理和分析外,從中生成重要的情報(bào),為相關(guān)部門(mén)和專家提供決策輔助;還可以借助語(yǔ)料庫(kù)的后臺(tái)支持,開(kāi)發(fā)出戰(zhàn)場(chǎng)針對(duì)交戰(zhàn)對(duì)方或所在地的語(yǔ)言自動(dòng)翻譯和語(yǔ)音處理的軟硬件,更好地服務(wù)于戰(zhàn)場(chǎng)信息控制與掌握,提高戰(zhàn)斗人員的生存能力,確保對(duì)敵的信息優(yōu)勢(shì)。

      以美國(guó)為首的西方發(fā)達(dá)國(guó)家已經(jīng)意識(shí)到軍事語(yǔ)料庫(kù)對(duì)信息化條件下的軍事斗爭(zhēng)所具備的潛在價(jià)值,積極開(kāi)展軍事語(yǔ)料庫(kù)的研究和建設(shè)實(shí)踐活動(dòng),并把研究成果轉(zhuǎn)化到實(shí)戰(zhàn)之中。比如,利用語(yǔ)料庫(kù)的資源支持,借助自然語(yǔ)言的處理技術(shù),美軍為駐伊拉克的美軍部隊(duì)開(kāi)發(fā)和配備了一種“多語(yǔ)言自動(dòng)講話翻譯機(jī)”,它能迅速將英語(yǔ)翻譯成阿拉伯語(yǔ),以解決美軍與伊拉克人交流的問(wèn)題。美國(guó)防高級(jí)研究計(jì)劃局

      (DARPA)也正在著手開(kāi)發(fā)新一代雙路語(yǔ)音翻譯技術(shù),并采用該技術(shù)為駐伊部隊(duì)開(kāi)發(fā)英語(yǔ)和阿拉伯語(yǔ)的翻譯系統(tǒng)。

      美國(guó)的GALE(全球獨(dú)立語(yǔ)言開(kāi)發(fā))計(jì)劃通過(guò)構(gòu)建多國(guó)語(yǔ)料庫(kù),運(yùn)用語(yǔ)料庫(kù)技術(shù)來(lái)處理庫(kù)中多國(guó)語(yǔ)言的大量語(yǔ)音和文字材料,這些工作

      包括采集、翻譯、分析和解釋這些材料,旨在消除對(duì)語(yǔ)言學(xué)家和分析學(xué)家的依賴,以適當(dāng)?shù)姆绞阶詣?dòng)地向軍事指揮官或其他人員提供相關(guān)、簡(jiǎn)潔、可操作的信息。此外,美國(guó)軍方DARPA計(jì)劃中,有很多項(xiàng)目涉及語(yǔ)料庫(kù)基礎(chǔ)上的計(jì)算機(jī)語(yǔ)言處理技術(shù),其中包括機(jī)器自動(dòng)翻譯、跨語(yǔ)言情報(bào)偵測(cè)、情報(bào)抽取、情報(bào)摘要、特定事件情報(bào)追蹤等方面。在以上系統(tǒng)的研制過(guò)程中,美國(guó)建立了大量的軍事語(yǔ)料庫(kù),大大提高了信息收集與處理的效率,并積累了豐富的軍事語(yǔ)料庫(kù)開(kāi)發(fā)經(jīng)驗(yàn)。日本、俄羅斯、歐盟等其他發(fā)達(dá)國(guó)家和國(guó)際組織也不甘落后,在軍事語(yǔ)料庫(kù)研究與開(kāi)發(fā)等方面投入大量資金,并取得了顯著的效果。我軍未來(lái)面臨的戰(zhàn)爭(zhēng)形勢(shì)更為復(fù)雜,需要做好打贏“多戰(zhàn)場(chǎng)”戰(zhàn)爭(zhēng)的準(zhǔn)備,而且在情報(bào)電子對(duì)抗等方面面臨的競(jìng)爭(zhēng)更為激烈?!岸鄳?zhàn)場(chǎng)”戰(zhàn)爭(zhēng)即意味著戰(zhàn)爭(zhēng)的多地域性、多語(yǔ)言性。這就要求我們研究與開(kāi)發(fā)多種語(yǔ)言的軍事語(yǔ)料庫(kù),并且開(kāi)發(fā)多種載體的軍事語(yǔ)料庫(kù),譬如文本、音頻、視頻等。同時(shí),情報(bào)電子對(duì)抗領(lǐng)域競(jìng)爭(zhēng)的加劇也要求我們開(kāi)發(fā)多種專業(yè)的軍事語(yǔ)料庫(kù),譬如心理戰(zhàn)語(yǔ)料庫(kù)、核情報(bào)語(yǔ)料庫(kù)、各種尖端武器語(yǔ)料庫(kù)以及對(duì)方重要軍政領(lǐng)導(dǎo)人物的語(yǔ)言語(yǔ)料庫(kù)等。

      <二>、軍事語(yǔ)料庫(kù)獨(dú)特的發(fā)展空間

      作為一種專業(yè)語(yǔ)料庫(kù),軍事語(yǔ)料庫(kù)具備語(yǔ)料庫(kù)的共有的功能。這些功能可以歸納為軍事語(yǔ)料庫(kù)的一般應(yīng)用;同時(shí),在信息化條件下,軍事語(yǔ)料庫(kù)也有自身獨(dú)特的發(fā)展空間和應(yīng)用前景。

      軍事語(yǔ)料庫(kù)是指由服務(wù)于軍事甚至內(nèi)容涉及軍事的單一語(yǔ)種或多語(yǔ)種的文本所組成的語(yǔ)料庫(kù),也可以是含圖片、語(yǔ)音、視頻等媒體形式的語(yǔ)料庫(kù)。根據(jù)具體用途不同可以有軍事通用語(yǔ)料庫(kù),指的是即覆蓋軍事思想、政策與規(guī)定、科學(xué)研究、教育訓(xùn)練、裝備與技術(shù)、作戰(zhàn)與指揮等各領(lǐng)域的語(yǔ)料,也可以是單一用途或?qū)ο蟮恼Z(yǔ)料庫(kù),如軍事術(shù)語(yǔ)語(yǔ)料庫(kù)、軍事科技文獻(xiàn)語(yǔ)料庫(kù)、軍事裝備與技術(shù)語(yǔ)料庫(kù)(可以含軍事裝備本體的研究)、軍事情報(bào)語(yǔ)料庫(kù)、輿論戰(zhàn)、心理戰(zhàn)語(yǔ)言素材語(yǔ)料庫(kù)、軍事文學(xué)語(yǔ)料庫(kù)、軍事外語(yǔ)教學(xué)語(yǔ)料庫(kù)等。部分內(nèi)容不涉及軍事,但明顯具有服務(wù)軍事功能的語(yǔ)料庫(kù)包括:對(duì)象國(guó)語(yǔ)言文化百 科知識(shí)語(yǔ)料庫(kù),對(duì)象國(guó)政情語(yǔ)料庫(kù),對(duì)象國(guó)自然資源語(yǔ)料庫(kù),對(duì)象國(guó)科技情報(bào)語(yǔ)料庫(kù),對(duì)象國(guó)經(jīng)濟(jì)情報(bào)語(yǔ)料庫(kù),對(duì)象國(guó)新聞報(bào)道語(yǔ)料庫(kù)等等。

      總的說(shuō)來(lái),軍事語(yǔ)料庫(kù)的建設(shè)、開(kāi)發(fā)與研究對(duì)大多數(shù)國(guó)家來(lái)說(shuō)仍然是剛剛起步的新鮮事物,美軍在此方面的研究較早,具體應(yīng)用方面已經(jīng)取得了明顯的突破,因此我國(guó)也應(yīng)該加緊軍事語(yǔ)料庫(kù)的建設(shè)步伐。

      1、軍事語(yǔ)料庫(kù)的一般應(yīng)用

      (1)革新軍事語(yǔ)言研究方法,提高軍事語(yǔ)言研究效率

      軍事語(yǔ)言研究主要集中在五個(gè)方面,即軍事術(shù)語(yǔ)研究、軍事書(shū)面語(yǔ)研究、軍事口語(yǔ)研究、軍用主題詞研究、軍事現(xiàn)象與語(yǔ)言現(xiàn)象共變理論等研究。這些方面的研究在局部已取得了令人振奮的成果,對(duì)軍隊(duì)建設(shè)發(fā)揮了積極的推動(dòng)作用。但目前,這樣的研究許多仍基于以往的傳統(tǒng)研究方法,即依靠人力進(jìn)行語(yǔ)料的收集、分類、提取和分析,不僅效率低下,而且研究結(jié)論的可信度容易引起人們的疑問(wèn)。如果能借助于相關(guān)的軍事語(yǔ)料庫(kù),軍事語(yǔ)言的研究可以大大提高效率和準(zhǔn)確度。其中,可以為軍事詞匯的研究提供軍事運(yùn)用中的全貌,常用軍事用語(yǔ)也可以更符合語(yǔ)言應(yīng)用的實(shí)際情況,對(duì)于語(yǔ)言結(jié)構(gòu)的研究也可以更好地體現(xiàn)軍事用語(yǔ)的分布、變化和來(lái)龍去脈。由于軍事語(yǔ)料庫(kù)具有使用方便、查詢科學(xué)、信息抽取準(zhǔn)確的優(yōu)點(diǎn),因而還能夠滿足軍事用語(yǔ)應(yīng)用和研究的各類應(yīng)急需要。

      (2)加速各類軍事辭典編纂,提高軍事辭典應(yīng)用價(jià)值

      目前,國(guó)內(nèi)已經(jīng)有相當(dāng)數(shù)量的針對(duì)我軍和外軍的軍事詞典,既有一般性的軍語(yǔ)詞典,也有專門(mén)性的術(shù)語(yǔ)詞典,還有武器裝備、科學(xué)技術(shù)詞典和百科全書(shū)等。但這些詞典由于多是用傳統(tǒng)人工收集語(yǔ)料的編纂而成,詞典的覆蓋面較窄,選詞的代表性不高,也不易體現(xiàn)符合軍事語(yǔ)言實(shí)際使用的全貌。另外,由于選材的原因,軍語(yǔ)和軍事詞匯的系統(tǒng)性較差,未能較好地體現(xiàn)當(dāng)代語(yǔ)言使用的特點(diǎn),也不能反映軍語(yǔ)的歷史變化和相互關(guān)系。具體說(shuō)來(lái),就是對(duì)新詞的收集未能全面覆蓋,未能準(zhǔn)確反映國(guó)內(nèi)外軍事發(fā)展的新動(dòng)態(tài),對(duì)舊詞的采用沒(méi)有有力的依據(jù),例句的使用也不能保證是否是軍語(yǔ)使用的實(shí)際情況,因而,其結(jié)果是容易造成隨意性的編撰。另一個(gè)突出的弱點(diǎn)是,幾乎所有軍語(yǔ)詞典都沒(méi)有考慮按照國(guó)際目前詞典出版的新趨勢(shì)去考慮,即配以語(yǔ)料庫(kù)基礎(chǔ)上生成的電子詞典光盤(pán)版。實(shí)際上,創(chuàng)建軍事語(yǔ)料庫(kù),將詞典的整個(gè)編撰和使用建立在軍事語(yǔ)料庫(kù)基礎(chǔ)上,將能夠有效彌補(bǔ)傳統(tǒng)軍事辭典的上述缺憾,能夠保證軍事辭典的理?yè)?jù)性、系統(tǒng)性、全面性、準(zhǔn)確度和時(shí)效性,從而提高軍事辭典的實(shí)際應(yīng)用價(jià)值。(3)創(chuàng)新語(yǔ)言戰(zhàn)法研究,大力促進(jìn)新軍事變革

      在新的國(guó)際斗爭(zhēng)環(huán)境下,語(yǔ)言已成為當(dāng)今軍事斗爭(zhēng)中的主要武器和媒介,其表現(xiàn)形式為信息戰(zhàn)、心理戰(zhàn)、輿論戰(zhàn)、法律戰(zhàn)等,作用和地位不斷凸現(xiàn)。輿論宣傳和心理攻擊已經(jīng)成為新的大規(guī)模殺傷武器。西方軍隊(duì)紛紛組建起大批專門(mén)從事上述作戰(zhàn)形式的部隊(duì)和研究機(jī)構(gòu)。美軍在各軍種的指揮學(xué)院都開(kāi)設(shè)了心理戰(zhàn)的課程,專門(mén)的心理戰(zhàn)部隊(duì)更是花樣繁多,不斷加強(qiáng)心理戰(zhàn)的作戰(zhàn)樣式和作戰(zhàn)能力。對(duì)語(yǔ)言的巧妙運(yùn)用是心理戰(zhàn)的重要基礎(chǔ)。傳統(tǒng)的做法是,組織人員針對(duì)某一特殊情況臨時(shí)編輯創(chuàng)作心理戰(zhàn)和輿論戰(zhàn)的文本和稿件,但由于工作量大,任務(wù)緊急,單一的人工做法很難滿足信息時(shí)代快節(jié)奏行動(dòng)的需要。因而,建立心理戰(zhàn)、輿論戰(zhàn)、法律戰(zhàn)的語(yǔ)料庫(kù),利用語(yǔ)料庫(kù)的快捷查詢、數(shù)據(jù)準(zhǔn)確、處理能力強(qiáng)、生成快捷的特點(diǎn),可以定量和定性開(kāi)展這方面的理論探索和應(yīng)用研究,從而更好地發(fā)揮語(yǔ)言的實(shí)戰(zhàn)作用,提高語(yǔ)言的殺傷力。這樣做,才能真正做到針對(duì)信息戰(zhàn)的“未雨綢繆”,“即需即用”。

      (4)推動(dòng)軍事語(yǔ)料庫(kù)輔助教學(xué)研究,提高軍事外語(yǔ)教學(xué)水平

      軍事語(yǔ)料庫(kù)不但為軍事語(yǔ)言研究提供了豐富的語(yǔ)言素材,為編寫(xiě)軍事詞典提供大規(guī)模的詞匯源頭,還可以為各種軍事教材提供重要的依托和依據(jù),而且在軍事外語(yǔ)教學(xué)理論、內(nèi)容、方法等方面也可以發(fā)揮重要作用。傳統(tǒng)的軍事外語(yǔ)教學(xué)主要是憑感覺(jué)進(jìn)行主觀設(shè)計(jì),在經(jīng)驗(yàn)下行事,往往在出現(xiàn)問(wèn)題后再進(jìn)行補(bǔ)救。而建立在軍事語(yǔ)料庫(kù)基礎(chǔ)上的軍事外語(yǔ)教學(xué),將實(shí)現(xiàn)對(duì)傳統(tǒng)外語(yǔ)教學(xué)的變革與創(chuàng)新??偟恼f(shuō)來(lái),軍事語(yǔ)料庫(kù)可以在軍事外語(yǔ)教學(xué)語(yǔ)言教學(xué)中從事以

      下的主要活動(dòng):

      (1)避免課堂授課內(nèi)容與人們實(shí)際使用的軍事語(yǔ)言之間的差距;

      (2)發(fā)現(xiàn)過(guò)去被忽略的軍事語(yǔ)言規(guī)律;

      (3)理解軍事詞語(yǔ)在實(shí)際交際中的意義和用法;

      (4)揭示和認(rèn)清軍事語(yǔ)域的特點(diǎn);

      (5)發(fā)現(xiàn)學(xué)習(xí)者使用軍事語(yǔ)言時(shí)的問(wèn)題;

      (6)解決語(yǔ)言學(xué)習(xí)測(cè)試的有效性和合理性;

      (7)實(shí)現(xiàn)語(yǔ)言學(xué)習(xí)錯(cuò)誤的科學(xué)分析;

      (8)提供軍事語(yǔ)言學(xué)習(xí)的策略和輔助素材;

      (9)幫助學(xué)生實(shí)現(xiàn)自主學(xué)習(xí)、自我檢查和自我提高。

      總之,軍事語(yǔ)料庫(kù)的建立,對(duì)傳統(tǒng)的軍事語(yǔ)言研究、詞典編撰、輿論戰(zhàn)和心理戰(zhàn)的語(yǔ)言使用策略和戰(zhàn)略以及語(yǔ)言教學(xué)會(huì)帶來(lái)新的革命性的轉(zhuǎn)變。

      2、軍事語(yǔ)料庫(kù)在信息化條件下的創(chuàng)新應(yīng)用

      信息化條件下的戰(zhàn)爭(zhēng)對(duì)信息掌握、信息控制、信息處理和信息傳遞的能力提出了非同一般的要求,而各類軍事語(yǔ)料庫(kù)的建立,能更好地滿足和適應(yīng)這些能力的建設(shè)。

      (1)推動(dòng)軍事情報(bào)檢索發(fā)展,提高情報(bào)獲取能力 我們處在一個(gè)信息大爆炸的時(shí)代,僅互聯(lián)網(wǎng)上每秒傳遞的各類信息都很難以統(tǒng)計(jì),無(wú)線電話的語(yǔ)音信息也是一個(gè)海量。這其中蘊(yùn)藏著 大量的有價(jià)值的情報(bào),如果能有選擇性地收集其中的信息,建成語(yǔ)料庫(kù),再利用語(yǔ)料庫(kù)對(duì)信息進(jìn)行過(guò)濾和篩選,就會(huì)為軍事情報(bào)提供重要的參考和判斷依據(jù)。如果直接收集敵方軍事人員的各類電話和互聯(lián)網(wǎng)信息,建立分門(mén)別類的語(yǔ)料庫(kù),其潛在軍事價(jià)值就更為可想而知了。比如,為了針對(duì)特殊對(duì)象的信息收集、情報(bào)偵聽(tīng)、方位跟蹤等,可以建立該人物群體的軍事語(yǔ)音語(yǔ)料庫(kù)。利用特定人物的語(yǔ)音樣本,對(duì)相關(guān)人員的無(wú)線電話可以實(shí)現(xiàn)全球跟蹤和定位。據(jù)傳,美國(guó)在打擊基地組織的關(guān)鍵人物中就采用了這一技術(shù),這也就是為什么拉登很少使用手機(jī)的原因。值得指出的是,美國(guó)的GALE(全球獨(dú)立語(yǔ)言開(kāi)發(fā))機(jī)構(gòu)利用語(yǔ)料庫(kù)的技術(shù),結(jié)合計(jì)算機(jī)語(yǔ)言學(xué)的其他技術(shù),已經(jīng)開(kāi)始研究并應(yīng)用處理多國(guó)語(yǔ)言中的大量語(yǔ)音和文字材料,這些工作包括采集、翻譯、分析和解釋這些材料。通過(guò)計(jì)算機(jī)對(duì)大量語(yǔ)料的快速處理,自動(dòng)地向軍事指揮官或其他人員提供相關(guān)、簡(jiǎn)潔.可操作的信息。這樣可以部分消除對(duì)語(yǔ)言學(xué)專家和信息分析專家的依賴。軍事人員只用掌握簡(jiǎn)單的操作命令,就可以對(duì)某一信息或某一問(wèn)題在當(dāng)前海量信息中的權(quán)重或分量得出結(jié)論,從而對(duì)下一步采取何種應(yīng)對(duì)措施和行動(dòng)提供參照。當(dāng)然,如果是情報(bào)分析專家來(lái)利用這套系統(tǒng),對(duì)情報(bào)的掌握就更加全面和準(zhǔn)確了。

      (2)方便多國(guó)協(xié)同軍事行動(dòng),實(shí)現(xiàn)戰(zhàn)場(chǎng)實(shí)時(shí)軍事翻譯

      當(dāng)前國(guó)際多國(guó)多語(yǔ)種的聯(lián)合演習(xí)、聯(lián)合反恐、國(guó)際維和、軍事談判和軍事交流日益擴(kuò)大,范圍也越來(lái)越廣;另一方面,一國(guó)軍隊(duì)人員往往遠(yuǎn)程作戰(zhàn),對(duì)戰(zhàn)斗地區(qū)和占領(lǐng)區(qū)的文化都缺乏了解,語(yǔ)言溝通就更加困難了,這對(duì)軍事翻譯提出了很強(qiáng)的需求。然而,單純的人工現(xiàn)場(chǎng)翻譯顯然已經(jīng)無(wú)法滿足要求,也無(wú)法實(shí)現(xiàn)。在軍事行動(dòng)過(guò)程中,用人工進(jìn)行實(shí)現(xiàn)翻譯的代價(jià)也太高。因此開(kāi)發(fā)自動(dòng)翻譯系統(tǒng)迫在眉睫,而機(jī)器翻譯實(shí)現(xiàn)的重要基礎(chǔ)就是語(yǔ)料庫(kù)技術(shù)和方法。

      目前開(kāi)發(fā)類似于人類智能的通用機(jī)器翻譯系統(tǒng)比較困難,然而對(duì)于特定領(lǐng)域的機(jī)器翻譯,借助語(yǔ)料庫(kù)的技術(shù),還是可以實(shí)現(xiàn)的。比如,在多國(guó)協(xié)同作戰(zhàn)中,由于涉及的詞匯和用語(yǔ)較為簡(jiǎn)單,語(yǔ)句變化性小,戰(zhàn)場(chǎng)用語(yǔ)單一,因此,對(duì)它們實(shí)現(xiàn)軍語(yǔ)自動(dòng)翻譯是完全可能的??梢越⒁欢ㄒ?guī)模的語(yǔ)料庫(kù),然后通過(guò)計(jì)算機(jī)軟硬件技術(shù),尤其是自然語(yǔ)言的處理技術(shù),對(duì)它們進(jìn)行可信度較高的快速翻譯,這也就是我們通常所說(shuō)的機(jī)器翻譯。機(jī)器翻譯的基礎(chǔ)就是語(yǔ)料庫(kù),而且是雙語(yǔ)或多語(yǔ)種的語(yǔ)料庫(kù)。

      美軍已經(jīng)開(kāi)始了這方面的探索和研究。由于美軍在全球各地行動(dòng),并且經(jīng)常在短時(shí)間內(nèi)處于非英語(yǔ)的陌生環(huán)境。出于對(duì)安全和行動(dòng)有效性的考慮,他們必須了解相當(dāng)廣泛的快速變化的新信息。然而,這些信息在第一時(shí)間經(jīng)常只是以外語(yǔ)的形式出現(xiàn)。它可能包括當(dāng)?shù)鼐用竦脑捳Z(yǔ)交流、廣播電視、不同領(lǐng)導(dǎo)人對(duì)行動(dòng)地區(qū)人民的講話以及當(dāng)?shù)鼐用竦姆磻?yīng)。由于作戰(zhàn)部隊(duì)里具有能完全聽(tīng)懂當(dāng)?shù)卣Z(yǔ)言的官兵相對(duì)較少,再加上臨時(shí)培訓(xùn)的代價(jià)又較高,而且語(yǔ)種繁多,一時(shí)間很難做很好的語(yǔ)言提高。這種情況下,收集并建立當(dāng)?shù)鼗畹恼Z(yǔ)言的語(yǔ)料庫(kù),在此基礎(chǔ)上實(shí)現(xiàn)機(jī)器翻譯,被美軍認(rèn)為是目前較好的可行方案。實(shí)際上,美軍已在最近的兩場(chǎng)局部戰(zhàn)爭(zhēng)中采用了這種技術(shù)。

      駐伊拉克的美軍部隊(duì)配備一種“多語(yǔ)言自動(dòng)講話翻譯機(jī)”,它能迅速將英語(yǔ)翻譯成阿拉伯語(yǔ),以解決美軍與伊拉克人交流的問(wèn)題。據(jù)路透社報(bào)道,開(kāi)發(fā)這種翻譯機(jī)的美國(guó)國(guó)際商用機(jī)器公司(IBM)已向駐伊美軍交付了裝有語(yǔ)音識(shí)別和翻譯軟件的筆記本電腦。這些電腦將首先配備給美軍醫(yī)務(wù)人員、特種部隊(duì)和海軍陸戰(zhàn)隊(duì),目的是在需要醫(yī)療救援時(shí)能及時(shí)與伊拉克安全部隊(duì)和伊平民溝通。其中一款就是下圖所示的Babylon雙語(yǔ)翻譯機(jī),涉及了阿拉伯語(yǔ)、漢語(yǔ)、英 語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、日語(yǔ)、朝語(yǔ)等8種語(yǔ)言的相互對(duì)譯,其內(nèi)核中配有大量的實(shí)時(shí)言語(yǔ)交流的語(yǔ)料庫(kù)數(shù)據(jù),然后通過(guò)處理軟件,對(duì)輸入的話語(yǔ)信息進(jìn)行數(shù)據(jù)比對(duì)和排錯(cuò),最后輸出認(rèn)為最為合適的翻譯結(jié)果。

      報(bào)道說(shuō),盡管翻譯機(jī)暫時(shí)還不會(huì)應(yīng)用于沖突或作戰(zhàn)環(huán)境中,因?yàn)檫@些緊急狀況需要瞬間溝通和決策;但是,IBM的最終目標(biāo)是讓軍隊(duì)在翻譯缺乏的真實(shí)戰(zhàn)場(chǎng)環(huán)境下實(shí)現(xiàn)操不同語(yǔ)言者之間的有效交流。IBM研究翻譯技術(shù)的技術(shù)高管納哈默(David Nahamoo)說(shuō),使用裝備了Mas-tor的筆記本電腦或掌上電腦,交談一方對(duì)著麥克風(fēng)說(shuō)話,經(jīng)軟件識(shí)別和翻譯后,電腦就會(huì)自動(dòng)把翻譯好的話讀給另一方聽(tīng)?,F(xiàn)在提供給美軍的翻譯機(jī)能翻譯5萬(wàn)多英語(yǔ)單詞和10萬(wàn)阿拉伯語(yǔ)單詞。納哈默指出,這種翻譯機(jī)與現(xiàn)有翻譯軟件最大不同在于,它并不局限于程序事先存人的語(yǔ)句,還可以在機(jī)器學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步識(shí)別人們不同的文法、詞序和句子結(jié)構(gòu)。不過(guò),由于任何翻譯機(jī)都不可能達(dá)到準(zhǔn)確無(wú)誤,為了防止翻錯(cuò),出現(xiàn)誤會(huì),Mastor先在屏幕上顯示三種翻譯方式,由使用者進(jìn)行選擇。

      英國(guó)《防務(wù)系統(tǒng)日刊》2007年3月29日?qǐng)?bào)道,美國(guó)防高級(jí)研究計(jì)劃局(DARPA)授予Flu-ential公司一份價(jià)值120萬(wàn)美元的設(shè)計(jì)項(xiàng)目,開(kāi)發(fā)新一代雙路語(yǔ)音翻譯技術(shù),該技術(shù)將用于為駐伊部隊(duì)開(kāi)發(fā)英語(yǔ)和阿拉伯語(yǔ)的翻譯系統(tǒng)。為了能夠?qū)崿F(xiàn)英語(yǔ)和阿拉伯語(yǔ)的同步雙向語(yǔ)音交流,DARPA開(kāi)展了戰(zhàn)術(shù)用話音通信和翻譯系統(tǒng)(TRANSTAC)項(xiàng)目。Fluential公司首席執(zhí)行官俄薩尼(Farzad Ehsani)表示,DARPA要求開(kāi)發(fā)一種能夠進(jìn)行快速、精確話音翻譯的應(yīng)用系統(tǒng)。作為DARPA合同的一部分,F(xiàn)luential公司將開(kāi)發(fā)一種能夠用于多種任務(wù)的靈活系統(tǒng),該系統(tǒng)將可以適應(yīng)野外的工作環(huán)境。新系統(tǒng)將為隊(duì)提供廣泛的翻譯能力,目前這些士兵缺乏與伊拉克平民、警察和士兵進(jìn)行交流的能力。

      從以上可以看出,建立在語(yǔ)料庫(kù)技術(shù)至上的機(jī)器翻譯已在美軍中大行其道,頗受青睞。隨著技術(shù)的進(jìn)步,不久的將來(lái),以語(yǔ)料庫(kù)技術(shù)為支撐的戰(zhàn)場(chǎng)實(shí)時(shí)翻譯肯定會(huì)取得突破,并出現(xiàn)在戰(zhàn)場(chǎng)上。<三>、結(jié)論

      綜上所述,建立大規(guī)模的軍事語(yǔ)料庫(kù),可以提高我軍的軍事語(yǔ)言研究水平,加速軍事辭典編纂,提升輿論戰(zhàn)、心理戰(zhàn)的作戰(zhàn)和研究水平,提高情報(bào)檢索效率,推動(dòng)軍事行動(dòng)中機(jī)器翻譯發(fā)展,也能促進(jìn)軍事外語(yǔ)教學(xué)改革。盡管軍事語(yǔ)料庫(kù)研究在我國(guó)還處于初級(jí)階段,但鑒于軍事語(yǔ)料庫(kù)的獨(dú)特作用,加快各類軍事語(yǔ)料庫(kù)的建設(shè)已經(jīng)刻不容緩。它既可以革新軍事領(lǐng)域中的許多理念,促進(jìn)相關(guān)科研和教學(xué)的提高,也能大大加快軍隊(duì)信息化的步伐,從而最終將大大提高我軍信息化作戰(zhàn)的戰(zhàn)斗力和生存力。因此,我們需要抓住機(jī)會(huì),以語(yǔ)料庫(kù)語(yǔ)言學(xué)理論和相關(guān)的軍事理論為指導(dǎo),加大軍事語(yǔ)料庫(kù)的開(kāi)發(fā)力度,為促進(jìn)我軍新軍事變革、提高打贏未來(lái)信息化戰(zhàn)爭(zhēng)的能力做貢獻(xiàn)

      第二篇:語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用專題

      語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用

      盧 偉

      摘要以語(yǔ)料為基礎(chǔ)的語(yǔ)言研究方法及其成果語(yǔ)料庫(kù),在對(duì)外漢語(yǔ)教學(xué)與研究方面可以得到廣泛的應(yīng)用。現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)可以為編制教學(xué)大綱提供定量依據(jù),為編寫(xiě)教材提供真實(shí)的語(yǔ)言素材,為編纂教學(xué)專用辭書(shū)提供語(yǔ)料和語(yǔ)言信息,還有助于研究語(yǔ)言形式的語(yǔ)境意義和用法,有助于發(fā)現(xiàn)第二語(yǔ)言學(xué)習(xí)和習(xí)得的規(guī)律,有助于發(fā)現(xiàn)和修正語(yǔ)言規(guī)律,促進(jìn)漢語(yǔ)研究和教學(xué)的發(fā)展。因此,有必要加強(qiáng)我國(guó)語(yǔ)料庫(kù)建設(shè)及其在對(duì)外漢語(yǔ)教學(xué)與研究中的應(yīng)用。

      關(guān)鍵詞語(yǔ)料庫(kù)應(yīng)用對(duì)外漢語(yǔ)教學(xué)

      Applications of Corpora in Teaching Chinese as a Foreign Language

      Lu Wei

      Abstract:The language research method based on linguistic data and computer corpora is of wide application in teaching Chinese to foreigners.A modern Chinese corpus can provide quantitative basis for syllabus design, authentic language materials for textbook making, linguistic data and relevant information for pedagogic dictionary compiling.In addition, corpora can contribute to study on the contextual meaning and usage of linguistic forms, exploration of L2 learning and acquisition patterns as well as discovery and correction of linguistic rules.Therefore, development and application of computer corpora should be strengthened for the teaching and research of Chinese as a foreign language.Key words: corpora, application, teaching Chinese as a foreign language

      語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用

      盧 偉

      一、基于語(yǔ)料的語(yǔ)言研究方法

      收集真實(shí)語(yǔ)言環(huán)境中的語(yǔ)言材料,并將它們作為素材來(lái)解釋和例證現(xiàn)存的語(yǔ)言現(xiàn)象,或者發(fā)現(xiàn)新的語(yǔ)言規(guī)律,這一直是語(yǔ)言研究的基本方法。我國(guó)的方言研究,更是以語(yǔ)料采集為基礎(chǔ)的。漢語(yǔ)方言學(xué)的開(kāi)山之作《方言》,就是這種研究方法的成果。在計(jì)算機(jī)尚未應(yīng)用于語(yǔ)言研究之前,語(yǔ)言研究人員只好通過(guò)手工來(lái)收集、記錄和整理語(yǔ)言材料。然而,利用語(yǔ)料進(jìn)行語(yǔ)言描述的傳統(tǒng)曾經(jīng)受到過(guò)生成語(yǔ)法學(xué)派的批評(píng),他們夸大語(yǔ)料庫(kù)的缺陷,認(rèn)為語(yǔ)料“只不過(guò)是語(yǔ)

      ①言行為的取樣”,未能反映說(shuō)話人的語(yǔ)言能力。從此,西方語(yǔ)言學(xué)研究趨向于從偏重歸納轉(zhuǎn)

      向偏重演繹,語(yǔ)言學(xué)家憑借語(yǔ)感,通過(guò)內(nèi)省或者依照語(yǔ)法規(guī)則演繹所得的例子成為語(yǔ)言研究的主要材料。Chomsky理論的沖擊使西方早期的語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展受到阻礙,也使得基于語(yǔ)料進(jìn)行語(yǔ)言研究的優(yōu)良傳統(tǒng)一度受到忽視。

      隨著計(jì)算機(jī)運(yùn)行速度和存儲(chǔ)容量的提高,加上光學(xué)掃描儀、光盤(pán)只讀存儲(chǔ)器、電子出版物、光學(xué)字符識(shí)別(OCR)、因特網(wǎng)以及語(yǔ)料標(biāo)注和檢索軟件技術(shù)的迅速發(fā)展,建立語(yǔ)料庫(kù)所需的技術(shù)設(shè)備日臻完善。近年來(lái),就語(yǔ)料庫(kù)本身的建設(shè)而言,規(guī)模不斷擴(kuò)大,功能越來(lái)越強(qiáng)大,檢索愈來(lái)愈方便,利用語(yǔ)料庫(kù)進(jìn)行語(yǔ)言研究的手段也隨之得到改善。正如語(yǔ)言學(xué)家Halliday所言,“現(xiàn)代語(yǔ)料的巨大包容性及開(kāi)發(fā)語(yǔ)料的種種手段的出現(xiàn)構(gòu)成了深化我們對(duì)語(yǔ)言的認(rèn)識(shí)和理解

      ②的強(qiáng)大力量。”不斷涌現(xiàn)的研究成果改變了人們對(duì)語(yǔ)言研究的固有觀念和模式,也使得利用語(yǔ)

      料進(jìn)行語(yǔ)言研究的優(yōu)良傳統(tǒng)得以發(fā)揚(yáng)光大。越來(lái)越多的語(yǔ)言研究人員參與語(yǔ)料庫(kù)建設(shè),并運(yùn)用定量統(tǒng)計(jì)和分析的方法利用語(yǔ)料庫(kù)進(jìn)行語(yǔ)言研究。如今,語(yǔ)料庫(kù)的建設(shè)和利用它進(jìn)行語(yǔ)言研究,正在發(fā)展成為一門(mén)新興的語(yǔ)言學(xué)分支學(xué)科——語(yǔ)料庫(kù)語(yǔ)言學(xué)。它對(duì)語(yǔ)言研究的許多領(lǐng)域產(chǎn)生愈來(lái)愈大的影響,并廣泛地應(yīng)用于語(yǔ)言的詞匯、語(yǔ)法、語(yǔ)義、語(yǔ)用、語(yǔ)體等方面的研究、社會(huì)語(yǔ)言學(xué)研究、口語(yǔ)研究、詞典編纂以及自然語(yǔ)言處理、人工智能、機(jī)器翻譯、言語(yǔ)識(shí)別和合成等研究。

      二、語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用

      對(duì)外漢語(yǔ)教學(xué)是將漢語(yǔ)作為外語(yǔ)或第二語(yǔ)言的教學(xué),屬于語(yǔ)言學(xué)的應(yīng)用學(xué)科,涉及多種相關(guān)學(xué)科的交叉研究,必須從相關(guān)的新興學(xué)科中汲取研究方法和應(yīng)用成果,以豐富自身的學(xué)科理論,促進(jìn)學(xué)科的發(fā)展。以計(jì)算機(jī)存儲(chǔ)的語(yǔ)料為基礎(chǔ)的語(yǔ)言研究方法,是當(dāng)今語(yǔ)言學(xué)任何分支學(xué)科研究的一種自然的、現(xiàn)代化的、甚至是不可或缺的輔助方法。因此,我國(guó)的對(duì)外漢語(yǔ)教學(xué)也

      必須從相關(guān)的語(yǔ)料庫(kù)中提取真實(shí)、客觀、豐富的語(yǔ)言素材,進(jìn)行教學(xué)與學(xué)術(shù)方面的研究。從這一意義上講,語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)與研究方面可以得到廣泛的應(yīng)用。

      1.為研制漢語(yǔ)詞匯、語(yǔ)法和漢字教學(xué)大綱提供科學(xué)的參考依據(jù)。我們知道,定量統(tǒng)計(jì)是研制任何標(biāo)準(zhǔn)應(yīng)該遵循的原則。我國(guó)對(duì)外漢語(yǔ)教學(xué)界的兩個(gè)指導(dǎo)性綱領(lǐng)《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》和《漢語(yǔ)水平等級(jí)與語(yǔ)法等級(jí)大綱》,也把“多學(xué)科定量統(tǒng)計(jì)”作為編制原則之一。如果我們建成一個(gè)學(xué)科覆蓋范圍廣泛的大規(guī)?,F(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),那么就可以為從事對(duì)外漢語(yǔ)教學(xué)和研究的人員提供大量反映各種語(yǔ)體和語(yǔ)域的真實(shí)語(yǔ)料,便于對(duì)現(xiàn)代漢語(yǔ)的字、詞和語(yǔ)法項(xiàng)目進(jìn)行更加科學(xué)、客觀、準(zhǔn)確的定量統(tǒng)計(jì)分析??梢?jiàn),漢語(yǔ)作為外語(yǔ)或第二語(yǔ)言教學(xué)的各種等級(jí)大綱,如果能夠建立在語(yǔ)料庫(kù)提供的漢字、詞匯和語(yǔ)法項(xiàng)目使用頻率的定量統(tǒng)計(jì)基礎(chǔ)上,就更具有廣泛性、客觀性、科學(xué)性和權(quán)威性,因而對(duì)教學(xué)實(shí)踐和相關(guān)的學(xué)術(shù)研究也更有指導(dǎo)意義。

      2.為編寫(xiě)對(duì)外漢語(yǔ)教材提供真實(shí)的語(yǔ)言素材,為教學(xué)中描寫(xiě)和解釋語(yǔ)言項(xiàng)目提供活生生的例證。對(duì)外漢語(yǔ)教學(xué)的最終目的,就是培養(yǎng)留學(xué)生運(yùn)用漢語(yǔ)進(jìn)行言語(yǔ)交際的能力,因此必須強(qiáng)調(diào)用于教學(xué)的語(yǔ)言材料的真實(shí)性,也就是語(yǔ)言素材應(yīng)該具有實(shí)際的言語(yǔ)交際價(jià)值。如果我們能從大量真實(shí)的口頭與書(shū)面語(yǔ)料中選取素材,就能減少課堂上所學(xué)習(xí)的與實(shí)際交際中所使用的語(yǔ)言之間的差距,讓學(xué)生學(xué)到自然的、地道的漢語(yǔ)。反之,如果用于第二語(yǔ)言教學(xué)的漢語(yǔ)教材中,關(guān)于詞匯和語(yǔ)法教學(xué)的語(yǔ)言素材和例子是編者依靠經(jīng)驗(yàn)、憑借語(yǔ)感或者按照語(yǔ)法規(guī)則演繹編造出來(lái)的,那么其中有些例子就可能與實(shí)際交際中的言語(yǔ)事實(shí)有差距,甚至可能失去交際價(jià)值。英國(guó)語(yǔ)言學(xué)家Quirk曾批評(píng)道:“從這些自己編寫(xiě)的例證出發(fā)”,“把材料僅僅當(dāng)作‘例證’來(lái)使用,用來(lái)證明先驗(yàn)的、或者是語(yǔ)法學(xué)傳統(tǒng)規(guī)定的、甚至是憑直覺(jué)認(rèn)定的某些語(yǔ)法上的區(qū)別和結(jié)構(gòu),而不是從大量自然語(yǔ)言材料中歸納這些語(yǔ)法上的差別,這只能是一種很不令人滿意的③權(quán)宜之計(jì)?!庇需b于此,我們首先應(yīng)該利用語(yǔ)料庫(kù)所提供的材料進(jìn)行分析和統(tǒng)計(jì),從而發(fā)現(xiàn)使

      用頻率高的詞語(yǔ)、表達(dá)方式和句型等,將它們編入教材并作為教學(xué)重點(diǎn),這樣就可以減少教學(xué)的盲目性,保證教材的真實(shí)性。其次還應(yīng)該根據(jù)語(yǔ)料庫(kù)所提供的語(yǔ)料,解釋和例證語(yǔ)法規(guī)則和詞語(yǔ)用法。根據(jù)語(yǔ)料處理教學(xué)中的語(yǔ)言項(xiàng)目,具有量化的標(biāo)準(zhǔn)和統(tǒng)計(jì)學(xué)的依據(jù),能夠使語(yǔ)言描寫(xiě)更加全面客觀,解釋更加準(zhǔn)確科學(xué),例證更有說(shuō)服力。

      3.有助于研究語(yǔ)言形式在語(yǔ)境中的意義和用法。如果沒(méi)有語(yǔ)料庫(kù)為我們提供大量的語(yǔ)言材料,僅僅依靠有限的語(yǔ)料對(duì)語(yǔ)言形式進(jìn)行意義和用法研究,可能會(huì)因?yàn)椴牧喜蛔銓?dǎo)致研究結(jié)論不夠準(zhǔn)確全面。相反地,利用語(yǔ)料庫(kù)的定位檢索系統(tǒng),比如“上下文中的關(guān)鍵詞(KWIC)”索引形式,可以從大量的語(yǔ)料中檢索出某個(gè)漢語(yǔ)單詞、短語(yǔ)、語(yǔ)法結(jié)構(gòu)等語(yǔ)言形式以及它們出現(xiàn)的上下文?,F(xiàn)代化的手段使得我們有可能從宏觀的角度,對(duì)語(yǔ)言形式及其語(yǔ)境進(jìn)行全面的觀察和分析,因此,利用語(yǔ)料庫(kù)進(jìn)行各種語(yǔ)言形式在語(yǔ)境中的語(yǔ)義和語(yǔ)用研究,可以避免分析和判斷的失誤,有助于更加全面準(zhǔn)確地認(rèn)識(shí)漢語(yǔ)語(yǔ)言形式在交際語(yǔ)境中的意義和用法,據(jù)此所進(jìn)行的描寫(xiě)也更加可靠。其研究成果可以幫助學(xué)習(xí)者掌握漢語(yǔ)單詞、短語(yǔ)和表達(dá)方式的正確用法,加深對(duì)詞語(yǔ)的語(yǔ)境意義的理解,還有助于克服第二語(yǔ)言學(xué)習(xí)過(guò)程中的“語(yǔ)用失誤”(pragmatic failure)。

      4.可提供第二語(yǔ)言學(xué)習(xí)者的“中介語(yǔ)”(interlanguage)形式,有助于發(fā)現(xiàn)第二語(yǔ)言學(xué)習(xí)和習(xí)得的規(guī)律。第二語(yǔ)言學(xué)習(xí)與習(xí)得理論重視對(duì)學(xué)生在學(xué)習(xí)過(guò)程中所犯的言語(yǔ)錯(cuò)誤進(jìn)行對(duì)比分析,特別是對(duì)“中介語(yǔ)”進(jìn)行偏誤分析。傳統(tǒng)的作法是,教師通過(guò)人工收集學(xué)生的病句,但是

      由于受到種種客觀原因的限制,所能搜集到的病句畢竟有限,而大規(guī)模的第二語(yǔ)言學(xué)習(xí)者語(yǔ)料庫(kù)卻能為教師提供現(xiàn)代化的研究工具。比如北京語(yǔ)言文化大學(xué)的“漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)系統(tǒng)”,收集了漢語(yǔ)中介語(yǔ)語(yǔ)料350多萬(wàn)字,其中核心語(yǔ)料100多萬(wàn)字作了斷句、分詞和詞性標(biāo)注。通過(guò)語(yǔ)料檢索系統(tǒng),實(shí)現(xiàn)了對(duì)語(yǔ)料在字、詞、句、篇等不同層次上快捷方便的自由檢索和瀏覽,可以提供各種單項(xiàng)的或綜合的資料、數(shù)據(jù)和信息。它為中介語(yǔ)研究和偏誤分析提供了大量寶貴的資源,為這方面的研究提供了科學(xué)便捷的集成環(huán)境和先進(jìn)技術(shù)手段。與人工收集有限的學(xué)生病句卡片資料相比,“中介語(yǔ)”語(yǔ)料庫(kù)能夠更加真實(shí)詳盡地反映第二語(yǔ)言學(xué)習(xí)者的漢語(yǔ)中介語(yǔ)本來(lái)面貌,幫助我們更加全面系統(tǒng)地觀察他們學(xué)習(xí)和習(xí)得漢語(yǔ)的過(guò)程,了解影響學(xué)習(xí)和習(xí)得的各種因素,所發(fā)現(xiàn)的規(guī)律反過(guò)來(lái)可以為第二語(yǔ)言教學(xué)的總體設(shè)計(jì)、教材編寫(xiě)、課堂教學(xué)、測(cè)試等各個(gè)環(huán)節(jié)的研究提供依據(jù)。此外,建立在中介語(yǔ)語(yǔ)料庫(kù)基礎(chǔ)上的偏誤分析,也有助于預(yù)測(cè)和糾正第二語(yǔ)言學(xué)習(xí)者的言語(yǔ)錯(cuò)誤。

      5.為編寫(xiě)第二語(yǔ)言教學(xué)專用的辭書(shū)提供真實(shí)的語(yǔ)料和相關(guān)的語(yǔ)言信息。我們知道,西方早期的某些語(yǔ)料庫(kù)是為編纂詞典收集語(yǔ)料而建立的。比如,1987年美國(guó)Harper Collins出版社出版的《柯林斯合作英語(yǔ)詞典》(第一版)是根據(jù)“COBUILD語(yǔ)料庫(kù)”的2千萬(wàn)語(yǔ)料編纂的。1995年英美兩國(guó)出版的四本英語(yǔ)詞典《朗文當(dāng)代英語(yǔ)詞典》(第三版)、《牛津高級(jí)學(xué)習(xí)者詞典》(第五版)、《劍橋國(guó)際英語(yǔ)詞典》以及《柯林斯合作英語(yǔ)詞典》的第二版,都是以至少1億詞量的大型語(yǔ)料庫(kù)為基礎(chǔ)的。西方所謂的“語(yǔ)料庫(kù)革命”給信息資料學(xué)帶來(lái)了根本變化,因此我們完全有理由說(shuō),大型的漢語(yǔ)語(yǔ)料庫(kù)也必將引起漢語(yǔ)辭書(shū)編纂的變革。同時(shí),也為編寫(xiě)對(duì)外漢語(yǔ)教學(xué)專用的辭書(shū)提供大量真實(shí)客觀的語(yǔ)料和相關(guān)的語(yǔ)言信息,諸如詞頻統(tǒng)計(jì)、詞匯分級(jí)、詞性標(biāo)注、詞語(yǔ)搭配、語(yǔ)體特征、詞語(yǔ)用法、語(yǔ)境中的例句,等等。此外,在編纂詞典的時(shí)候,首先應(yīng)該堅(jiān)持“描寫(xiě)性”(descriptive)而不是“規(guī)定性”(prescriptive)的方法,也就是要客觀地描述語(yǔ)言事實(shí),而不是單憑編者的主觀判斷來(lái)規(guī)定詞語(yǔ)的用法。因此,如果對(duì)外漢語(yǔ)教學(xué)專用的漢語(yǔ)詞典能夠以大型的漢語(yǔ)語(yǔ)料庫(kù)為基礎(chǔ),那么,這樣的詞典必將更加具有統(tǒng)計(jì)學(xué)的定量依據(jù),對(duì)詞語(yǔ)的意義和用法的描述也會(huì)更加客觀全面,其科學(xué)性和權(quán)威性也就更強(qiáng),對(duì)教學(xué)與研究也就更有參考價(jià)值。

      6.有助于從漢語(yǔ)的實(shí)際使用情況中發(fā)現(xiàn)和修正語(yǔ)言規(guī)律,促進(jìn)漢語(yǔ)研究的發(fā)展。英國(guó)語(yǔ)言學(xué)家Quirk等人編寫(xiě)的《當(dāng)代英語(yǔ)語(yǔ)法》之所以被公認(rèn)為權(quán)威之作,很重要的原因在于這本語(yǔ)法專著是建立在“英語(yǔ)用法調(diào)查”語(yǔ)料庫(kù)的基礎(chǔ)上的。后來(lái),他們又根據(jù)擴(kuò)充了的語(yǔ)料合編了更有權(quán)威性的《當(dāng)代英語(yǔ)語(yǔ)法大全》。這本巨著發(fā)現(xiàn)了一些新的語(yǔ)法規(guī)律,補(bǔ)充或修正了一

      ④些原有的語(yǔ)法規(guī)則?!罢Z(yǔ)料庫(kù)可用來(lái)作為驗(yàn)證有關(guān)語(yǔ)言假說(shuō)的手段”。西方語(yǔ)言學(xué)家利用語(yǔ)料

      庫(kù)研究語(yǔ)言(特別是語(yǔ)法)的經(jīng)驗(yàn)和成果表明,對(duì)語(yǔ)料庫(kù)提供的大量語(yǔ)料進(jìn)行分析,有時(shí)可以發(fā)現(xiàn)一些過(guò)去被忽略的語(yǔ)言規(guī)律,比如語(yǔ)法書(shū)上沒(méi)有或者沒(méi)有詳細(xì)描述過(guò)的語(yǔ)言規(guī)律。有時(shí),以語(yǔ)料庫(kù)的大量語(yǔ)料為基礎(chǔ)所進(jìn)行的語(yǔ)言研究,更有可能使語(yǔ)言研究者發(fā)現(xiàn)原有對(duì)某些語(yǔ)法現(xiàn)象的解釋與自然語(yǔ)言中的實(shí)際情況不相符合,這就使得他們有機(jī)會(huì)去修正或補(bǔ)充前人的結(jié)論,促進(jìn)語(yǔ)言研究不斷發(fā)展。因此,語(yǔ)料庫(kù)不但有助于漢語(yǔ)語(yǔ)言的應(yīng)用研究,而且為高效、全面、科學(xué)地進(jìn)行現(xiàn)代漢語(yǔ)的理論研究提供了強(qiáng)大的現(xiàn)代化技術(shù)保證,特別是在發(fā)現(xiàn)和修正語(yǔ)言規(guī)律方面大有可為。毫無(wú)疑義,語(yǔ)言規(guī)律的發(fā)現(xiàn)和修正對(duì)于漢語(yǔ)研究具有重要的意義,而對(duì)漢語(yǔ)本體的研究成果,也必將促進(jìn)對(duì)外漢語(yǔ)教學(xué)與研究進(jìn)一步發(fā)展。

      三、促進(jìn)語(yǔ)料庫(kù)建設(shè)及其應(yīng)用

      我國(guó)語(yǔ)料庫(kù)建設(shè)發(fā)展較慢,這對(duì)于一貫重視利用真實(shí)語(yǔ)料進(jìn)行語(yǔ)言研究的我國(guó)語(yǔ)言研究傳統(tǒng)來(lái)說(shuō),顯得更加不相適應(yīng),尤其是在對(duì)外漢語(yǔ)教學(xué)的應(yīng)用方面,還有待于進(jìn)一步發(fā)展。比如我國(guó)的對(duì)外漢語(yǔ)教學(xué)界,雖然成功地研制了“漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)系統(tǒng)”和“現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù)系統(tǒng)”,為第二語(yǔ)言教學(xué)與研究提供了基于大規(guī)模真實(shí)語(yǔ)料的現(xiàn)代化研究環(huán)境和技術(shù)手段,但是仍然遠(yuǎn)遠(yuǎn)不能滿足教學(xué)與研究的實(shí)際需求,況且還有很多理論和技術(shù)問(wèn)題沒(méi)有解決,諸如怎樣汲取和應(yīng)用西方語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究方法和建庫(kù)經(jīng)驗(yàn),現(xiàn)有的語(yǔ)料庫(kù)規(guī)模偏小,語(yǔ)料標(biāo)注加工的廣度和深度不夠,語(yǔ)料檢索軟件還有待改進(jìn),等等。針對(duì)這些不足,我們認(rèn)為至少必須重視以下幾個(gè)方面的工作。

      首先必須繼續(xù)學(xué)習(xí)西方語(yǔ)料庫(kù)語(yǔ)言學(xué)的理論和方法以及語(yǔ)料庫(kù)建設(shè)的經(jīng)驗(yàn)和教訓(xùn),并結(jié)合漢語(yǔ)特點(diǎn)加以汲取和應(yīng)用。其次,繼續(xù)收集樣本語(yǔ)料擴(kuò)充并標(biāo)注現(xiàn)有的語(yǔ)料庫(kù),使之語(yǔ)料更豐富,覆蓋面更廣,標(biāo)注更科學(xué)??梢岳霉怆姃呙杓夹g(shù)和語(yǔ)音錄入軟件提高語(yǔ)料輸入的效率,也可充分利用現(xiàn)有的電子出版物和“因特網(wǎng)”上的中文信息作為語(yǔ)料來(lái)源。應(yīng)該特別加強(qiáng)語(yǔ)義層面和語(yǔ)用層面的標(biāo)注。第三,有關(guān)部門(mén)統(tǒng)一組織力量研制不同用途的新語(yǔ)料庫(kù),比如普通話口語(yǔ)語(yǔ)料庫(kù)、“專用型(specialized)”語(yǔ)料庫(kù)、雙語(yǔ)“平行對(duì)照型(parallel)”語(yǔ)料庫(kù)等,以利于普通話口語(yǔ)研究、漢語(yǔ)與外語(yǔ)的雙語(yǔ)比較研究。第四,在技術(shù)方面,提高現(xiàn)有語(yǔ)料庫(kù)的運(yùn)行速度,引進(jìn)國(guó)外的或者改進(jìn)現(xiàn)有的標(biāo)注和檢索程序,開(kāi)發(fā)新的工具軟件,使語(yǔ)料檢索更加方便快捷,功能更加強(qiáng)大。第五,盡最大可能地發(fā)揮現(xiàn)有語(yǔ)料庫(kù)的作用。已建成的語(yǔ)料庫(kù)不要只局限于小范圍內(nèi)的研究人員使用,而應(yīng)該推向社會(huì),至少應(yīng)該對(duì)全國(guó)從事對(duì)外漢語(yǔ)教學(xué)與研究的人員開(kāi)放。建議采用有償服務(wù)的方式為有關(guān)人員提供檢索查詢的方便,或者通過(guò)“中國(guó)教育和科研計(jì)算機(jī)網(wǎng)”(CERNET)上網(wǎng),提供(有償)查詢?yōu)g覽,才能達(dá)到信息資源共享,更好地為全國(guó)對(duì)外漢語(yǔ)教學(xué)與研究服務(wù)。

      注:

      ①④ David Crystal: A Dictionary of Linguistics and Phonetics(2nd Edition).Blackwell, 1985, p.78, p.77.② M.A.K.Halliday: Corpus studies and probabilistic grammar, in Aijmer and Altenberg(eds).1991.English Corpus Linguistics: Studies in Honour of Jan Svartvik.London: Longman.pp.41-42.③ 胡明揚(yáng)譯《英語(yǔ)用法調(diào)查》,《國(guó)外語(yǔ)言學(xué)》1992年第4期,第39頁(yè)。

      參考文獻(xiàn):

      Aarts, Jan and Willem Meijs(eds.), 1990: Theory and Practice in Corpus Linguistics.Amsterdam-Atlanta: Rodopi.Aijmer, K.and B.Altenberg(eds), 1991: English Corpus Linguistics: Studies in Honour of Jan Svartvik.London: Longman.Johansson, Stig and Anna-Brita Stenstrom(eds.), 1991: English Computer Corpora: Selected Papers and Research Guide.Berlin and New York: Mouton de Gruyter.陳建生1997《關(guān)于語(yǔ)料庫(kù)語(yǔ)言學(xué)》,《國(guó)外語(yǔ)言學(xué)》第1期。

      陳小荷1996《“漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)系統(tǒng)”介紹》,《北京語(yǔ)言文化大學(xué)入選第五屆國(guó)際漢語(yǔ)教學(xué)討論會(huì)論文匯編》,北京語(yǔ)言文化大學(xué)教務(wù)處1996年8月編,第305至313頁(yè)。丁信善1998《語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展及研究現(xiàn)狀》,《當(dāng)代語(yǔ)言學(xué)》第1期。

      胡明揚(yáng)1992《現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)的建庫(kù)原則和設(shè)想》,《語(yǔ)言文字應(yīng)用》第3期。劉連元1996《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制》,《語(yǔ)言文字應(yīng)用》第3期。

      孫宏林等1996《“現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù)系統(tǒng)”概述》,《北京語(yǔ)言文化大學(xué)入選第五屆國(guó)際漢語(yǔ)教學(xué)討論會(huì)論文匯編》,北京語(yǔ)言文化大學(xué)教務(wù)處1996年8月編,第314至322頁(yè)。

      發(fā)表在《廈門(mén)大學(xué)學(xué)報(bào)》(哲社版),1999年第4期,第112-115頁(yè)。CN35-5001/C

      第三篇:初中英語(yǔ)作文語(yǔ)料庫(kù)

      要求熟練掌握句式表達(dá)!!9月29日編輯完成。

      寫(xiě)作表達(dá)句式

      1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨(dú)并且壓力大)4 we are short of parents’ care(我們?nèi)狈Ω改傅年P(guān)心)5 I used to be poor in English but now I am always able to make full marks.我過(guò)去英語(yǔ)很差,但現(xiàn)在我能夠取得滿分

      6,crossing road can be dangerous if we are not careful enough.如果我們不足夠小心,過(guò)馬路可能危險(xiǎn)。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來(lái)澆花。電腦可以用來(lái)做很多事情。(蘇文注意)

      7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時(shí)間過(guò)度看電視會(huì)對(duì)我們學(xué)習(xí)不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年,我常常遇到和你一樣的問(wèn)題,這里一些建議給你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我們的環(huán)境正變得越來(lái)越差。

      10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯

      1,the more I want to memorize the words, the more difficult I find it 十(也可以替換為the harder)

      我想記得的單詞越多時(shí),我發(fā)現(xiàn)這個(gè)過(guò)程更難.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中國(guó)生產(chǎn)的。

      Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興),my classmates always encourage me and give me a lot of help in study and life.(令我高興的是,我的朋友同學(xué)總是鼓勵(lì)我并且在我的學(xué)習(xí)生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級(jí)分成6個(gè)小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學(xué)校組織手拉手活動(dòng)呼吁更多學(xué)生幫助孤獨(dú)老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長(zhǎng)城,她大概是6500長(zhǎng),如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下,購(gòu)物不是件困難的工作。只要一點(diǎn)鼠標(biāo)去選擇自己喜歡的物品,整個(gè)購(gòu)物過(guò)程就完成了。你不需要走出房間,這看起來(lái)簡(jiǎn)單快速。6.he is more interested in sports than computer games.他對(duì)體育的興趣多余電腦游戲節(jié)目 a growing number of students have learned about the shortcomings of going on-line.越來(lái)越多的學(xué)生已經(jīng)了解到上網(wǎng)的缺點(diǎn)

      8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國(guó)與許多節(jié)假日如春節(jié),中求節(jié)等等including 老師們提醒我們過(guò)馬路時(shí)要小心

      Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉(zhuǎn)折,意思是凡事都有兩面性,A也是不例外(如此。

      替換表達(dá):Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優(yōu)點(diǎn),但它的缺點(diǎn)不可以忽視,(這里用被動(dòng)語(yǔ)態(tài)起強(qiáng)調(diào)作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學(xué)會(huì)了如何交朋友而且學(xué)會(huì)了如何與人交流 great changes have taken place in our hometown(china)我的家鄉(xiāng)發(fā)生巨大的變化(詞句用一般現(xiàn)在時(shí)也ok 3the life of people is much better than ever before(時(shí)態(tài)比較)人民的生活比曾經(jīng)or過(guò)去好很多。

      4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于兩者在同一件事情做對(duì)比)

      我們總是浪費(fèi)水資源而干旱地區(qū)成千上萬(wàn)的人卻急需用水。

      5there is a need for us to deal with the rubbish in cities and fight against the pollution 對(duì)于我們有必要處理城市垃圾,和與污染做斗爭(zhēng)。

      6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達(dá):and this can …..)因?yàn)闃?shù)可以進(jìn)化空氣而且改善我們環(huán)境,我們不可以砍樹(shù)。這里的better 是動(dòng)詞詞性。I need to spend more time studying in order to come true my dream 替換:so that , 9 I plan to go swimming instead of going shopping this afternoon。我計(jì)劃去釣魚(yú)而不是去購(gòu)物(替換詞匯rather than.)

      10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學(xué)生自行翻譯。

      第四篇:語(yǔ)料庫(kù)語(yǔ)言學(xué)綜合

      語(yǔ)料庫(kù)語(yǔ)言學(xué)基礎(chǔ)知識(shí)

      2008-09-11 01:45:34| 分類: 學(xué)術(shù)|舉報(bào)|字號(hào) 訂閱

      語(yǔ)料庫(kù)通常指為語(yǔ)言研究收集的、用電子形式保存的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體。經(jīng)過(guò)科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況。人們通過(guò)語(yǔ)料庫(kù)觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)已經(jīng)成為語(yǔ)言學(xué)理論研究、應(yīng)用研究和語(yǔ)言工程不可缺少的基礎(chǔ)資源。

      語(yǔ)料庫(kù)有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語(yǔ)料采集的原則和方式上。有人曾經(jīng)把語(yǔ)料庫(kù)分成四種類型:(1)異質(zhì)的(Heterogeneous):沒(méi)有特定的語(yǔ)料收集原則,廣泛收集并原樣存儲(chǔ)各種語(yǔ)料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語(yǔ)料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語(yǔ)料,使語(yǔ)料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語(yǔ)言事實(shí);(4)專用的(Specialized):只收集用于某一特定用途的語(yǔ)料。除此之外,按照語(yǔ)料的語(yǔ)種,語(yǔ)料庫(kù)也可以分成單語(yǔ)的(Monolingual)、雙語(yǔ)的(Bilingual)和多語(yǔ)的(Multilingual)。按照語(yǔ)料的采集單位,語(yǔ)料庫(kù)又可以分為語(yǔ)篇的、語(yǔ)句的、短語(yǔ)的。雙語(yǔ)和多語(yǔ)語(yǔ)料庫(kù)按照語(yǔ)料的組織形式,還可以分為平行(對(duì)齊)語(yǔ)料庫(kù)和比較語(yǔ)料庫(kù),前者的語(yǔ)料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語(yǔ)詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語(yǔ)言文本收集到一起,多用于語(yǔ)言對(duì)比研究。

      語(yǔ)料庫(kù)建設(shè)中涉及的主要問(wèn)題包括:

      (1)設(shè)計(jì)和規(guī)劃:主要考慮語(yǔ)料庫(kù)的用途、類型、規(guī)模、實(shí)現(xiàn)手段、質(zhì)量保證、可擴(kuò)展性等。

      (2)語(yǔ)料的采集:主要考慮語(yǔ)料獲取、數(shù)據(jù)格式、字符編碼、語(yǔ)料分類、文本描述,以及各類語(yǔ)料的比例以保持平衡性等。

      (3)語(yǔ)料的加工:包括標(biāo)注項(xiàng)目(詞語(yǔ)單位、詞性、句法、語(yǔ)義、語(yǔ)體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。

      (4)語(yǔ)料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(hù)(語(yǔ)料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語(yǔ)料描述信息項(xiàng)目管理)、語(yǔ)料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計(jì)、打印等)。

      (5)語(yǔ)料庫(kù)的應(yīng)用:針對(duì)語(yǔ)言學(xué)理論和應(yīng)用領(lǐng)域中的各種問(wèn)題,研究和開(kāi)發(fā)處理語(yǔ)料的算法和軟件工具。

      我國(guó)語(yǔ)料庫(kù)的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語(yǔ)詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語(yǔ)料庫(kù)方法在自然語(yǔ)言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語(yǔ)料庫(kù),研究的內(nèi)容涉及語(yǔ)料庫(kù)建設(shè)中的各個(gè)問(wèn)題。90年代末到新世紀(jì)初這幾年是語(yǔ)料庫(kù)開(kāi)發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語(yǔ)言信息處理和言語(yǔ)工程領(lǐng)域以外,語(yǔ)料庫(kù)方法在語(yǔ)言教學(xué)、詞典編纂、現(xiàn)代漢語(yǔ)和漢語(yǔ)史研究等方面也得到了越來(lái)越多的應(yīng)用。

      語(yǔ)料庫(kù)與語(yǔ)言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語(yǔ)料庫(kù)方法的時(shí)候,在自然語(yǔ)言理解和生成、機(jī)器翻譯等研究中,分析語(yǔ)言的主要方法是基于規(guī)則的(Rule-based)。對(duì)于用規(guī)則無(wú)法表達(dá)或不能涵蓋的語(yǔ)言事實(shí),計(jì)算機(jī)就很難處理。語(yǔ)料庫(kù)出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語(yǔ)言模型,研究和應(yīng)用基于統(tǒng)計(jì)的(Statistical-based)語(yǔ)言處理技術(shù),在信息檢索、文本分類、文本過(guò)濾、信息抽取等應(yīng)用方向取得了進(jìn)展。另一方面,語(yǔ)言信息處理技術(shù)的發(fā)展也為語(yǔ)料庫(kù)的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語(yǔ)料的自動(dòng)分詞和標(biāo)注,到語(yǔ)料的統(tǒng)計(jì)和檢索,自然語(yǔ)言信息處理的研究都為語(yǔ)料的加工提供了關(guān)鍵性的技術(shù)。

      下面先簡(jiǎn)要敘述1998年到2003年中國(guó)語(yǔ)料庫(kù)建設(shè)的基本情況,然后介紹語(yǔ)料庫(kù)的加工、管理和規(guī)范問(wèn)題,最后談?wù)務(wù)Z料庫(kù)方法在語(yǔ)言研究和語(yǔ)言工程等方面的應(yīng)用。由于以前的《中國(guó)語(yǔ)言學(xué)年鑒》很少談及語(yǔ)料庫(kù)問(wèn)題,為了盡可能全面地反映我國(guó)語(yǔ)料庫(kù)研究和應(yīng)用的情況,必要時(shí)會(huì)將時(shí)間上限向前延伸幾年。

      二 中國(guó)語(yǔ)料庫(kù)建設(shè)的基本情況

      90年代末到新世紀(jì)初這幾年投入建設(shè)或開(kāi)始使用的語(yǔ)料庫(kù)有數(shù)十個(gè)之多,不同的應(yīng)用目的使這些語(yǔ)料庫(kù)的類型各不相同,對(duì)語(yǔ)料的加工方法也各不相同。下面是其中已開(kāi)始使用并且具有一定代表性的語(yǔ)料庫(kù)。

      (一)現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)

      這是一個(gè)由國(guó)家語(yǔ)言文字工作委員會(huì)主持建立、面向全社會(huì)應(yīng)用需求的大型通用語(yǔ)料庫(kù),從90年代初開(kāi)始建設(shè),計(jì)劃規(guī)模7000萬(wàn)字,主要應(yīng)用目標(biāo)是語(yǔ)言文字信息處理、語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定、語(yǔ)言文字的學(xué)術(shù)研究、語(yǔ)文教育、以及語(yǔ)言文字的社會(huì)應(yīng)用。

      這個(gè)語(yǔ)料庫(kù)收錄的語(yǔ)料以書(shū)面語(yǔ)為主、以書(shū)面語(yǔ)轉(zhuǎn)述的口語(yǔ)為輔。語(yǔ)料來(lái)源是1919年至今,主要是1977年至今出版的教材、報(bào)紙、綜合性刊物、專業(yè)刊物和圖書(shū)。在設(shè)計(jì)原則上,講求通用性、描述性、實(shí)用性和抽樣的科學(xué)性。在語(yǔ)料分類方面,以“門(mén)類為主,語(yǔ)體為輔”為原則制定三個(gè)大類:

      第一類:人文與社會(huì)科學(xué)類(包括8個(gè)次類、30個(gè)細(xì)類)1.政法類: 哲學(xué) 政治 宗教 法律 2.歷史類: 歷史 考古 民族

      3.社會(huì)類: 社會(huì)學(xué) 心理 語(yǔ)言文字 教育 文藝?yán)碚?新聞 民俗

      4.經(jīng)濟(jì)類: 工業(yè)經(jīng)濟(jì) 農(nóng)業(yè)經(jīng)濟(jì) 政治經(jīng)濟(jì) 財(cái)貿(mào)經(jīng)濟(jì) 5.藝術(shù)類: 音樂(lè) 美術(shù) 舞蹈 戲劇

      6.文學(xué)類: 小說(shuō) 散文 傳記 報(bào)告文學(xué) 科幻 口語(yǔ) 7.軍體類: 軍事 體育 8.生活類

      第二類:自然科學(xué)類(包括6個(gè)次類)1.?dāng)?shù)理類 2.生化類 3.天文地理類 4.海洋氣象類 5.農(nóng)林類 6.醫(yī)藥衛(wèi)生類

      第三類:綜合類(包括6個(gè)次類,30多個(gè)細(xì)類)

      1.行政公文類: 請(qǐng)示 報(bào)告 批復(fù) 命令 指示 布告 紀(jì)要 通知等

      2.章程法規(guī)類: 章程 條例 細(xì)則 制度 公約 辦法 法律條文等 3.司法文書(shū)類: 訴訟 辯護(hù)詞 控告信 委托書(shū)等 4.商業(yè)文告類: 說(shuō)明 廣告 調(diào)查報(bào)告 經(jīng)濟(jì)合同等

      5.禮儀辭令類: 歡迎詞 賀電 訃告 唁電 慰問(wèn)信 祝酒詞等 6.實(shí)用文書(shū)類: 請(qǐng)假條 檢討 申請(qǐng)書(shū) 請(qǐng)?jiān)笗?shū)等

      在不同類別、不同來(lái)源、不同時(shí)期的語(yǔ)言材料中,按照不等密度的思路確定合適的語(yǔ)料選取比例,從共時(shí)和歷時(shí)兩個(gè)角度保證入選語(yǔ)料的平衡性,是這個(gè)語(yǔ)料庫(kù)的特點(diǎn)。譬如,在語(yǔ)言材料的年限方面,選材比例是:

      1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語(yǔ)言材料的門(mén)類、語(yǔ)體和來(lái)源方面,選材比例是:

      人文與社會(huì)科學(xué)類占59.6%。其中各個(gè)次類在本大類中的比例是:

      政法 12.7% 歷史 8.4% 社會(huì) 14.0% 經(jīng)濟(jì) 9.8% 藝術(shù) 6.7% 文學(xué) 44.9% 軍體 2.3% 生活 1.4% 自然科學(xué)類占17.24%。其中各個(gè)次類在本大類中的比例是:

      數(shù)理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農(nóng)林 22.8% 醫(yī)藥衛(wèi)生 17.7% 綜合類占9.36%。其中各個(gè)次類在本大類中的比例是:

      各類應(yīng)用文 91.1% 其他 8.9% 報(bào)紙類占13.79%。其中各個(gè)次類在本大類中的比例是: 全國(guó)性報(bào)刊 25% 省市報(bào)刊 75% 這個(gè)語(yǔ)料庫(kù)在選材過(guò)程中收集和記錄語(yǔ)料的有關(guān)描述信息,為每個(gè)語(yǔ)料樣本設(shè)立了20個(gè)描述項(xiàng)目:總號(hào)、分類號(hào)、樣本名稱、類別、作者、寫(xiě)作時(shí)間、書(shū)刊名稱、編著者、出版者、出版日期、期號(hào)(版面號(hào))、版次(初版日期)、印冊(cè)數(shù)、總頁(yè)數(shù)、開(kāi)本、選樣方式、樣本起止頁(yè)數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡(jiǎn)字。用戶可以利用這些語(yǔ)料描述標(biāo)記根據(jù)各自的需要進(jìn)行各種方式的檢索。語(yǔ)料庫(kù)的建庫(kù)工作分為兩步,第一步先建立核心語(yǔ)料庫(kù)(由7000萬(wàn)字的語(yǔ)料中篩選出2000萬(wàn)字語(yǔ)料組成)。到90年代末,完成了2000萬(wàn)字生語(yǔ)料的收錄工作。從2001年開(kāi)始,對(duì)2000萬(wàn)字核心語(yǔ)料進(jìn)行分詞和詞性標(biāo)注加工。

      (二)《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)

      《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所和日本富士通公司合作,從1999年開(kāi)始,到2002年完成,原始語(yǔ)料取自1998年全年的《人民日?qǐng)?bào)》,共約2700萬(wàn)字,到2003年又?jǐn)U充到3500萬(wàn)字,是我國(guó)第一個(gè)大型的現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)加工的項(xiàng)目有詞語(yǔ)切分和詞性標(biāo)注,還有專有名詞(人名、地名、團(tuán)體機(jī)構(gòu)名稱等)標(biāo)注、語(yǔ)素子類標(biāo)注、動(dòng)詞、形容詞的特殊用法標(biāo)注和短語(yǔ)型標(biāo)注。下面是一段語(yǔ)料標(biāo)注的示例,對(duì)于1998年1月1日第5版第1篇文章的第11段:

      我國(guó)的國(guó)有企業(yè)改革見(jiàn)成效。位于河南的中國(guó)一拖集團(tuán)有限責(zé)任公司面向市場(chǎng),積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機(jī)生產(chǎn)線。(趙鵬攝)

      標(biāo)注后的形式是:

      19980101-05-001-011/m 我國(guó)/n 的/u 國(guó)有/vn 企業(yè)/n 改革/v 見(jiàn)/v 成效/n。/w 位于/v 河南/ns 的/u [中國(guó)/ns 一拖/j 集團(tuán)/n 有限/a 責(zé)任/n 公司/n]nt 面向/v 市場(chǎng)/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn 和/c 新/a 產(chǎn)品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機(jī)/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w 在每一個(gè)切分出來(lái)的詞和標(biāo)點(diǎn)符號(hào)后面,是該詞語(yǔ)的標(biāo)記。譬如詞性標(biāo)記(n,v,a,u,m,w等),專有名詞標(biāo)記(nr,ns,nz等),語(yǔ)素子類標(biāo)記(Vg等),動(dòng)詞和形容詞特殊用法標(biāo)記(vn,ad)。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》為基礎(chǔ)詞庫(kù),在一個(gè)加工規(guī)范的指導(dǎo)下標(biāo)注的。

      利用《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù),人們可以從各個(gè)角度考察和分析語(yǔ)言事實(shí),統(tǒng)計(jì)各種語(yǔ)言單位出現(xiàn)的頻率,譬如,詞語(yǔ)或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語(yǔ)素字的使用情況,等等。也可以從語(yǔ)料里提取各種語(yǔ)言單位或語(yǔ)句片段作為研究實(shí)例。與僅僅以漢字串的形式表示的“生語(yǔ)料”相比,經(jīng)過(guò)標(biāo)注的“熟語(yǔ)料”顯然含有更多的語(yǔ)言學(xué)特征信息,對(duì)漢語(yǔ)詞匯研究、語(yǔ)法研究和漢語(yǔ)信息處理系統(tǒng)來(lái)說(shuō)是更好的語(yǔ)言知識(shí)資源。

      《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998年上半年)共1300萬(wàn)字已經(jīng)通過(guò)《人民日?qǐng)?bào)》新聞信息中心公開(kāi)提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998年1月)近200萬(wàn)字在互聯(lián)網(wǎng)上公布,供自由下載。

      (三)用于語(yǔ)言教學(xué)和研究的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)

      建立現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)的主要目的之一是對(duì)外漢語(yǔ)教學(xué)和現(xiàn)代漢語(yǔ)研究,可以分為書(shū)面語(yǔ)語(yǔ)料庫(kù)和以文本形式表示的口語(yǔ)語(yǔ)料庫(kù)兩類。前者如北京語(yǔ)言大學(xué)的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)、現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù),后者如中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所的北京地區(qū)現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料庫(kù)。

      漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)目標(biāo)是為對(duì)外漢語(yǔ)教學(xué)、中介語(yǔ)研究、偏誤分析和漢語(yǔ)本體研究提供資源,因此它的語(yǔ)料來(lái)源很有對(duì)外漢語(yǔ)教學(xué)的特點(diǎn)。作者先在北京和其他省市的9所高等院校里,從來(lái)自96個(gè)國(guó)家和地區(qū)的1635位外國(guó)留學(xué)生那里收集了成篇成段的漢語(yǔ)作文或練習(xí)材料5774篇,共3528988字。再?gòu)闹谐槿×?40人的1731篇語(yǔ)料,共有44218句,1041274字。全部語(yǔ)料都記錄了學(xué)生姓名、性別、年齡、國(guó)別、是否華裔、第一語(yǔ)言、文化程度、所學(xué)主要教材、語(yǔ)料類別、寫(xiě)作時(shí)間、提供者等23項(xiàng)屬性。然后對(duì)這104萬(wàn)字的語(yǔ)料進(jìn)行詞語(yǔ)切分、詞性標(biāo)注以及一些專用的語(yǔ)言學(xué)特征標(biāo)注。例如,標(biāo)出了字、詞、句、篇等不同的層次,對(duì)語(yǔ)料的非規(guī)范形式(例如:錯(cuò)字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標(biāo)記,記錄其對(duì)應(yīng)的規(guī)范形式。這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)有語(yǔ)篇屬性登錄、文本過(guò)濾、文字預(yù)處理信息登錄、語(yǔ)料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動(dòng)標(biāo)注以及語(yǔ)料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語(yǔ)料庫(kù)的建立、管理和維護(hù),以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比,中介語(yǔ)語(yǔ)料庫(kù)能夠更好地反映學(xué)生學(xué)習(xí)漢語(yǔ)的情況,幫助教師更加全面地觀察他們的學(xué)習(xí)過(guò)程,了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語(yǔ)作為第二語(yǔ)言的教學(xué)中,為教材編寫(xiě)、課堂教學(xué)、測(cè)試等環(huán)節(jié)提供依據(jù)。

      現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù)的建設(shè)目標(biāo)是為語(yǔ)言學(xué)家提供一個(gè)研究平臺(tái),由2000萬(wàn)字的粗語(yǔ)料庫(kù)和200萬(wàn)字經(jīng)過(guò)分詞和詞性標(biāo)注的精語(yǔ)料庫(kù)兩個(gè)部分組成。粗語(yǔ)料庫(kù)收錄的語(yǔ)料樣本中絕大部分是九十年代的出版物,有《人民日?qǐng)?bào)》1000萬(wàn)字,《中國(guó)新聞》500萬(wàn)字,各種書(shū)籍250萬(wàn)字,文學(xué)作品150萬(wàn)字,準(zhǔn)口語(yǔ)材料(書(shū)面形式的對(duì)話、獨(dú)白)100萬(wàn)字。精語(yǔ)料庫(kù)的200萬(wàn)字語(yǔ)料樣本是從粗語(yǔ)料庫(kù)中按照規(guī)定的比例由計(jì)算機(jī)隨機(jī)抽取的,有書(shū)面語(yǔ)語(yǔ)料160萬(wàn)字,準(zhǔn)口語(yǔ)語(yǔ)料40萬(wàn)字,是從語(yǔ)體、題材、體裁三個(gè)方面均衡選取的平衡語(yǔ)料庫(kù)。為了對(duì)這些語(yǔ)料進(jìn)行詞語(yǔ)切分和詞性標(biāo)注,作者制定了詞語(yǔ)切分的細(xì)則和詞性標(biāo)記體系的原則,采用了一個(gè)含有112個(gè)詞類標(biāo)記的標(biāo)記集,確定了兼類詞的處理方法。這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)具有建庫(kù)、檢索、瀏覽、統(tǒng)計(jì)、輸出等功能,可以按詞或詞類檢索,統(tǒng)計(jì)出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長(zhǎng)、平均句長(zhǎng)等結(jié)果。這個(gè)語(yǔ)料庫(kù)建成以后,很快應(yīng)用在現(xiàn)代漢語(yǔ)語(yǔ)法、漢語(yǔ)教學(xué)和漢語(yǔ)信息處理的研究中,研究?jī)?nèi)容涉及現(xiàn)代漢語(yǔ)的插入語(yǔ)、漢語(yǔ)句子的主題-主語(yǔ)標(biāo)注、V+N序列實(shí)驗(yàn)分析、詞性標(biāo)注中詞語(yǔ)歸類問(wèn)題、動(dòng)賓組合的自動(dòng)獲取與標(biāo)注,等等。

      建設(shè)北京地區(qū)現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料庫(kù)的目的是,通過(guò)收集大量的現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料研究現(xiàn)場(chǎng)即席話語(yǔ)的各種動(dòng)態(tài)機(jī)制,以揭示現(xiàn)場(chǎng)即席話語(yǔ)的使用規(guī)律。這個(gè)語(yǔ)料庫(kù)的研究策略和取樣方法很有特點(diǎn),首先是嚴(yán)格區(qū)分資源庫(kù)和語(yǔ)料庫(kù),資源庫(kù)收集符合現(xiàn)場(chǎng)即席話語(yǔ)定義的錄音材料,語(yǔ)料庫(kù)收錄按照一定標(biāo)準(zhǔn)從資源庫(kù)提取出來(lái)的材料;另外在語(yǔ)料采樣前先做摸底性研究,通過(guò)研究對(duì)現(xiàn)場(chǎng)即席話語(yǔ)的真實(shí)情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場(chǎng)典型材料,這是一種層次范疇化的取樣方法。這個(gè)語(yǔ)料庫(kù)目前正在建設(shè)之中,已經(jīng)取得了近600小時(shí)的錄音材料和50多小時(shí)的錄象材料。

      在用于漢語(yǔ)研究的語(yǔ)料庫(kù)中,講究選材均衡,注重語(yǔ)料加工,同時(shí)也提供公開(kāi)服務(wù)的,當(dāng)數(shù)臺(tái)灣中央研究院歷史語(yǔ)言研究所的現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)(簡(jiǎn)稱Sinica Corpus)。這個(gè)語(yǔ)料庫(kù)的規(guī)模為500萬(wàn)個(gè)詞,每個(gè)句子都依詞斷開(kāi),標(biāo)示詞類標(biāo)記,并且配備了檢索系統(tǒng),在網(wǎng)上開(kāi)放供大家使用。根據(jù)自己制定的一套漢語(yǔ)文本屬性特征為語(yǔ)料分類,在不同的類別上盡量均衡地采集語(yǔ)料,是這個(gè)語(yǔ)料庫(kù)的特點(diǎn)之一。文本屬性用來(lái)說(shuō)明文檔的呈現(xiàn)方式、文章的寫(xiě)作方式、文章寫(xiě)作的內(nèi)容和文檔的來(lái)源出處,包括7類,每類下設(shè)若干小類:

      文類(文檔的呈現(xiàn)方式)

      報(bào)導(dǎo)、評(píng)論、廣告圖文、信函、公告啟事、小說(shuō)故事寓言、散文、傳記日記、詩(shī)歌、語(yǔ)錄、說(shuō)明手冊(cè)、劇本、會(huì)話、演講、會(huì)議記錄 文體(文章的寫(xiě)作方式)記敘、論說(shuō)、說(shuō)明、描寫(xiě) 語(yǔ)式(文檔的呈現(xiàn)方式)

      書(shū)面語(yǔ)、演講稿、劇本/臺(tái)辭、口語(yǔ)談話、會(huì)議記錄 主題(文章寫(xiě)作的內(nèi)容)

      哲學(xué)、科學(xué)、社會(huì)、藝術(shù)、生活、文學(xué)

      媒體 報(bào)紙、一般雜志、學(xué)術(shù)期刊、教科書(shū)、工具書(shū)、學(xué)術(shù)論著、一般圖書(shū)、書(shū)信、視聽(tīng)媒體、其它

      作者 姓名、性別、國(guó)籍、母語(yǔ)

      出版 出版單位、出版地、出版日期、版次

      不同研究目的的語(yǔ)言學(xué)者可以自己按語(yǔ)式、文體、媒體和主題的小類選取不同類別的語(yǔ)料,組成“自訂語(yǔ)料庫(kù)”,在“自訂語(yǔ)料庫(kù)”的范圍內(nèi)進(jìn)行語(yǔ)料的檢索和統(tǒng)計(jì)。除了通常的按詞語(yǔ)、詞類的檢索和統(tǒng)計(jì)以外,這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)還提供了一種“進(jìn)階處理”功能,對(duì)檢索出來(lái)的數(shù)據(jù)作進(jìn)一步處理,對(duì)處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

      (四)面向語(yǔ)言信息處理的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)

      90年代中后期,面向語(yǔ)言信息處理的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)開(kāi)始建立并投入應(yīng)用。其中最早開(kāi)發(fā)的是清華大學(xué)用于研究和開(kāi)發(fā)漢語(yǔ)自動(dòng)分詞技術(shù)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),經(jīng)過(guò)幾年的積累已達(dá)到8億多字生語(yǔ)料。在這個(gè)語(yǔ)料庫(kù)的支持下,用統(tǒng)計(jì)語(yǔ)言模型的方法研究了漢語(yǔ)自動(dòng)分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬(wàn)多個(gè)詞語(yǔ)的《信息處理用現(xiàn)代漢語(yǔ)分詞詞表》。這些研究工作體現(xiàn)了我國(guó)漢語(yǔ)自動(dòng)分詞技術(shù)的發(fā)展水平,詞表被許多漢語(yǔ)自動(dòng)分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

      TH通用語(yǔ)料庫(kù)系統(tǒng)是清華大學(xué)建立的另一個(gè)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)有兩個(gè)特點(diǎn),一是語(yǔ)料庫(kù)管理系統(tǒng)根據(jù)不同的加工深度,分四個(gè)等級(jí)管理語(yǔ)料。第一級(jí)是生語(yǔ)料分庫(kù),有4千余萬(wàn)字;第二級(jí)以上都是加工程度不同的熟語(yǔ)料庫(kù),其中第二級(jí)存放經(jīng)過(guò)自動(dòng)分詞并由人工校對(duì)過(guò)的初加工語(yǔ)料500余萬(wàn)字;第三級(jí)存放經(jīng)過(guò)詞性標(biāo)注和人工校對(duì)的語(yǔ)料約300萬(wàn)字;第四級(jí)是經(jīng)過(guò)句子成分標(biāo)注和人工校對(duì)的語(yǔ)料。每個(gè)分庫(kù)又按語(yǔ)料的來(lái)源分成一般書(shū)籍、報(bào)紙、雜志、論文和工具書(shū)五類子庫(kù)。不同等級(jí)的語(yǔ)料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個(gè)特點(diǎn)是在這個(gè)語(yǔ)料庫(kù)的支持下,進(jìn)行了漢語(yǔ)信息處理技術(shù)的研究。譬如,采用以謂語(yǔ)為中心的句型成分分析與語(yǔ)料統(tǒng)計(jì)相結(jié)合的方法,自動(dòng)分析漢語(yǔ)的句型,提出了一個(gè)“漢語(yǔ)句型頻度表”;在漢語(yǔ)文本中自動(dòng)標(biāo)注句子成分和句型成分的邊界;根據(jù)指定的句型在語(yǔ)料庫(kù)里搜尋句子實(shí)例,等等。

      HuaYu人工標(biāo)注語(yǔ)料庫(kù)是清華大學(xué)和北京語(yǔ)言大學(xué)合作建立的一個(gè)現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個(gè)大類收錄了200余萬(wàn)字語(yǔ)料。它的特點(diǎn)是講究加工的深度,除了詞語(yǔ)切分和詞性標(biāo)注以外,還根據(jù)語(yǔ)句中動(dòng)詞的類型和句子的長(zhǎng)度進(jìn)行“語(yǔ)塊”標(biāo)注和“句法樹(shù)”標(biāo)注,目的是為建立漢語(yǔ)短語(yǔ)分析或句法分析的語(yǔ)言模型獲取統(tǒng)計(jì)數(shù)據(jù)提供資源。下面分別是語(yǔ)塊標(biāo)注和句法樹(shù)標(biāo)注的示例。

      對(duì)句子“自古以來(lái),人類就重視檔案的保存和利用,設(shè)置館庫(kù)、選派專人進(jìn)行管理?!边M(jìn)行語(yǔ)塊標(biāo)注以后得到的是一個(gè)無(wú)嵌套的線性序列,其中S是主語(yǔ)語(yǔ)塊,P是述語(yǔ)語(yǔ)塊,O是賓語(yǔ)語(yǔ)塊: [D 自/p 古/t 以來(lái)/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN,/, [P 設(shè)置/v [O 館庫(kù)/n、/、[P 選派/v [O 專人/n [P 進(jìn)行/v [O 管理v。

      對(duì)句子“我哥哥送給我一本很漂亮的書(shū)?!边M(jìn)行句法樹(shù)標(biāo)注以后,得到的是一個(gè)與樹(shù)形結(jié)構(gòu)等價(jià)的線性序列:

      [ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書(shū)/n ] ] ] ]。/w ]

      (五)用于開(kāi)發(fā)特定語(yǔ)言分析技術(shù)的專用語(yǔ)料庫(kù)

      這類語(yǔ)料庫(kù)是針對(duì)漢語(yǔ)信息處理技術(shù)的需要專門(mén)建立的。例如山西大學(xué)的專有名詞標(biāo)注語(yǔ)料庫(kù)和分詞與詞性標(biāo)注語(yǔ)料庫(kù)。

      分詞與詞性標(biāo)注語(yǔ)料庫(kù),規(guī)模為500萬(wàn)字,帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時(shí)依據(jù)《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》和《信息處理用現(xiàn)代漢語(yǔ)詞類及標(biāo)記集規(guī)范》。在這個(gè)語(yǔ)料庫(kù)的支持下,開(kāi)發(fā)漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注軟件,研究自動(dòng)分詞和詞性標(biāo)注的評(píng)測(cè)技術(shù)。為了解決漢語(yǔ)自動(dòng)分詞中的切分歧義問(wèn)題,還建立了交集型歧義字段庫(kù)和組合型歧義字段庫(kù),專門(mén)收集這兩種類型的歧義切分實(shí)例。前者有7.8萬(wàn)字,后者收錄了140多條。并且在分詞和詞性標(biāo)注語(yǔ)料庫(kù)里作了這兩類切分歧義的標(biāo)注。利用這些語(yǔ)料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達(dá)到90%以上。

      專有名詞標(biāo)注語(yǔ)料庫(kù)用于研究漢語(yǔ)自動(dòng)分詞中專有名詞的識(shí)別算法。其中包括標(biāo)注了中國(guó)地名的語(yǔ)料280萬(wàn)字,標(biāo)注了中國(guó)人姓名的語(yǔ)料300萬(wàn)字,標(biāo)注了西文姓名的語(yǔ)料250萬(wàn)字,標(biāo)注了漢語(yǔ)機(jī)構(gòu)名稱的語(yǔ)料50萬(wàn)字,還有標(biāo)注了網(wǎng)絡(luò)新詞語(yǔ)的語(yǔ)料150萬(wàn)字。利用這些語(yǔ)料,建立了中國(guó)地名用字、用詞庫(kù),姓氏人名庫(kù),姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計(jì)語(yǔ)言模型的方法識(shí)別專有名詞。

      (六)雙語(yǔ)語(yǔ)料庫(kù)

      基于實(shí)例的機(jī)器翻譯(Example-based)需要大規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)來(lái)支持。語(yǔ)料庫(kù)里的源語(yǔ)和目標(biāo)語(yǔ)實(shí)例要按照相同級(jí)別的翻譯單位一一對(duì)齊。目前已有的雙語(yǔ)平行語(yǔ)料庫(kù)主要是漢語(yǔ)和英語(yǔ)的,語(yǔ)料對(duì)齊的單位有句子級(jí)的、子句級(jí)的、短語(yǔ)級(jí)的,也有詞匯級(jí)的。機(jī)器翻譯系統(tǒng)把要翻譯的句子與語(yǔ)料庫(kù)里的源語(yǔ)實(shí)例進(jìn)行對(duì)比,分析相似程度,找到最適合的源語(yǔ)實(shí)例,再參照與它對(duì)齊的目標(biāo)語(yǔ)實(shí)例生成譯文。用于這類機(jī)器翻譯系統(tǒng)的雙語(yǔ)語(yǔ)料庫(kù)必須有一定的規(guī)模,用人工做語(yǔ)料對(duì)齊的工作顯然很難滿足要求。這就使文本自動(dòng)對(duì)齊成為建立雙語(yǔ)語(yǔ)料庫(kù)的關(guān)鍵技術(shù)。

      在目前已有的雙語(yǔ)語(yǔ)料庫(kù)中,哈爾濱工業(yè)大學(xué)的漢英平行語(yǔ)料庫(kù)已經(jīng)直接用來(lái)開(kāi)發(fā)英漢雙向機(jī)器翻譯系統(tǒng)。這個(gè)語(yǔ)料庫(kù)有6萬(wàn)個(gè)漢語(yǔ)和英語(yǔ)的句子,使用多級(jí)對(duì)齊加工技術(shù),分別按照句子、短語(yǔ)結(jié)構(gòu)和詞一一對(duì)齊。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢英雙語(yǔ)語(yǔ)料庫(kù)有20萬(wàn)個(gè)句對(duì),也完成了句子一級(jí)的對(duì)齊,并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國(guó)科學(xué)院軟件研究所等單位也建立了按句對(duì)齊的漢英雙語(yǔ)語(yǔ)料庫(kù)。除此之外,還有以語(yǔ)段或短語(yǔ)為單位收集的漢英雙語(yǔ)語(yǔ)料庫(kù),譬如中國(guó)科學(xué)院自動(dòng)化研究所的漢英雙語(yǔ)短語(yǔ)庫(kù),有3~5萬(wàn)對(duì)已對(duì)齊的漢語(yǔ)和英語(yǔ)短語(yǔ)。東北大學(xué)的英漢雙語(yǔ)語(yǔ)段庫(kù),用來(lái)幫助建立電子版的英漢搭配詞典。

      (七)面向漢語(yǔ)史研究的語(yǔ)料庫(kù)

      面向漢語(yǔ)史研究的語(yǔ)料庫(kù)建設(shè)是從搜集漢語(yǔ)史文獻(xiàn)資料開(kāi)始的。臺(tái)灣中央研究院歷史語(yǔ)言研究所從90年代初期就開(kāi)始了這項(xiàng)工作,他們先收集上古漢語(yǔ)的語(yǔ)料,然后擴(kuò)展到中古漢語(yǔ)和近代漢語(yǔ)。90年代中后期逐步開(kāi)始上古漢語(yǔ)語(yǔ)料和近代漢語(yǔ)的標(biāo)注,在該院信息研究所和計(jì)算中心的協(xié)助下進(jìn)行標(biāo)注技術(shù)和檢索技術(shù)的開(kāi)發(fā)。根據(jù)是否經(jīng)過(guò)分詞處理和詞性標(biāo)注,臺(tái)灣中央研究院的古漢語(yǔ)語(yǔ)料庫(kù)和近代漢語(yǔ)語(yǔ)料庫(kù)可以分成兩類:生語(yǔ)料庫(kù)和標(biāo)記語(yǔ)料庫(kù)。目前生語(yǔ)料庫(kù)收集的語(yǔ)料已涵蓋上古漢語(yǔ)(先秦至西漢)、中古漢語(yǔ)(東漢魏晉南北朝)、近代漢語(yǔ)(唐五代以后)的大部分重要文獻(xiàn)資料,并己陸續(xù)開(kāi)放使用。在標(biāo)記語(yǔ)料庫(kù)方面,上古漢語(yǔ)及近代漢語(yǔ)都已有部分語(yǔ)料完成標(biāo)注工作,也逐步提供網(wǎng)上檢索。2001年底,開(kāi)放了近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)WWW版供各界使用,首先提供查詢的文獻(xiàn)是《紅樓夢(mèng)》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項(xiàng)及詞類的同時(shí)給出例句的出處,便于歷史語(yǔ)法的研究者使用。

      多年來(lái)中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所也一直在致力于文獻(xiàn)資料的建設(shè),搜集整理了近代漢語(yǔ)書(shū)面語(yǔ)語(yǔ)料150萬(wàn)字,中古近代漢語(yǔ)語(yǔ)料約1千萬(wàn)字,部分語(yǔ)料已作了標(biāo)注。目前已經(jīng)完成了一個(gè)小型語(yǔ)料庫(kù),包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語(yǔ)類、劉知遠(yuǎn)諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書(shū)、經(jīng)筵講義等十余種文獻(xiàn),成為漢語(yǔ)史和語(yǔ)言學(xué)理論研究的重要資源。此外,語(yǔ)言研究所的先秦專書(shū)電子文檔有4部文獻(xiàn),共約120萬(wàn)字,并且已由古漢語(yǔ)學(xué)者逐篇逐句標(biāo)注了語(yǔ)法信息。

      上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語(yǔ)史研究的方向,建立了歷史文獻(xiàn)語(yǔ)料庫(kù)。四川大學(xué)的中古漢語(yǔ)語(yǔ)料庫(kù)有1億字的中古漢語(yǔ)語(yǔ)料和有關(guān)中古漢語(yǔ)研究的資料。浙江師范大學(xué)的楚辭語(yǔ)庫(kù)、前四史語(yǔ)庫(kù)、六朝語(yǔ)庫(kù)、太平廣記語(yǔ)庫(kù)、唐詩(shī)語(yǔ)庫(kù)、宋詞語(yǔ)庫(kù),已用于“前四史”語(yǔ)言研究和唐宋詩(shī)詞語(yǔ)詞研究。

      目前歷史文獻(xiàn)語(yǔ)料庫(kù)建設(shè)的特點(diǎn)是依托學(xué)科建設(shè)和研究方向,廣泛收集資料,注重校勘精審。隨著漢語(yǔ)史研究和語(yǔ)料庫(kù)應(yīng)用的發(fā)展,資源共享和語(yǔ)料加工將得到越來(lái)越多的重視。歷史文獻(xiàn)資源共享,首先要避免語(yǔ)料的重復(fù)收集,還要采用國(guó)際通用的標(biāo)準(zhǔn)處理語(yǔ)料文本,使語(yǔ)料能夠準(zhǔn)確、方便地交換和使用。語(yǔ)料加工則是充分發(fā)掘語(yǔ)料應(yīng)用價(jià)值的基礎(chǔ)工作,從收集歷史文獻(xiàn)的電子文檔,到建成一個(gè)具有必要的語(yǔ)言學(xué)標(biāo)記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語(yǔ)料庫(kù),語(yǔ)料的加工是不可或缺的一步。

      (八)比較語(yǔ)料庫(kù)

      為了研究漢語(yǔ)在不同地區(qū)的使用情況,香港城市大學(xué)建立了LIVAC共時(shí)語(yǔ)料庫(kù)(Linguistic Variation in Chinese Speech Communities)。語(yǔ)料來(lái)自香港、臺(tái)灣、北京、上海、澳門(mén)及新加坡六地有代表性的中文報(bào)紙,以及電子媒介上的新聞報(bào)道。自1995年7月開(kāi)始,每四天一次,收集這六個(gè)地區(qū)的對(duì)等書(shū)面語(yǔ)文本,每次約兩萬(wàn)字。內(nèi)容包括新聞、特寫(xiě)、評(píng)論等文章。到2003年上半年,已收集了1億1千多萬(wàn)字、超過(guò)56萬(wàn)個(gè)詞條。計(jì)劃收集到2005年6月,囊括新舊世紀(jì)交接點(diǎn)前后各五年各地華語(yǔ)社區(qū)有代表性的重要語(yǔ)言數(shù)據(jù),供漢語(yǔ)的各種共時(shí)比較研究使用。

      在語(yǔ)料的組織和加工方面,這個(gè)語(yǔ)料庫(kù)用計(jì)算機(jī)自動(dòng)分詞,再經(jīng)人工校對(duì)分類,可以依字、詞、句為基礎(chǔ)進(jìn)行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計(jì)功能。語(yǔ)言學(xué)家能通過(guò)這個(gè)語(yǔ)料庫(kù)考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語(yǔ),還可以對(duì)具體字或詞的頻率作統(tǒng)計(jì)比較,對(duì)字詞的差別作計(jì)量分析。對(duì)研究華人社區(qū)的文化、社會(huì)、語(yǔ)言差異也有作用。這個(gè)語(yǔ)料庫(kù)的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

      (九)少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)

      新疆大學(xué)從2002年起開(kāi)始建設(shè)現(xiàn)代維吾爾語(yǔ)語(yǔ)料庫(kù)系統(tǒng),計(jì)劃包括5個(gè)部分:語(yǔ)料庫(kù)、電子語(yǔ)法信息詞典、規(guī)則庫(kù)、統(tǒng)計(jì)信息庫(kù)和檢索統(tǒng)計(jì)軟件包。其中語(yǔ)料庫(kù)部分又分成生語(yǔ)料庫(kù)(經(jīng)初步整理的原始語(yǔ)料)和加工語(yǔ)料庫(kù)(經(jīng)過(guò)標(biāo)注和校對(duì)的語(yǔ)料)。目前已有生語(yǔ)料800萬(wàn)詞。另外,新疆大學(xué)也正在以新聞?lì)I(lǐng)域的維漢-漢維機(jī)器翻譯為目標(biāo),建設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)。內(nèi)蒙古大學(xué)的中世紀(jì)蒙古文語(yǔ)料庫(kù)收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻(xiàn)集》等歷史文獻(xiàn)。他們還建立了500萬(wàn)詞的現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù),研究了蒙古文附加成分的自動(dòng)切分、復(fù)合詞的自動(dòng)識(shí)別和語(yǔ)料的詞性標(biāo)注,獲得了詞頻統(tǒng)計(jì)、音節(jié)統(tǒng)計(jì)、詞類統(tǒng)計(jì)、附加成分統(tǒng)計(jì)等數(shù)據(jù)。西北民族大學(xué)建立了1億3千萬(wàn)字節(jié)的大型藏文語(yǔ)料庫(kù),用于藏文詞匯頻度和通用度的統(tǒng)計(jì)。中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所建立了500萬(wàn)藏語(yǔ)字符的藏語(yǔ)語(yǔ)料庫(kù),進(jìn)行詞語(yǔ)切分和標(biāo)注的研究。新疆師范大學(xué)也建立了200萬(wàn)詞的維吾爾語(yǔ)語(yǔ)料庫(kù)。

      與漢語(yǔ)語(yǔ)料庫(kù)相比,少數(shù)民族語(yǔ)料庫(kù)的建設(shè)還需要解決一些特殊的問(wèn)題,譬如拼音文字轉(zhuǎn)寫(xiě)的標(biāo)準(zhǔn)和規(guī)范,詞語(yǔ)分類體系及其標(biāo)記集等。

      到2003年,已建和在建的各種文本語(yǔ)料庫(kù)還有很多(包括書(shū)面語(yǔ)語(yǔ)料庫(kù)和以文本形式表示的口語(yǔ)語(yǔ)料庫(kù)),以上提到的只是有代表性的一部分。與文本語(yǔ)料庫(kù)相對(duì)的,是語(yǔ)音語(yǔ)料庫(kù)。語(yǔ)音語(yǔ)料庫(kù)不僅記錄語(yǔ)圖、聲學(xué)參數(shù)等語(yǔ)音學(xué)數(shù)據(jù),還有句法、韻律等各種語(yǔ)言學(xué)信息標(biāo)記和副語(yǔ)言學(xué)信息標(biāo)記,可以在語(yǔ)音識(shí)別與合成系統(tǒng)中用來(lái)建立語(yǔ)音模型,用于語(yǔ)音研究、語(yǔ)音工程開(kāi)發(fā)和漢語(yǔ)普通話教學(xué)等領(lǐng)域。語(yǔ)音技術(shù)是當(dāng)前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語(yǔ)音語(yǔ)料庫(kù)在科研和工程上有很高的使用價(jià)值。關(guān)于語(yǔ)音語(yǔ)料庫(kù)的詳細(xì)情況,請(qǐng)見(jiàn)“語(yǔ)音學(xué)和言語(yǔ)工程研究綜述”。

      三 語(yǔ)料庫(kù)的加工、管理和規(guī)范

      (一)語(yǔ)料的加工

      一個(gè)計(jì)算機(jī)語(yǔ)料庫(kù)的功能主要與三個(gè)因素有關(guān),一是語(yǔ)料庫(kù)的規(guī)模,二是語(yǔ)料的分布,三是語(yǔ)料的加工程度。規(guī)模的大小關(guān)系到統(tǒng)計(jì)數(shù)據(jù)是否可靠,語(yǔ)料的分布涉及統(tǒng)計(jì)結(jié)果的適用范圍,語(yǔ)料加工的深度則決定這個(gè)語(yǔ)料庫(kù)能為使用者提供什么樣的語(yǔ)言學(xué)信息。

      加工語(yǔ)料主要指文本格式處理和文本描述兩項(xiàng)工作,前者是對(duì)采集的語(yǔ)料文本進(jìn)行整理,轉(zhuǎn)成統(tǒng)一的電子文本格式,例如數(shù)據(jù)庫(kù)格式、XML文本格式等。后者是描述每一篇語(yǔ)料樣本的屬性或特征,包括篇頭描述和篇體描述。篇頭描述說(shuō)明整篇語(yǔ)料樣本的屬性,例如語(yǔ)體、內(nèi)容所屬的領(lǐng)域、作者、寫(xiě)作時(shí)間、來(lái)源出處等等,篇體描述是在文本里添加各種語(yǔ)言學(xué)屬性標(biāo)記,對(duì)于漢語(yǔ)書(shū)面語(yǔ)語(yǔ)料庫(kù)來(lái)說(shuō),常見(jiàn)的是詞語(yǔ)切分標(biāo)記、詞性標(biāo)記、專有名詞標(biāo)記,還有某些語(yǔ)法特征如短語(yǔ)標(biāo)記、子句標(biāo)記,或語(yǔ)義信息標(biāo)記,等等。對(duì)漢語(yǔ)書(shū)面語(yǔ)語(yǔ)料的加工一般是從詞語(yǔ)切分、詞性標(biāo)注,到語(yǔ)法、語(yǔ)義屬性標(biāo)注,按順序進(jìn)行。標(biāo)注的信息逐步增多,語(yǔ)料加工的深度也就逐漸增加。人們通常把沒(méi)有篇體描述信息的語(yǔ)料叫做生語(yǔ)料。對(duì)漢語(yǔ)的生語(yǔ)料只能以字為單位進(jìn)行檢索和統(tǒng)計(jì)。經(jīng)過(guò)詞語(yǔ)切分處理的語(yǔ)料,就能以詞為單位進(jìn)行檢索、統(tǒng)計(jì)和定量分析。如果還作了詞性標(biāo)記,那么可以獲得的語(yǔ)言學(xué)信息就更多了。語(yǔ)料的標(biāo)注如果由人來(lái)做,當(dāng)然能夠保證準(zhǔn)確性,但是人工標(biāo)注對(duì)處理大規(guī)模的語(yǔ)料顯然不夠現(xiàn)實(shí)。所以幾乎每一個(gè)大規(guī)模語(yǔ)料庫(kù)的加工都需要借助自動(dòng)化的手段,詞語(yǔ)自動(dòng)切分、詞性自動(dòng)標(biāo)注等就成為備受關(guān)注的語(yǔ)料加工技術(shù)。

      自動(dòng)分詞是我國(guó)最早開(kāi)始研究的漢語(yǔ)信息處理技術(shù)之一。語(yǔ)料庫(kù)的建設(shè)開(kāi)始以后,自動(dòng)分詞技術(shù)在語(yǔ)料加工中又得到了應(yīng)用和發(fā)展。自動(dòng)分詞和詞性自動(dòng)標(biāo)注一般都需要一個(gè)詞典,作為分詞和詞性標(biāo)注的基礎(chǔ)。這個(gè)詞典與常用的語(yǔ)文詞典相比,收錄的詞目不大一樣,包括了語(yǔ)言學(xué)家認(rèn)可的詞,以及一些比詞小的單位(如語(yǔ)素字、詞綴等)和一些比詞大的單位(如成語(yǔ)、習(xí)語(yǔ)、簡(jiǎn)稱略語(yǔ)等)。詞典中也包括詞類信息和其他語(yǔ)法信息。目前的自動(dòng)分詞技術(shù)是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分過(guò)程中會(huì)出現(xiàn)歧義現(xiàn)象,如何處理歧義是自動(dòng)分詞研究的重點(diǎn)之一,在這方面投入的研究也最多,先后提出了“短語(yǔ)結(jié)構(gòu)法”、“專家系統(tǒng)法”、“隱馬爾科夫模型”、“串頻統(tǒng)計(jì)和詞匹配”等辯識(shí)歧義的方法。識(shí)別未登錄詞是自動(dòng)分詞研究的第二個(gè)重點(diǎn)。未登錄詞指沒(méi)有被分詞底表收錄的詞語(yǔ),包括人名、地名、機(jī)構(gòu)名等專有名詞和新出現(xiàn)的詞語(yǔ)。對(duì)未登錄詞的識(shí)別一般以基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型方法為主。

      詞性自動(dòng)標(biāo)注通常與自動(dòng)分詞同時(shí)進(jìn)行,根據(jù)帶有詞類信息的分詞詞典,給切分出來(lái)的詞語(yǔ)標(biāo)上初始的詞類標(biāo)記。對(duì)于兼類詞,必須在句子里判斷類別。因此需要分析兼類詞語(yǔ)在上下文中的分布特點(diǎn)和語(yǔ)法功能,并用形式化的方式表達(dá)出來(lái),作為詞性標(biāo)注系統(tǒng)排除兼類的規(guī)則。近年來(lái),已經(jīng)有幾個(gè)自動(dòng)分詞和詞性自動(dòng)標(biāo)注系統(tǒng)投入了應(yīng)用,其中北京大學(xué)用自己研制的系統(tǒng)為《人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)》做分詞和詞性標(biāo)注的初加工,北京語(yǔ)言大學(xué)的自動(dòng)分詞系統(tǒng)也成為其《面向語(yǔ)言教學(xué)研究的漢語(yǔ)語(yǔ)料檢索系統(tǒng)》中的關(guān)鍵技術(shù)。此外,經(jīng)過(guò)十幾年的研究和實(shí)踐,2001年發(fā)布了收錄9萬(wàn)多詞語(yǔ)的《信息處理用現(xiàn)代漢語(yǔ)分詞詞表》和《現(xiàn)代漢語(yǔ)詞類及標(biāo)記集規(guī)范》。對(duì)于1993年制定的國(guó)家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》的可操作性問(wèn)題,也進(jìn)行了積極的討論和實(shí)驗(yàn),提出了有效的解決方法。關(guān)于自動(dòng)分詞和詞性自動(dòng)標(biāo)注的詳細(xì)情況,請(qǐng)見(jiàn)“計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言信息處理研究綜述”。

      經(jīng)過(guò)分詞的語(yǔ)料,除了標(biāo)注詞性以外,還可以進(jìn)一步標(biāo)注其他語(yǔ)言學(xué)屬性,譬如韻律、語(yǔ)調(diào)、短語(yǔ)結(jié)構(gòu)、句法結(jié)構(gòu)、語(yǔ)義關(guān)系等等。句子的語(yǔ)法結(jié)構(gòu)需要有形式化的方式來(lái)表達(dá),大多數(shù)語(yǔ)料庫(kù)或者采用短語(yǔ)結(jié)構(gòu)樹(shù),或者采用依存語(yǔ)法樹(shù)的方式,這樣標(biāo)注過(guò)的語(yǔ)料庫(kù)就成為短語(yǔ)樹(shù)庫(kù)或句法樹(shù)庫(kù)。一般情況下,在詞性標(biāo)注的基礎(chǔ)上再作進(jìn)一步的語(yǔ)法標(biāo)注加工,多以人工為主,也有關(guān)于自動(dòng)短語(yǔ)定界和句法信息自動(dòng)標(biāo)注的研究和實(shí)驗(yàn)。目前已有的漢語(yǔ)短語(yǔ)庫(kù)、句法樹(shù)庫(kù)規(guī)模都不大,至多百萬(wàn)詞級(jí)。

      在雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)中,除了上述語(yǔ)料加工項(xiàng)目以外,還有一項(xiàng)不可缺少的語(yǔ)料加工任務(wù):雙語(yǔ)語(yǔ)料對(duì)齊。語(yǔ)料對(duì)齊分為段落、句子、子句、短語(yǔ)和詞語(yǔ)幾個(gè)不同的層次。如果考慮用計(jì)算機(jī)程序做自動(dòng)對(duì)齊,不同的層次要解決的問(wèn)題各不相同。每種語(yǔ)言的段落都有可識(shí)別的標(biāo)志,因此段落的對(duì)齊最容易實(shí)現(xiàn),句子的對(duì)齊在印歐語(yǔ)言之間比它們和漢語(yǔ)之間要容易,詞語(yǔ)的對(duì)齊需要借助詞典,句子內(nèi)的各種結(jié)構(gòu)要自動(dòng)對(duì)齊則是最難的。目前雙語(yǔ)自動(dòng)對(duì)齊技術(shù)的研究主要是針對(duì)句子和句子內(nèi)的結(jié)構(gòu),采用的方法有基于長(zhǎng)度的、基于詞典的,或者是這兩種方法的混合策略。

      (二)語(yǔ)料庫(kù)管理系統(tǒng)

      經(jīng)過(guò)科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語(yǔ)料庫(kù),還應(yīng)該有一個(gè)功能齊備的管理系統(tǒng),包括數(shù)據(jù)維護(hù)(語(yǔ)料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語(yǔ)料描述信息項(xiàng)目管理)、語(yǔ)料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、語(yǔ)料對(duì)齊、標(biāo)記處理等)、用戶服務(wù)功能(查詢、檢索、統(tǒng)計(jì)、打印等)。其中數(shù)據(jù)維護(hù)部分主要涉及漢字字符處理、文本處理、文件管理等計(jì)算機(jī)程序設(shè)計(jì)技術(shù)。語(yǔ)料自動(dòng)加工部分的主要內(nèi)容是自動(dòng)分詞、各種語(yǔ)言學(xué)屬性的標(biāo)注技術(shù),已經(jīng)在前面專門(mén)介紹過(guò)了。這里主要談?wù)劽嫦蛴脩舻恼Z(yǔ)料檢索、統(tǒng)計(jì)和分析技術(shù)。

      語(yǔ)料檢索是一種全文檢索技術(shù),但是也有自己的特點(diǎn),僅用普通的全文檢索技術(shù)還不能滿足語(yǔ)料檢索的需要。這是因?yàn)?,全文信息檢索關(guān)心的是檢索目標(biāo)的意義,不是檢索目標(biāo)的語(yǔ)言表述形式。而面向語(yǔ)言研究的語(yǔ)料檢索則特別注重語(yǔ)言的表述形式,它既需要按照字、字串和詞檢索,也需要把詞語(yǔ)的語(yǔ)言學(xué)屬性作為檢索的目標(biāo)和約束條件,還要求把檢索的結(jié)果或目標(biāo)的出處按照研究的需要排序、輸出。除此之外,還要有字頻、詞頻和特定語(yǔ)言形式出現(xiàn)頻率的統(tǒng)計(jì)功能。

      對(duì)漢語(yǔ)生語(yǔ)料的檢索和統(tǒng)計(jì)是以字或字串為單位進(jìn)行的。這一類檢索系統(tǒng)主要以單字索引和字符串匹配為關(guān)鍵技術(shù),由于把詞語(yǔ)當(dāng)作字串來(lái)檢索,所以檢索結(jié)果中經(jīng)常出現(xiàn)“非詞”的問(wèn)題。例如要查找“出警”,檢索結(jié)果中除了“迅速出警”、“拒絕出警”、“出警次數(shù)”等實(shí)例以外,“發(fā)出警告”、“放出警犬”等也混在其中。為了解決這些問(wèn)題,常常需要為字符串匹配的檢索表達(dá)式另外設(shè)置限制條件。這些限制條件大多是個(gè)性的,只能排除一部分“非詞”的實(shí)例。要想從根本上解決這個(gè)問(wèn)題,就必須對(duì)語(yǔ)料作詞語(yǔ)切分。經(jīng)過(guò)詞語(yǔ)切分處理的熟語(yǔ)料,能以詞為單位進(jìn)行檢索、統(tǒng)計(jì)和定量分析。但是熟語(yǔ)料庫(kù)的加工代價(jià)很高,而且對(duì)于語(yǔ)料的詞語(yǔ)切分和詞性標(biāo)注,目前還沒(méi)有既成熟又便于操作的規(guī)范,所以近年來(lái),面向生語(yǔ)料庫(kù)的檢索技術(shù)一直在廣泛應(yīng)用,并且在用戶功能方面不斷發(fā)展。譬如,可以對(duì)用戶給出的任何生語(yǔ)料快速生成索引;可以使用具有復(fù)合邏輯關(guān)系的檢索表達(dá)式;可以按照漢字、拼音、筆畫(huà)對(duì)檢索結(jié)果的上下文自動(dòng)排序;可以提供檢出實(shí)例的來(lái)源、出處;可以按字頻統(tǒng)計(jì)的數(shù)據(jù)排序;檢索結(jié)果和統(tǒng)計(jì)結(jié)果既可以按文本形式輸出,也可以按數(shù)據(jù)庫(kù)形式輸出;還可以通過(guò)網(wǎng)絡(luò)支持多用戶遠(yuǎn)程檢索。

      對(duì)于經(jīng)過(guò)詞語(yǔ)切分處理和詞性標(biāo)注的熟語(yǔ)料庫(kù),除了所有生語(yǔ)料的檢索功能以外,語(yǔ)料檢索系統(tǒng)還可以把詞語(yǔ)或詞性作為檢索的關(guān)鍵字或限制條件,得到關(guān)于這些語(yǔ)言學(xué)屬性的檢索和統(tǒng)計(jì)結(jié)果,并按各種排序和輸出形式的提供給用戶。語(yǔ)言學(xué)屬性來(lái)自語(yǔ)言學(xué)家對(duì)漢語(yǔ)的研究,研究過(guò)程中有各種觀點(diǎn)和認(rèn)識(shí),從詞的定義到詞類的確定,一直還沒(méi)有統(tǒng)一的意見(jiàn)。另一方面,人們檢索語(yǔ)料時(shí)的目的也各不相同,有的關(guān)心詞匯問(wèn)題,有的關(guān)心語(yǔ)法現(xiàn)象,還有的目標(biāo)是漢語(yǔ)信息處理的應(yīng)用問(wèn)題。因此對(duì)于熟語(yǔ)料庫(kù)檢索來(lái)說(shuō),一個(gè)好的檢索系統(tǒng)應(yīng)該能夠包容各種不同的語(yǔ)言學(xué)觀點(diǎn),可以用于不同的檢索目的。

      為了做到這一點(diǎn),通常采用的辦法是,把用于語(yǔ)料庫(kù)自動(dòng)分詞的底表和附著于底表的詞性、構(gòu)詞等屬性都看作語(yǔ)言學(xué)屬性表,使這個(gè)屬性表與檢索系統(tǒng)的程序相互獨(dú)立,檢索系統(tǒng)只把屬性標(biāo)記作為抽象的字符串處理,而把建立屬性表的工作交給用戶。以北京語(yǔ)言大學(xué)的《面向語(yǔ)言教學(xué)研究的漢語(yǔ)語(yǔ)料檢索系統(tǒng)》為例,它的自動(dòng)分詞詞表、詞屬性集和每個(gè)詞的屬性標(biāo)記都由用戶提供,提供的方式是把詞目和它的屬性標(biāo)記登記在數(shù)據(jù)庫(kù)里。檢索系統(tǒng)使用用戶提供的這個(gè)屬性表對(duì)生語(yǔ)料自動(dòng)分詞,并生成索引,供給用戶檢索。檢索系統(tǒng)對(duì)屬性表沒(méi)有任何限制,規(guī)??纱罂尚。碇械脑~目也可以跟通常認(rèn)為的詞沒(méi)有關(guān)系,屬性可以是語(yǔ)法的,也可以是構(gòu)詞的、語(yǔ)義的、語(yǔ)音的,等等。這樣用戶就能根據(jù)自己的需要檢索和研究各種字串在語(yǔ)料中的表現(xiàn)。

      把語(yǔ)料加工技術(shù)集成在檢索系統(tǒng)里面,是語(yǔ)料庫(kù)檢索系統(tǒng)的另一個(gè)特點(diǎn)。語(yǔ)料加工技術(shù)一般指詞語(yǔ)自動(dòng)切分和詞性自動(dòng)標(biāo)注。在北京語(yǔ)言大學(xué)的語(yǔ)料檢索系統(tǒng)中,未登錄詞的自動(dòng)識(shí)別技術(shù)比較有特點(diǎn)。它可以識(shí)別各種數(shù)字串、中西人名、中西地名、機(jī)構(gòu)名、后綴短語(yǔ)等,并為它們建立索引,供用戶檢索和統(tǒng)計(jì)。

      (三)語(yǔ)料庫(kù)的規(guī)范問(wèn)題

      語(yǔ)料庫(kù)的規(guī)范問(wèn)題主要是對(duì)語(yǔ)料加工而言的。漢語(yǔ)語(yǔ)料庫(kù)首先遇到的規(guī)范問(wèn)題是詞語(yǔ)切分。我國(guó)90年代初發(fā)布了國(guó)家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》(標(biāo)準(zhǔn)號(hào)為GB/T13715-92)。這個(gè)規(guī)范基本上采用《暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)》中的觀點(diǎn),把詞定義為“最小的獨(dú)立運(yùn)用的語(yǔ)言單位”。針對(duì)漢語(yǔ)語(yǔ)素、詞和詞組界限不夠清晰的問(wèn)題,還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語(yǔ)信息處理使用的具有確定的語(yǔ)義或語(yǔ)法功能的基本單位”,并且用“結(jié)合緊密、使用穩(wěn)定”的原則作為判斷分詞單位的標(biāo)準(zhǔn)。這樣做的目的是避免關(guān)于如何界定詞的爭(zhēng)論。但是“結(jié)合緊密、使用穩(wěn)定”的原則缺少可操作性,對(duì)于自動(dòng)分詞研究中的具體問(wèn)題常常難有定論。于是就有了根據(jù)規(guī)范制定一個(gè)詞表,用“規(guī)范+詞表”的辦法指導(dǎo)分詞的建議。這樣在90年代中期和末期,分別提出了收詞43570條的《信息處理用現(xiàn)代漢語(yǔ)常用詞表》和收詞9萬(wàn)多條的《信息處理用現(xiàn)代漢語(yǔ)分詞詞表》。其中后者是在8億字的大規(guī)模語(yǔ)料庫(kù)支持下,采用“串頻”、“互信息”、“相關(guān)度”等計(jì)算統(tǒng)計(jì)方法,依據(jù)定量的數(shù)據(jù)分析結(jié)果辨識(shí)“分詞單位”的。與此同時(shí),語(yǔ)言學(xué)家也參與了制定這個(gè)詞表的工作,他們提出的各種語(yǔ)言學(xué)規(guī)則,從定性分析的角度與統(tǒng)計(jì)數(shù)據(jù)相互作用,最后經(jīng)過(guò)人工審定,確定了92843個(gè)詞目,其中一級(jí)常用詞56606個(gè),二級(jí)常用詞36237個(gè),成為目前許多自動(dòng)分詞系統(tǒng)使用的詞表。

      90年代中期,臺(tái)灣的計(jì)算語(yǔ)言學(xué)會(huì)也提出了一個(gè)《資訊處理用中文分詞規(guī)范》。這個(gè)規(guī)范有三條基本原則,一是分詞單位必須符合語(yǔ)言學(xué)理論的要求;二是在信息處理上切實(shí)可行;三是能夠確保真實(shí)文本處理的一致性。它把分詞規(guī)范分成信、達(dá)、雅三個(gè)不同的等級(jí),“信”級(jí)是基本資料交換的標(biāo)準(zhǔn),“達(dá)”級(jí)是機(jī)器翻譯、情報(bào)檢索等自然語(yǔ)言處理的標(biāo)準(zhǔn),“雅”級(jí)則是分詞的最好結(jié)果。這樣可以根據(jù)不同的應(yīng)用目的做難易程度不同的分詞處理。

      詞語(yǔ)切分以后,下一個(gè)規(guī)范問(wèn)題就是詞性標(biāo)注。經(jīng)過(guò)十多年的詞性標(biāo)注研究和實(shí)踐,教育部語(yǔ)言文字應(yīng)用研究所于2001年提出了《信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記集規(guī)范》。這個(gè)規(guī)范吸收了語(yǔ)言學(xué)家的研究成果,也兼顧了已有的各個(gè)用于語(yǔ)言信息處理的詞類系統(tǒng),制定了標(biāo)記現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)詞類的符號(hào)集,使各種漢語(yǔ)信息處理應(yīng)用系統(tǒng)能夠盡量使用統(tǒng)一的詞類標(biāo)記,有助于信息交換和資源共享。

      標(biāo)注短語(yǔ)和句子結(jié)構(gòu)是語(yǔ)料庫(kù)進(jìn)一步深加工的內(nèi)容,雖然目前尚處于起步階段,但已經(jīng)在標(biāo)注的同時(shí)考慮了規(guī)范的問(wèn)題。清華大學(xué)提出的《漢語(yǔ)句子的句法樹(shù)標(biāo)注規(guī)范》,主要包括句法標(biāo)記集的內(nèi)容描述、句法樹(shù)的劃分規(guī)定、歧義結(jié)構(gòu)的處理、結(jié)構(gòu)分析的方向性等問(wèn)題。上海師范大學(xué)根據(jù)自己制定的《漢語(yǔ)文本短語(yǔ)結(jié)構(gòu)人工標(biāo)注規(guī)范》,對(duì)100萬(wàn)字的1997年《讀者文摘》進(jìn)行了分詞、詞性標(biāo)注和人工標(biāo)注短語(yǔ)的試驗(yàn)。哈爾濱工業(yè)大學(xué)采用包含23個(gè)短語(yǔ)符號(hào)的標(biāo)記集合,開(kāi)發(fā)了一個(gè)8000個(gè)句子的漢語(yǔ)樹(shù)庫(kù)。清華大學(xué)還建立了一個(gè)基于語(yǔ)義依存關(guān)系的語(yǔ)料庫(kù),也涉及到標(biāo)注體系的選擇和標(biāo)注關(guān)系集的確定。這些工作規(guī)模都不大,在規(guī)范方面還處于各自為政的狀態(tài)。隨著語(yǔ)料的進(jìn)一步深入加工,統(tǒng)一規(guī)范將成為不可避免的問(wèn)題。

      北京大學(xué)的《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)是目前規(guī)模最大的漢語(yǔ)基本標(biāo)注語(yǔ)料庫(kù)。在它的開(kāi)發(fā)過(guò)程中,各種加工規(guī)范起了關(guān)鍵的作用。在這些加工規(guī)范中,有詞語(yǔ)的切分規(guī)范,主要規(guī)定把句子的漢字串形式切分為詞語(yǔ)序列的原則;有現(xiàn)代漢語(yǔ)詞類及標(biāo)記集規(guī)范,規(guī)定切分出來(lái)的詞語(yǔ)、短語(yǔ)、標(biāo)點(diǎn)符號(hào)的類別和標(biāo)識(shí)符號(hào);有切分和標(biāo)注相結(jié)合的規(guī)范,規(guī)定語(yǔ)素構(gòu)成合成詞的方式(重疊、附加和復(fù)合);有標(biāo)注規(guī)范,規(guī)定詞性標(biāo)注與詞庫(kù)的關(guān)系,主要解決如何在上下文環(huán)境里確定兼類詞的詞性;還有收詞7萬(wàn)余條的詞庫(kù)《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》。加工大規(guī)模的語(yǔ)料是一項(xiàng)浩大的語(yǔ)言工程。語(yǔ)料標(biāo)注的準(zhǔn)確性和一致性需要靠完善、合理的詞庫(kù)和嚴(yán)謹(jǐn)、實(shí)用的加工規(guī)范來(lái)保證?!度嗣袢?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)的加工規(guī)范和《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》是語(yǔ)言學(xué)家和信息處理專家合作,在漢語(yǔ)語(yǔ)法研究的理論和方法指導(dǎo)下,根據(jù)漢語(yǔ)信息處理的實(shí)際需要制定和開(kāi)發(fā)的。在標(biāo)注大規(guī)模語(yǔ)料的實(shí)踐中,又得到了驗(yàn)證和完善。

      除了語(yǔ)料加工以外,語(yǔ)料庫(kù)還應(yīng)該在語(yǔ)料的采集和存儲(chǔ)格式上有所規(guī)范。對(duì)于平衡語(yǔ)料庫(kù)來(lái)說(shuō),采集規(guī)范主要是為了保證語(yǔ)料的平衡性,而類別分布和時(shí)間分布是語(yǔ)料平衡的兩大要素。每個(gè)語(yǔ)料庫(kù)都要對(duì)語(yǔ)料進(jìn)行分類,分類的原則各不相同。有的根據(jù)內(nèi)容涉及的主題分類,有的根據(jù)語(yǔ)體分類。在眾多平衡語(yǔ)料庫(kù)當(dāng)中,臺(tái)灣中央研究院的現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)的分類標(biāo)準(zhǔn)很值得注意。這個(gè)語(yǔ)料庫(kù)的研制者認(rèn)為,用傳統(tǒng)的文體單一特征來(lái)界定平衡語(yǔ)料庫(kù)不足以反映影響整個(gè)語(yǔ)言全貌的內(nèi)在因素。因此他們采用的是多重分類原則:把所有語(yǔ)料都標(biāo)上五個(gè)不同特征的值:(1)文類(2)文體(3)語(yǔ)式(4)主題(5)媒體。利用以主題為主的五個(gè)特征的多重分類來(lái)進(jìn)行語(yǔ)料庫(kù)的平衡。這樣做還使研究者能夠任選其中幾個(gè)特征的組合,定義自己的次語(yǔ)料庫(kù)(sub-corpora),也可以在次語(yǔ)料庫(kù)間作比較研究。另外,多重分類原則也有利于以后平衡語(yǔ)料庫(kù)的更新。語(yǔ)料存儲(chǔ)格式的規(guī)范一般指采用統(tǒng)一的編碼規(guī)范為電子文本作標(biāo)記,目前可擴(kuò)充置標(biāo)語(yǔ)言XML被廣泛地用作語(yǔ)料庫(kù)標(biāo)注的元語(yǔ)言,存儲(chǔ)格式的標(biāo)準(zhǔn)化有助于語(yǔ)料的交換和共享。

      四 語(yǔ)料庫(kù)在語(yǔ)言研究中的的應(yīng)用

      在語(yǔ)言研究中,語(yǔ)料庫(kù)方法是一種經(jīng)驗(yàn)的方法,它能提供大量的自然語(yǔ)言材料,有助于研究者根據(jù)語(yǔ)言實(shí)際得出客觀的結(jié)論,這種結(jié)論同時(shí)也是可觀測(cè)和可驗(yàn)證的。在計(jì)算機(jī)技術(shù)的支持下,語(yǔ)料庫(kù)方法對(duì)語(yǔ)言研究的許多領(lǐng)域產(chǎn)生了越來(lái)越多的影響。各種為不同目的而建立的語(yǔ)料庫(kù)可以應(yīng)用在詞匯、語(yǔ)法、語(yǔ)義、語(yǔ)用、語(yǔ)體研究,社會(huì)語(yǔ)言學(xué)研究,口語(yǔ)研究,詞典編纂,語(yǔ)言教學(xué)以及自然語(yǔ)言處理、人工智能、機(jī)器翻譯、言語(yǔ)識(shí)別與合成等領(lǐng)域。我國(guó)在語(yǔ)料庫(kù)的應(yīng)用上還處于起步階段,在計(jì)算語(yǔ)言學(xué)和語(yǔ)言信息處理領(lǐng)域,語(yǔ)料庫(kù)主要用來(lái)為統(tǒng)計(jì)語(yǔ)言模型提供語(yǔ)言特征信息和概率數(shù)據(jù),在語(yǔ)言研究的其他領(lǐng)域,多使用語(yǔ)料的檢索和頻率統(tǒng)計(jì)結(jié)果。

      語(yǔ)料庫(kù)與自然語(yǔ)言信息處理有著相輔相成的關(guān)系,大規(guī)模的語(yǔ)料庫(kù)是用統(tǒng)計(jì)語(yǔ)言模型方法處理自然語(yǔ)言的基礎(chǔ)資源。然而統(tǒng)計(jì)語(yǔ)言模型本身并不關(guān)心其建模對(duì)象的語(yǔ)言學(xué)信息,它關(guān)心的只是一串符號(hào)的同現(xiàn)概率。譬如N元語(yǔ)法模型,它只關(guān)心句子中各種單元(比如字、詞、短語(yǔ)等)近距離連接關(guān)系的概率分布,而對(duì)于許多復(fù)雜的語(yǔ)言現(xiàn)象,它就無(wú)能為力了。在統(tǒng)計(jì)語(yǔ)言建模技術(shù)最先得到成功應(yīng)用的自動(dòng)語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)料庫(kù)的開(kāi)發(fā)和建設(shè)受到格外的重視,標(biāo)注語(yǔ)料庫(kù)成為不可缺少的系統(tǒng)資源,就是因?yàn)椋敫倪M(jìn)N元語(yǔ)法的建模技術(shù),必須利用語(yǔ)料庫(kù)引入更多的語(yǔ)言特征信息和統(tǒng)計(jì)語(yǔ)言數(shù)據(jù)。同樣,在書(shū)面語(yǔ)語(yǔ)言信息處理領(lǐng)域里,語(yǔ)料庫(kù)提供的語(yǔ)言知識(shí)也越來(lái)越多地用在統(tǒng)計(jì)語(yǔ)言模型方法中。除了詞語(yǔ)自動(dòng)切分、詞性自動(dòng)標(biāo)注、雙語(yǔ)語(yǔ)料對(duì)齊等語(yǔ)料加工技術(shù)以外,人們還在語(yǔ)料庫(kù)的支持下,建立有關(guān)語(yǔ)法、語(yǔ)義的語(yǔ)言知識(shí)庫(kù),開(kāi)發(fā)信息抽取系統(tǒng)、信息檢索系統(tǒng)、文本分類和過(guò)濾系統(tǒng),并且把基于統(tǒng)計(jì)或?qū)嵗姆治黾夹g(shù)集成到機(jī)器翻譯系統(tǒng)里面。

      近年來(lái)在語(yǔ)料庫(kù)的支持下,從信息處理的角度研究漢語(yǔ)詞匯、語(yǔ)法和語(yǔ)義問(wèn)題的報(bào)告也日漸增多。這些研究包括:根據(jù)逐詞索引作漢語(yǔ)詞義的調(diào)查;對(duì)詞語(yǔ)搭配進(jìn)行計(jì)量分析;利用量詞--名詞的搭配數(shù)據(jù)研究漢語(yǔ)名詞分類問(wèn)題;進(jìn)行現(xiàn)代漢語(yǔ)句型的統(tǒng)計(jì)和研究;做短語(yǔ)自動(dòng)識(shí)別(例如基本名詞短語(yǔ)、動(dòng)賓結(jié)構(gòu))和自動(dòng)句法分析的試驗(yàn);研究在句子里為詞語(yǔ)排除歧義的算法;分析和統(tǒng)計(jì)漢語(yǔ)詞語(yǔ)重疊結(jié)構(gòu)的深層結(jié)構(gòu)類型及產(chǎn)生方式;等等。

      對(duì)于詞匯學(xué)、語(yǔ)法學(xué)、語(yǔ)言理論、歷史語(yǔ)言學(xué)等研究來(lái)說(shuō),語(yǔ)料庫(kù)的作用目前大多還是通過(guò)語(yǔ)料檢索和頻率統(tǒng)計(jì),幫助人們觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言的規(guī)律。語(yǔ)料庫(kù)方法的發(fā)展會(huì)使這種僅起輔助作用的手段逐步變成必備的應(yīng)用資源和工具。利用語(yǔ)料庫(kù),人們可以把指定的語(yǔ)法現(xiàn)象加以量化,并且檢測(cè)和驗(yàn)證語(yǔ)言理論、規(guī)則或假設(shè)。

      在少數(shù)民族語(yǔ)言和方言調(diào)查研究方面,比較有代表性的工作是“藏緬語(yǔ)語(yǔ)料庫(kù)及比較研究的計(jì)量描寫(xiě)”。它建立了我國(guó)境內(nèi)藏緬語(yǔ)族五大語(yǔ)支82個(gè)語(yǔ)言點(diǎn)16萬(wàn)詞條的詞匯語(yǔ)音數(shù)據(jù)庫(kù),對(duì)藏語(yǔ)方言的音節(jié)、音位、聲母、韻母、聲詞、詞素、構(gòu)詞能力和語(yǔ)音結(jié)構(gòu)等10余項(xiàng)特征作了分布和對(duì)比分析。對(duì)藏語(yǔ)15個(gè)方言點(diǎn)作了語(yǔ)音對(duì)應(yīng)關(guān)系和音系對(duì)比關(guān)系的量化描述,并且在這個(gè)基礎(chǔ)上做出具有歷時(shí)和共時(shí)比較研究意義的相關(guān)分析,得出了語(yǔ)言分類的相關(guān)矩陣和聚類分析圖表。

      在應(yīng)用語(yǔ)言學(xué)領(lǐng)域,詞典編纂和語(yǔ)言教學(xué)同是語(yǔ)料庫(kù)的最大受益者。目前已有多部詞典在編纂或修訂過(guò)程中,不同程度地使用語(yǔ)料庫(kù)或電子文檔收集詞語(yǔ)數(shù)據(jù),用于收詞、釋義、例句、屬性標(biāo)注等。南京大學(xué)近年來(lái)開(kāi)發(fā)了NULEXID語(yǔ)料庫(kù)暨雙語(yǔ)詞典編纂系統(tǒng),涉及英漢兩種語(yǔ)言,在《新時(shí)代英漢大詞典》的編纂過(guò)程中起了重要作用。從詞典編纂的整體情況看,我們還缺少充分的語(yǔ)料資源和有效的分析工具,很多有意義的事情還做不了。譬如,分析語(yǔ)料中顯現(xiàn)的詞語(yǔ)搭配現(xiàn)象,利用語(yǔ)料庫(kù)進(jìn)行詞語(yǔ)意義辨析,在動(dòng)態(tài)的語(yǔ)料庫(kù)中輔助提取新詞語(yǔ),等等。把語(yǔ)料庫(kù)用于語(yǔ)言教學(xué)的一個(gè)例子是上海交通大學(xué)的JDEST英語(yǔ)語(yǔ)料庫(kù),利用這個(gè)語(yǔ)料庫(kù),通過(guò)語(yǔ)料比較、統(tǒng)計(jì)、篩選等方法為中國(guó)大學(xué)英語(yǔ)教學(xué)提供通用詞匯和技術(shù)詞匯的應(yīng)用信息,為確定大學(xué)英語(yǔ)教學(xué)大綱的詞表提供了可靠的量化依據(jù)。這個(gè)語(yǔ)料庫(kù)也在英語(yǔ)語(yǔ)言研究中發(fā)揮了作用,支持基于語(yǔ)料庫(kù)的英語(yǔ)語(yǔ)法的頻率特征、語(yǔ)料庫(kù)驅(qū)動(dòng)的詞語(yǔ)搭配等項(xiàng)研究。2003年,中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)由上海外語(yǔ)教育出版社正式發(fā)行。這個(gè)語(yǔ)料庫(kù)是一個(gè)100多萬(wàn)詞的書(shū)面英語(yǔ)語(yǔ)料庫(kù),涵蓋我國(guó)中學(xué)生、大學(xué)英語(yǔ)4級(jí)和6級(jí)、英語(yǔ)專業(yè)低年級(jí)和高年級(jí)的學(xué)習(xí)內(nèi)容,并對(duì)所有的語(yǔ)料作了語(yǔ)法標(biāo)注和言語(yǔ)失誤標(biāo)注。根據(jù)這個(gè)語(yǔ)料庫(kù)得到了詞頻排列表、拼寫(xiě)失誤表、詞目表、詞頻分布表、語(yǔ)法標(biāo)注頻數(shù)表、言語(yǔ)失誤表等,還把這些數(shù)據(jù)與一些英語(yǔ)本族語(yǔ)語(yǔ)料庫(kù)(如BROWN,LOB,F(xiàn)ROWN,F(xiàn)LOB)進(jìn)行了某些比較。這個(gè)語(yǔ)料庫(kù)為詞典編纂、教材編寫(xiě)和語(yǔ)言測(cè)試提供了必要的資源。目前上海交通大學(xué)正在建設(shè)大學(xué)英語(yǔ)學(xué)習(xí)者口語(yǔ)英語(yǔ)語(yǔ)料庫(kù)。

      在幾年來(lái)語(yǔ)料庫(kù)建設(shè)和應(yīng)用的基礎(chǔ)上,2003年國(guó)家“973”計(jì)劃開(kāi)始支持中文語(yǔ)言資源聯(lián)盟(Chinese Linguistic Data Consortium,簡(jiǎn)稱ChineseLDC)的建立。ChineseLDC是吸收國(guó)內(nèi)高等院校、科研機(jī)構(gòu)和公司參加的開(kāi)放式語(yǔ)言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的、通用的中文語(yǔ)言信息知識(shí)庫(kù)。ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語(yǔ)言資源,包括詞典、語(yǔ)料庫(kù)、數(shù)據(jù)、工具等。在建立和收集語(yǔ)言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶,并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)提供支持。

      幾年來(lái)在計(jì)算語(yǔ)言學(xué)和語(yǔ)言信息處理領(lǐng)域的學(xué)術(shù)會(huì)議上,語(yǔ)料庫(kù)的建設(shè)和應(yīng)用一直是重要論題之一。討論的重點(diǎn)集中在基于語(yǔ)料庫(kù)的語(yǔ)言分析方法,以及語(yǔ)料的標(biāo)注、管理和規(guī)范等問(wèn)題上。語(yǔ)言學(xué)家更多關(guān)心的是語(yǔ)料庫(kù)的規(guī)劃和建設(shè),語(yǔ)料庫(kù)方法在語(yǔ)言研究和教學(xué)中的應(yīng)用。近年來(lái)語(yǔ)言學(xué)界也召開(kāi)有關(guān)語(yǔ)料庫(kù)的專門(mén)學(xué)術(shù)會(huì)議,譬如2001年由中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所主辦、在清華大學(xué)召開(kāi)的語(yǔ)料庫(kù)語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)研究與實(shí)踐研討會(huì)(主要討論了語(yǔ)料庫(kù)的建設(shè)和應(yīng)用、語(yǔ)言信息處理等問(wèn)題);2003年由上海交通大學(xué)等單位主辦、在上海交通大學(xué)召開(kāi)的語(yǔ)料庫(kù)語(yǔ)言學(xué)國(guó)際研討會(huì)(會(huì)議主題是語(yǔ)料庫(kù)研究與外語(yǔ)教學(xué))。

      第五篇:語(yǔ)料庫(kù)研究綜述

      語(yǔ)料庫(kù)研究與應(yīng)用綜述

      目錄 一概述

      二中國(guó)語(yǔ)料庫(kù)建設(shè)的基本情況 三語(yǔ)料庫(kù)的加工、管理和規(guī)范 四語(yǔ)料庫(kù)在語(yǔ)言研究中的的應(yīng)用 五參考文獻(xiàn)

      語(yǔ)料庫(kù)研究與應(yīng)用綜述

      一概述

      語(yǔ)料庫(kù)通常指為語(yǔ)言研究收集的、用電子形式保存的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體。經(jīng)過(guò)科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況。人們通過(guò)語(yǔ)料庫(kù)觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)已經(jīng)成為語(yǔ)言學(xué)理論研究、應(yīng)用研究和語(yǔ)言工程不可缺少的基礎(chǔ)資源。

      語(yǔ)料庫(kù)有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語(yǔ)料采集的原則和方式上。有人曾經(jīng)把語(yǔ)料庫(kù)分成四種類型:(1)異質(zhì)的(Heterogeneous):沒(méi)有特定的語(yǔ)料收集原則,廣泛收集并原樣存儲(chǔ)各種語(yǔ)料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語(yǔ)料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語(yǔ)料,使語(yǔ)料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語(yǔ)言事實(shí);(4)專用的(Specialized):只收集用于某一特定用途的語(yǔ)料。除此之外,按照語(yǔ)料的語(yǔ)種,語(yǔ)料庫(kù)也可以分成單語(yǔ)的(Monolingual)、雙語(yǔ)的(Bilingual)和多語(yǔ)的(Multilingual)。按照語(yǔ)料的采集單位,語(yǔ)料庫(kù)又可以分為語(yǔ)篇的、語(yǔ)句的、短語(yǔ)的。雙語(yǔ)和多語(yǔ)語(yǔ)料庫(kù)按照語(yǔ)料的組織形式,還可以分為平行(對(duì)齊)語(yǔ)料庫(kù)和比較語(yǔ)料庫(kù),前者的語(yǔ)料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語(yǔ)詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語(yǔ)言文本收集到一起,多用于語(yǔ)言對(duì)比研究。

      語(yǔ)料庫(kù)建設(shè)中涉及的主要問(wèn)題包括:

      (1)設(shè)計(jì)和規(guī)劃:主要考慮語(yǔ)料庫(kù)的用途、類型、規(guī)模、實(shí)現(xiàn)手段、質(zhì)量保證、可擴(kuò)展性等。

      (2)語(yǔ)料的采集:主要考慮語(yǔ)料獲取、數(shù)據(jù)格式、字符編碼、語(yǔ)料分類、文本描述,以及各類語(yǔ)料的比例以保持平衡性等。

      (3)語(yǔ)料的加工:包括標(biāo)注項(xiàng)目(詞語(yǔ)單位、詞性、句法、語(yǔ)義、語(yǔ)體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。

      (4)語(yǔ)料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(hù)(語(yǔ)料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語(yǔ)料描述信息項(xiàng)目管理)、語(yǔ)料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計(jì)、打印等)。

      (5)語(yǔ)料庫(kù)的應(yīng)用:針對(duì)語(yǔ)言學(xué)理論和應(yīng)用領(lǐng)域中的各種問(wèn)題,研究和開(kāi)發(fā)處理語(yǔ)料的算法和軟件工具。

      我國(guó)語(yǔ)料庫(kù)的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語(yǔ)詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語(yǔ)料庫(kù)方法在自然語(yǔ)言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語(yǔ)料庫(kù),研究的內(nèi)容涉及語(yǔ)料庫(kù)建設(shè)中的各個(gè)問(wèn)題。90年代末到新世紀(jì)初這幾年是語(yǔ)料庫(kù)開(kāi)發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語(yǔ)言信息處理和言語(yǔ)工程領(lǐng)域以外,語(yǔ)料庫(kù)方法在語(yǔ)言教學(xué)、詞典編纂、現(xiàn)代漢語(yǔ)和漢語(yǔ)史研究等方面也得到了越來(lái)越多的應(yīng)用。

      語(yǔ)料庫(kù)與語(yǔ)言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語(yǔ)料庫(kù)方法的時(shí)候,在自然語(yǔ)言理解和生成、機(jī)器翻譯等研究中,分析語(yǔ)言的主要方法是基于規(guī)則的(Rule-based)。對(duì)于用規(guī)則無(wú)法表達(dá)或不能涵蓋的語(yǔ)言事實(shí),計(jì)算機(jī)就很難處理。語(yǔ)料庫(kù)出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語(yǔ)言模型,研究和應(yīng)用基于統(tǒng)計(jì)的(Statistical-based)語(yǔ)言處理技術(shù),在信息檢索、文本分類、文本過(guò)濾、信息抽取等應(yīng)用方向取得了進(jìn)展。另一方面,語(yǔ)言信息處理技術(shù)的發(fā)展也為語(yǔ)料庫(kù)的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語(yǔ)料的自動(dòng)分詞和標(biāo)注,到語(yǔ)料的統(tǒng)計(jì)和檢索,自然語(yǔ)言信息處理的研究都為語(yǔ)料的加工提供了關(guān)鍵性的技術(shù)。

      下面先簡(jiǎn)要敘述1998年到2003年中國(guó)語(yǔ)料庫(kù)建設(shè)的基本情況,然后介紹語(yǔ)料庫(kù)的加工、管理和規(guī)范問(wèn)題,最后談?wù)務(wù)Z料庫(kù)方法在語(yǔ)言研究和語(yǔ)言工程等方面的應(yīng)用。由于以前的《中國(guó)語(yǔ)言學(xué)年鑒》很少談及語(yǔ)料庫(kù)問(wèn)題,為了盡可能全面地反映我國(guó)語(yǔ)料庫(kù)研究和應(yīng)用的情況,必要時(shí)會(huì)將時(shí)間上限向前延伸幾年。

      二中國(guó)語(yǔ)料庫(kù)建設(shè)的基本情況

      90年代末到新世紀(jì)初這幾年投入建設(shè)或開(kāi)始使用的語(yǔ)料庫(kù)有數(shù)十個(gè)之多,不同的應(yīng)用目的使這些語(yǔ)料庫(kù)的類型各不相同,對(duì)語(yǔ)料的加工方法也各不相同。下面是其中已開(kāi)始使用并且具有一定代表性的語(yǔ)料庫(kù)。

      (一)現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)

      這是一個(gè)由國(guó)家語(yǔ)言文字工作委員會(huì)主持建立、面向全社會(huì)應(yīng)用需求的大型通用語(yǔ)料庫(kù),從90年代初開(kāi)始建設(shè),計(jì)劃規(guī)模7000萬(wàn)字,主要應(yīng)用目標(biāo)是語(yǔ)言文字信息處理、語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定、語(yǔ)言文字的學(xué)術(shù)研究、語(yǔ)文教育、以及語(yǔ)言文字的社會(huì)應(yīng)用。

      這個(gè)語(yǔ)料庫(kù)收錄的語(yǔ)料以書(shū)面語(yǔ)為主、以書(shū)面語(yǔ)轉(zhuǎn)述的口語(yǔ)為輔。語(yǔ)料來(lái)源是1919年至今,主要是1977年至今出版的教材、報(bào)紙、綜合性刊物、專業(yè)刊物和圖書(shū)。在設(shè)計(jì)原則上,講求通用性、描述性、實(shí)用性和抽樣的科學(xué)性。在語(yǔ)料分類方面,以“門(mén)類為主,語(yǔ)體為輔”為原則制定三個(gè)大類:

      第一類:人文與社會(huì)科學(xué)類(包括8個(gè)次類、30個(gè)細(xì)類)

      1.政法類:哲學(xué)政治宗教法律

      2.歷史類:歷史考古民族

      3.社會(huì)類:社會(huì)學(xué)心理語(yǔ)言文字教育文藝?yán)碚撔侣劽袼?/p>

      4.經(jīng)濟(jì)類:工業(yè)經(jīng)濟(jì)農(nóng)業(yè)經(jīng)濟(jì)政治經(jīng)濟(jì)財(cái)貿(mào)經(jīng)濟(jì)

      5.藝術(shù)類:音樂(lè)美術(shù)舞蹈戲劇

      6.文學(xué)類:小說(shuō)散文傳記報(bào)告文學(xué)科幻口語(yǔ)

      7.軍體類:軍事體育

      8.生活類

      第二類:自然科學(xué)類(包括6個(gè)次類)

      1.?dāng)?shù)理類

      2.生化類

      3.天文地理類

      4.海洋氣象類

      5.農(nóng)林類

      6.醫(yī)藥衛(wèi)生類

      第三類:綜合類(包括6個(gè)次類,30多個(gè)細(xì)類)

      1.行政公文類:請(qǐng)示報(bào)告批復(fù)命令指示布告紀(jì)要通知等

      2.章程法規(guī)類:章程條例細(xì)則制度公約辦法法律條文等

      3.司法文書(shū)類:訴訟辯護(hù)詞控告信委托書(shū)等

      4.商業(yè)文告類:說(shuō)明廣告調(diào)查報(bào)告經(jīng)濟(jì)合同等

      5.禮儀辭令類:歡迎詞賀電訃告唁電慰問(wèn)信祝酒詞等

      6.實(shí)用文書(shū)類:請(qǐng)假條檢討申請(qǐng)書(shū)請(qǐng)?jiān)笗?shū)等 在不同類別、不同來(lái)源、不同時(shí)期的語(yǔ)言材料中,按照不等密度的思路確定合適的語(yǔ)料選取比例,從共時(shí)和歷時(shí)兩個(gè)角度保證入選語(yǔ)料的平衡性,是這個(gè)語(yǔ)料庫(kù)的特點(diǎn)。譬如,在語(yǔ)言材料的年限方面,選材比例是:

      1919年– 1925年

      5%

      1926年– 1949年

      15%

      1950年– 1965年

      25%

      1966年– 1976年

      5%

      1977年以后

      50%

      在語(yǔ)言材料的門(mén)類、語(yǔ)體和來(lái)源方面,選材比例是:

      人文與社會(huì)科學(xué)類占59.6%。其中各個(gè)次類在本大類中的比例是:

      政法

      12.7%

      歷史

      8.4%

      社會(huì)

      14.0%

      經(jīng)濟(jì)

      9.8%

      藝術(shù)

      6.7%

      文學(xué)

      44.9%

      軍體

      2.3%

      生活

      1.4%

      自然科學(xué)類占17.24%。其中各個(gè)次類在本大類中的比例是:

      數(shù)理

      17.2%

      生化

      19.1%

      天文地理

      14.1%

      海洋氣象

      9.1%

      農(nóng)林

      22.8%

      醫(yī)藥衛(wèi)生

      17.7%

      綜合類占9.36%。其中各個(gè)次類在本大類中的比例是:

      各類應(yīng)用文

      91.1%

      其他

      8.9%

      報(bào)紙類占13.79%。其中各個(gè)次類在本大類中的比例是:

      全國(guó)性報(bào)刊

      25%

      省市報(bào)刊

      75%

      這個(gè)語(yǔ)料庫(kù)在選材過(guò)程中收集和記錄語(yǔ)料的有關(guān)描述信息,為每個(gè)語(yǔ)料樣本設(shè)立了20個(gè)描述項(xiàng)目:總號(hào)、分類號(hào)、樣本名稱、類別、作者、寫(xiě)作時(shí)間、書(shū)刊名稱、編著者、出版者、出版日期、期號(hào)(版面號(hào))、版次(初版日期)、印冊(cè)數(shù)、總頁(yè)數(shù)、開(kāi)本、選樣方式、樣本起止頁(yè)數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡(jiǎn)字。用戶可以利用這些語(yǔ)料描述標(biāo)記根據(jù)各自的需要進(jìn)行各種方式的檢索。語(yǔ)料庫(kù)的建庫(kù)工作分為兩步,第一步先建立核心語(yǔ)料庫(kù)(由7000萬(wàn)字的語(yǔ)料中篩選出2000萬(wàn)字語(yǔ)料組成)。到90年代末,完成了2000萬(wàn)字生語(yǔ)料的收錄工作。從2001年開(kāi)始,對(duì)2000萬(wàn)字核心語(yǔ)料進(jìn)行分詞和詞性標(biāo)注加工。

      (二)《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)

      《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所和日本富士通公司合作,從1999年開(kāi)始,到2002年完成,原始語(yǔ)料取自1998年全年的《人民日?qǐng)?bào)》,共約2700萬(wàn)字,到2003年又?jǐn)U充到3500萬(wàn)字,是我國(guó)第一個(gè)大型的現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)加工的項(xiàng)目有詞語(yǔ)切分和詞性標(biāo)注,還有專有名詞(人名、地名、團(tuán)體機(jī)構(gòu)名稱等)標(biāo)注、語(yǔ)素子類標(biāo)注、動(dòng)詞、形容詞的特殊用法標(biāo)注和短語(yǔ)型標(biāo)注。下面是一段語(yǔ)料標(biāo)注的示例,對(duì)于1998年1月1日第5版第1篇文章的第11段:

      我國(guó)的國(guó)有企業(yè)改革見(jiàn)成效。位于河南的中國(guó)一拖集團(tuán)有限責(zé)任公司面向市場(chǎng),積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機(jī)生產(chǎn)線。(趙鵬攝)

      標(biāo)注后的形式是:

      19980101-05-001-011/m 我國(guó)/n 的/u 國(guó)有/vn企業(yè)/n 改革/v 見(jiàn)/v 成效/n。/w 位于/v 河南/ns 的/u [中國(guó)/ns 一拖/j 集團(tuán)/n 有限/a 責(zé)任/n 公司/n]nt面向/v 市場(chǎng)/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn和/c 新/a 產(chǎn)品/n 研制/vn步伐/n。/w 圖/n 為/v 東方紅牌/nz履帶/n 拖拉機(jī)/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w

      在每一個(gè)切分出來(lái)的詞和標(biāo)點(diǎn)符號(hào)后面,是該詞語(yǔ)的標(biāo)記。譬如詞性標(biāo)記(n,v,a,u,m,w等),專有名詞標(biāo)記(nr,ns,nz等),語(yǔ)素子類標(biāo)記(Vg等),動(dòng)詞和形容詞特殊用法標(biāo)記(vn,ad)。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》為基礎(chǔ)詞庫(kù),在一個(gè)加工規(guī)范的指導(dǎo)下標(biāo)注的。

      利用《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù),人們可以從各個(gè)角度考察和分析語(yǔ)言事實(shí),統(tǒng)計(jì)各種語(yǔ)言單位出現(xiàn)的頻率,譬如,詞語(yǔ)或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語(yǔ)素字的使用情況,等等。也可以從語(yǔ)料里提取各種語(yǔ)言單位或語(yǔ)句片段作為研究實(shí)例。與僅僅以漢字串的形式表示的“生語(yǔ)料”相比,經(jīng)過(guò)標(biāo)注的“熟語(yǔ)料”顯然含有更多的語(yǔ)言學(xué)特征信息,對(duì)漢語(yǔ)詞匯研究、語(yǔ)法研究和漢語(yǔ)信息處理系統(tǒng)來(lái)說(shuō)是更好的語(yǔ)言知識(shí)資源。

      《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998年上半年)共1300萬(wàn)字已經(jīng)通過(guò)《人民日?qǐng)?bào)》新聞信息中心公開(kāi)提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998年1月)近200萬(wàn)字在互聯(lián)網(wǎng)上公布,供自由下載。

      (三)用于語(yǔ)言教學(xué)和研究的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)

      建立現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)的主要目的之一是對(duì)外漢語(yǔ)教學(xué)和現(xiàn)代漢語(yǔ)研究,可以分為書(shū)面語(yǔ)語(yǔ)料庫(kù)和以文本形式表示的口語(yǔ)語(yǔ)料庫(kù)兩類。前者如北京語(yǔ)言大學(xué)的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)、現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù),后者如中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所的北京地區(qū)現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料庫(kù)。

      漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)目標(biāo)是為對(duì)外漢語(yǔ)教學(xué)、中介語(yǔ)研究、偏誤分析和漢語(yǔ)本體研究提供資源,因此它的語(yǔ)料來(lái)源很有對(duì)外漢語(yǔ)教學(xué)的特點(diǎn)。作者先在北京和其他省市的9 所高等院校里,從來(lái)自96個(gè)國(guó)家和地區(qū)的1635位外國(guó)留學(xué)生那里收集了成篇成段的漢語(yǔ)作文或練習(xí)材料5774篇,共3528988字。再?gòu)闹谐槿×?740人的1731篇語(yǔ)料,共有44218句,1041274字。全部語(yǔ)料都記錄了學(xué)生姓名、性別、年齡、國(guó)別、是否華裔、第一語(yǔ)言、文化程度、所學(xué)主要教材、語(yǔ)料類別、寫(xiě)作時(shí)間、提供者等23項(xiàng)屬性。然后對(duì)這104萬(wàn)字的語(yǔ)料進(jìn)行詞語(yǔ)切分、詞性標(biāo)注以及一些專用的語(yǔ)言學(xué)特征標(biāo)注。例如,標(biāo)出了字、詞、句、篇等不同的層次,對(duì)語(yǔ)料的非規(guī)范形式(例如:錯(cuò)字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標(biāo)記,記錄其對(duì)應(yīng)的規(guī)范形式。這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)有語(yǔ)篇屬性登錄、文本過(guò)濾、文字預(yù)處理信息登錄、語(yǔ)料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動(dòng)標(biāo)注以及語(yǔ)料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語(yǔ)料庫(kù)的建立、管理和維護(hù),以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比,中介語(yǔ)語(yǔ)料庫(kù)能夠更好地反映學(xué)生學(xué)習(xí)漢語(yǔ)的情況,幫助教師更加全面地觀察他們的學(xué)習(xí)過(guò)程,了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語(yǔ)作為第二語(yǔ)言的教學(xué)中,為教材編寫(xiě)、課堂教學(xué)、測(cè)試等環(huán)節(jié)提供依據(jù)。

      現(xiàn)代漢語(yǔ)研究語(yǔ)料庫(kù)的建設(shè)目標(biāo)是為語(yǔ)言學(xué)家提供一個(gè)研究平臺(tái),由2000萬(wàn)字的粗語(yǔ)料庫(kù)和200萬(wàn)字經(jīng)過(guò)分詞和詞性標(biāo)注的精語(yǔ)料庫(kù)兩個(gè)部分組成。粗語(yǔ)料庫(kù)收錄的語(yǔ)料樣本中絕大部分是九十年代的出版物,有《人民日?qǐng)?bào)》1000萬(wàn)字,《中國(guó)新聞》500萬(wàn)字,各種書(shū)籍250萬(wàn)字,文學(xué)作品150萬(wàn)字,準(zhǔn)口語(yǔ)材料(書(shū)面形式的對(duì)話、獨(dú)白)100萬(wàn)字。精語(yǔ)料庫(kù)的200萬(wàn)字語(yǔ)料樣本是從粗語(yǔ)料庫(kù)中按照規(guī)定的比例由計(jì)算機(jī)隨機(jī)抽取的,有書(shū)面語(yǔ)語(yǔ)料160萬(wàn)字,準(zhǔn)口語(yǔ)語(yǔ)料40萬(wàn)字,是從語(yǔ)體、題材、體裁三個(gè)方面均衡選取的平衡語(yǔ)料庫(kù)。為了對(duì)這些語(yǔ)料進(jìn)行詞語(yǔ)切分和詞性標(biāo)注,作者制定了詞語(yǔ)切分的細(xì)則和詞性標(biāo)記體系的原則,采用了一個(gè)含有112個(gè)詞類標(biāo)記的標(biāo)記集,確定了兼類詞的處理方法。這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)具有建庫(kù)、檢索、瀏覽、統(tǒng)計(jì)、輸出等功能,可以按詞或詞類檢索,統(tǒng)計(jì)出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長(zhǎng)、平均句長(zhǎng)等結(jié)果。這個(gè)語(yǔ)料庫(kù)建成以后,很快應(yīng)用在現(xiàn)代漢語(yǔ)語(yǔ)法、漢語(yǔ)教學(xué)和漢語(yǔ)信息處理的研究中,研究?jī)?nèi)容涉及現(xiàn)代漢語(yǔ)的插入語(yǔ)、漢語(yǔ)句子的主題-主語(yǔ)標(biāo)注、V+N序列實(shí)驗(yàn)分析、詞性標(biāo)注中詞語(yǔ)歸類問(wèn)題、動(dòng)賓組合的自動(dòng)獲取與標(biāo)注,等等。

      建設(shè)北京地區(qū)現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料庫(kù)的目的是,通過(guò)收集大量的現(xiàn)場(chǎng)即席話語(yǔ)語(yǔ)料研究現(xiàn)場(chǎng)即席話語(yǔ)的各種動(dòng)態(tài)機(jī)制,以揭示現(xiàn)場(chǎng)即席話語(yǔ)的使用規(guī)律。這個(gè)語(yǔ)料庫(kù)的研究策略和取樣方法很有特點(diǎn),首先是嚴(yán)格區(qū)分資源庫(kù)和語(yǔ)料庫(kù),資源庫(kù)收集符合現(xiàn)場(chǎng)即席話語(yǔ)定義的錄音材料,語(yǔ)料庫(kù)收錄按照一定標(biāo)準(zhǔn)從資源庫(kù)提取出來(lái)的材料;另外在語(yǔ)料采樣前先做摸底性研究,通過(guò)研究對(duì)現(xiàn)場(chǎng)即席話語(yǔ)的真實(shí)情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場(chǎng)典型材料,這是一種層次范疇化的取樣方法。這個(gè)語(yǔ)料庫(kù)目前正在建設(shè)之中,已經(jīng)取得了近600小時(shí)的錄音材料和50多小時(shí)的錄象材料。

      在用于漢語(yǔ)研究的語(yǔ)料庫(kù)中,講究選材均衡,注重語(yǔ)料加工,同時(shí)也提供公開(kāi)服務(wù)的,當(dāng)數(shù)臺(tái)灣中央研究院歷史語(yǔ)言研究所的現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)(簡(jiǎn)稱Sinica Corpus)。這個(gè)語(yǔ)料庫(kù)的規(guī)模為500萬(wàn)個(gè)詞,每個(gè)句子都依詞斷開(kāi),標(biāo)示詞類標(biāo)記,并且配備了檢索系統(tǒng),在網(wǎng)上開(kāi)放供大家使用。根據(jù)自己制定的一套漢語(yǔ)文本屬性特征為語(yǔ)料分類,在不同的類別上盡量均衡地采集語(yǔ)料,是這個(gè)語(yǔ)料庫(kù)的特點(diǎn)之一。文本屬性用來(lái)說(shuō)明文檔的呈現(xiàn)方式、文章的寫(xiě)作方式、文章寫(xiě)作的內(nèi)容和文檔的來(lái)源出處,包括7類,每類下設(shè)若干小類:

      文類(文檔的呈現(xiàn)方式)

      報(bào)導(dǎo)、評(píng)論、廣告圖文、信函、公告啟事、小說(shuō)故事寓言、散文、傳記日記、詩(shī)歌、語(yǔ)錄、說(shuō)明手冊(cè)、劇本、會(huì)話、演講、會(huì)議記錄 文體(文章的寫(xiě)作方式)

      記敘、論說(shuō)、說(shuō)明、描寫(xiě)

      語(yǔ)式(文檔的呈現(xiàn)方式)

      書(shū)面語(yǔ)、演講稿、劇本/臺(tái)辭、口語(yǔ)談話、會(huì)議記錄

      主題(文章寫(xiě)作的內(nèi)容)

      哲學(xué)、科學(xué)、社會(huì)、藝術(shù)、生活、文學(xué)

      媒體報(bào)紙、一般雜志、學(xué)術(shù)期刊、教科書(shū)、工具書(shū)、學(xué)術(shù)論著、一般圖書(shū)、書(shū)信、視聽(tīng)媒體、其它

      作者姓名、性別、國(guó)籍、母語(yǔ)

      出版出版單位、出版地、出版日期、版次

      不同研究目的的語(yǔ)言學(xué)者可以自己按語(yǔ)式、文體、媒體和主題的小類選取不同類別的語(yǔ)料,組成“自訂語(yǔ)料庫(kù)”,在“自訂語(yǔ)料庫(kù)”的范圍內(nèi)進(jìn)行語(yǔ)料的檢索和統(tǒng)計(jì)。除了通常的按詞語(yǔ)、詞類的檢索和統(tǒng)計(jì)以外,這個(gè)語(yǔ)料庫(kù)的管理系統(tǒng)還提供了一種“進(jìn)階處理”功能,對(duì)檢索出來(lái)的數(shù)據(jù)作進(jìn)一步處理,對(duì)處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

      (四)面向語(yǔ)言信息處理的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)

      90年代中后期,面向語(yǔ)言信息處理的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)開(kāi)始建立并投入應(yīng)用。其中最早開(kāi)發(fā)的是清華大學(xué)用于研究和開(kāi)發(fā)漢語(yǔ)自動(dòng)分詞技術(shù)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),經(jīng)過(guò)幾年的積累已達(dá)到8億多字生語(yǔ)料。在這個(gè)語(yǔ)料庫(kù)的支持下,用統(tǒng)計(jì)語(yǔ)言模型的方法研究了漢語(yǔ)自動(dòng)分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬(wàn)多個(gè)詞語(yǔ)的《信息處理用現(xiàn)代漢語(yǔ)分詞詞表》。這些研究工作體現(xiàn)了我國(guó)漢語(yǔ)自動(dòng)分詞技術(shù)的發(fā)展水平,詞表被許多漢語(yǔ)自動(dòng)分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

      TH通用語(yǔ)料庫(kù)系統(tǒng)是清華大學(xué)建立的另一個(gè)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)有兩個(gè)特點(diǎn),一是語(yǔ)料庫(kù)管理系統(tǒng)根據(jù)不同的加工深度,分四個(gè)等級(jí)管理語(yǔ)料。第一級(jí)是生語(yǔ)料分庫(kù),有4千余萬(wàn)字;第二級(jí)以上都是加工程度不同的熟語(yǔ)料庫(kù),其中第二級(jí)存放經(jīng)過(guò)自動(dòng)分詞并由人工校對(duì)過(guò)的初加工語(yǔ)料500余萬(wàn)字;第三級(jí)存放經(jīng)過(guò)詞性標(biāo)注和人工校對(duì)的語(yǔ)料約300萬(wàn)字;第四級(jí)是經(jīng)過(guò)句子成分標(biāo)注和人工校對(duì)的語(yǔ)料。每個(gè)分庫(kù)又按語(yǔ)料的來(lái)源分成一般書(shū)籍、報(bào)紙、雜志、論文和工具書(shū)五類子庫(kù)。不同等級(jí)的語(yǔ)料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個(gè)特點(diǎn)是在這個(gè)語(yǔ)料庫(kù)的支持下,進(jìn)行了漢語(yǔ)信息處理技術(shù)的研究。譬如,采用以謂語(yǔ)為中心的句型成分分析與語(yǔ)料統(tǒng)計(jì)相結(jié)合的方法,自動(dòng)分析漢語(yǔ)的句型,提出了一個(gè)“漢語(yǔ)句型頻度表”;在漢語(yǔ)文本中自動(dòng)標(biāo)注句子成分和句型成分的邊界;根據(jù)指定的句型在語(yǔ)料庫(kù)里搜尋句子實(shí)例,等等。

      HuaYu人工標(biāo)注語(yǔ)料庫(kù)是清華大學(xué)和北京語(yǔ)言大學(xué)合作建立的一個(gè)現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個(gè)大類收錄了200余萬(wàn)字語(yǔ)料。它的特點(diǎn)是講究加工的深度,除了詞語(yǔ)切分和詞性標(biāo)注以外,還根據(jù)語(yǔ)句中動(dòng)詞的類型和句子的長(zhǎng)度進(jìn)行“語(yǔ)塊”標(biāo)注和“句法樹(shù)”標(biāo)注,目的是為建立漢語(yǔ)短語(yǔ)分析或句法分析的語(yǔ)言模型獲取統(tǒng)計(jì)數(shù)據(jù)提供資源。下面分別是語(yǔ)塊標(biāo)注和句法樹(shù)標(biāo)注的示例。

      對(duì)句子“自古以來(lái),人類就重視檔案的保存和利用,設(shè)置館庫(kù)、選派專人進(jìn)行管理?!边M(jìn)行語(yǔ)塊標(biāo)注以后得到的是一個(gè)無(wú)嵌套的線性序列,其中S是主語(yǔ)語(yǔ)塊,P是述語(yǔ)語(yǔ)塊,O是賓語(yǔ)語(yǔ)塊:

      [D 自/p 古/t 以來(lái)/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN,/, [P 設(shè)置/v [O 館庫(kù)/n、/、[P 選派/v [O 專人/n [P 進(jìn)行/v [O 管理v。

      對(duì)句子“我哥哥送給我一本很漂亮的書(shū)?!边M(jìn)行句法樹(shù)標(biāo)注以后,得到的是一個(gè)與樹(shù)形結(jié)構(gòu)等價(jià)的線性序列:

      [ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書(shū)/n ] ] ] ]。/w ]

      (五)用于開(kāi)發(fā)特定語(yǔ)言分析技術(shù)的專用語(yǔ)料庫(kù)

      這類語(yǔ)料庫(kù)是針對(duì)漢語(yǔ)信息處理技術(shù)的需要專門(mén)建立的。例如山西大學(xué)的專有名詞標(biāo)注語(yǔ)料庫(kù)和分詞與詞性標(biāo)注語(yǔ)料庫(kù)。

      分詞與詞性標(biāo)注語(yǔ)料庫(kù),規(guī)模為500萬(wàn)字,帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時(shí)依據(jù)《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》和《信息處理用現(xiàn)代漢語(yǔ)詞類及標(biāo)記集規(guī)范》。在這個(gè)語(yǔ)料庫(kù)的支持下,開(kāi)發(fā)漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注軟件,研究自動(dòng)分詞和詞性標(biāo)注的評(píng)測(cè)技術(shù)。為了解決漢語(yǔ)自動(dòng)分詞中的切分歧義問(wèn)題,還建立了交集型歧義字段庫(kù)和組合型歧義字段庫(kù),專門(mén)收集這兩種類型的歧義切分實(shí)例。前者有7.8萬(wàn)字,后者收錄了140多條。并且在分詞和詞性標(biāo)注語(yǔ)料庫(kù)里作了這兩類切分歧義的標(biāo)注。利用這些語(yǔ)料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達(dá)到90%以上。

      專有名詞標(biāo)注語(yǔ)料庫(kù)用于研究漢語(yǔ)自動(dòng)分詞中專有名詞的識(shí)別算法。其中包括標(biāo)注了中國(guó)地名的語(yǔ)料280萬(wàn)字,標(biāo)注了中國(guó)人姓名的語(yǔ)料300萬(wàn)字,標(biāo)注了西文姓名的語(yǔ)料250萬(wàn)字,標(biāo)注了漢語(yǔ)機(jī)構(gòu)名稱的語(yǔ)料50萬(wàn)字,還有標(biāo)注了網(wǎng)絡(luò)新詞語(yǔ)的語(yǔ)料150萬(wàn)字。利用這些語(yǔ)料,建立了中國(guó)地名用字、用詞庫(kù),姓氏人名庫(kù),姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計(jì)語(yǔ)言模型的方法識(shí)別專有名詞。

      (六)雙語(yǔ)語(yǔ)料庫(kù)

      基于實(shí)例的機(jī)器翻譯(Example-based)需要大規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)來(lái)支持。語(yǔ)料庫(kù)里的源語(yǔ)和目標(biāo)語(yǔ)實(shí)例要按照相同級(jí)別的翻譯單位一一對(duì)齊。目前已有的雙語(yǔ)平行語(yǔ)料庫(kù)主要是漢語(yǔ)和英語(yǔ)的,語(yǔ)料對(duì)齊的單位有句子級(jí)的、子句級(jí)的、短語(yǔ)級(jí)的,也有詞匯級(jí)的。機(jī)器翻譯系統(tǒng)把要翻譯的句子與語(yǔ)料庫(kù)里的源語(yǔ)實(shí)例進(jìn)行對(duì)比,分析相似程度,找到最適合的源語(yǔ)實(shí)例,再參照與它對(duì)齊的目標(biāo)語(yǔ)實(shí)例生成譯文。用于這類機(jī)器翻譯系統(tǒng)的雙語(yǔ)語(yǔ)料庫(kù)必須有一定的規(guī)模,用人工做語(yǔ)料對(duì)齊的工作顯然很難滿足要求。這就使文本自動(dòng)對(duì)齊成為建立雙語(yǔ)語(yǔ)料庫(kù)的關(guān)鍵技術(shù)。

      在目前已有的雙語(yǔ)語(yǔ)料庫(kù)中,哈爾濱工業(yè)大學(xué)的漢英平行語(yǔ)料庫(kù)已經(jīng)直接用來(lái)開(kāi)發(fā)英漢雙向機(jī)器翻譯系統(tǒng)。這個(gè)語(yǔ)料庫(kù)有6萬(wàn)個(gè)漢語(yǔ)和英語(yǔ)的句子,使用多級(jí)對(duì)齊加工技術(shù),分別按照句子、短語(yǔ)結(jié)構(gòu)和詞一一對(duì)齊。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢英雙語(yǔ)語(yǔ)料庫(kù)有20萬(wàn)個(gè)句對(duì),也完成了句子一級(jí)的對(duì)齊,并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國(guó)科學(xué)院軟件研究所等單位也建立了按句對(duì)齊的漢英雙語(yǔ)語(yǔ)料庫(kù)。除此之外,還有以語(yǔ)段或短語(yǔ)為單位收集的漢英雙語(yǔ)語(yǔ)料庫(kù),譬如中國(guó)科學(xué)院自動(dòng)化研究所的漢英雙語(yǔ)短語(yǔ)庫(kù),有3~5萬(wàn)對(duì)已對(duì)齊的漢語(yǔ)和英語(yǔ)短語(yǔ)。東北大學(xué)的英漢雙語(yǔ)語(yǔ)段庫(kù),用來(lái)幫助建立電子版的英漢搭配詞典。

      (七)面向漢語(yǔ)史研究的語(yǔ)料庫(kù)

      面向漢語(yǔ)史研究的語(yǔ)料庫(kù)建設(shè)是從搜集漢語(yǔ)史文獻(xiàn)資料開(kāi)始的。臺(tái)灣中央研究院歷史語(yǔ)言研究所從90年代初期就開(kāi)始了這項(xiàng)工作,他們先收集上古漢語(yǔ)的語(yǔ)料,然后擴(kuò)展到中古漢語(yǔ)和近代漢語(yǔ)。90年代中后期逐步開(kāi)始上古漢語(yǔ)語(yǔ)料和近代漢語(yǔ)的標(biāo)注,在該院信息研究所和計(jì)算中心的協(xié)助下進(jìn)行標(biāo)注技術(shù)和檢索技術(shù)的開(kāi)發(fā)。根據(jù)是否經(jīng)過(guò)分詞處理和詞性標(biāo)注,臺(tái)灣中央研究院的古漢語(yǔ)語(yǔ)料庫(kù)和近代漢語(yǔ)語(yǔ)料庫(kù)可以分成兩類:生語(yǔ)料庫(kù)和標(biāo)記語(yǔ)料庫(kù)。目前生語(yǔ)料庫(kù)收集的語(yǔ)料已涵蓋上古漢語(yǔ)(先秦至西漢)、中古漢語(yǔ)(東漢魏晉南北朝)、近代漢語(yǔ)(唐五代以后)的大部分重要文獻(xiàn)資料,并己陸續(xù)開(kāi)放使用。在標(biāo)記語(yǔ)料庫(kù)方面,上古漢語(yǔ)及近代漢語(yǔ)都已有部分語(yǔ)料完成標(biāo)注工作,也逐步提供網(wǎng)上檢索。2001年底,開(kāi)放了近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)WWW版供各界使用,首先提供查詢的文獻(xiàn)是《紅樓夢(mèng)》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項(xiàng)及詞類的同時(shí)給出例句的出處,便于歷史語(yǔ)法的研究者使用。

      多年來(lái)中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所也一直在致力于文獻(xiàn)資料的建設(shè),搜集整理了近代漢語(yǔ)書(shū)面語(yǔ)語(yǔ)料150萬(wàn)字,中古近代漢語(yǔ)語(yǔ)料約1千萬(wàn)字,部分語(yǔ)料已作了標(biāo)注。目前已經(jīng)完成了一個(gè)小型語(yǔ)料庫(kù),包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語(yǔ)類、劉知遠(yuǎn)諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書(shū)、經(jīng)筵講義等十余種文獻(xiàn),成為漢語(yǔ)史和語(yǔ)言學(xué)理論研究的重要資源。此外,語(yǔ)言研究所的先秦專書(shū)電子文檔有4部文獻(xiàn),共約120萬(wàn)字,并且已由古漢語(yǔ)學(xué)者逐篇逐句標(biāo)注了語(yǔ)法信息。

      上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語(yǔ)史研究的方向,建立了歷史文獻(xiàn)語(yǔ)料庫(kù)。四川大學(xué)的中古漢語(yǔ)語(yǔ)料庫(kù)有1億字的中古漢語(yǔ)語(yǔ)料和有關(guān)中古漢語(yǔ)研究的資料。浙江師范大學(xué)的楚辭語(yǔ)庫(kù)、前四史語(yǔ)庫(kù)、六朝語(yǔ)庫(kù)、太平廣記語(yǔ)庫(kù)、唐詩(shī)語(yǔ)庫(kù)、宋詞語(yǔ)庫(kù),已用于“前四史”語(yǔ)言研究和唐宋詩(shī)詞語(yǔ)詞研究。

      目前歷史文獻(xiàn)語(yǔ)料庫(kù)建設(shè)的特點(diǎn)是依托學(xué)科建設(shè)和研究方向,廣泛收集資料,注重??本珜彙kS著漢語(yǔ)史研究和語(yǔ)料庫(kù)應(yīng)用的發(fā)展,資源共享和語(yǔ)料加工將得到越來(lái)越多的重視。歷史文獻(xiàn)資源共享,首先要避免語(yǔ)料的重復(fù)收集,還要采用國(guó)際通用的標(biāo)準(zhǔn)處理語(yǔ)料文本,使語(yǔ)料能夠準(zhǔn)確、方便地交換和使用。語(yǔ)料加工則是充分發(fā)掘語(yǔ)料應(yīng)用價(jià)值的基礎(chǔ)工作,從收集歷史文獻(xiàn)的電子文檔,到建成一個(gè)具有必要的語(yǔ)言學(xué)標(biāo)記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語(yǔ)料庫(kù),語(yǔ)料的加工是不可或缺的一步。

      (八)比較語(yǔ)料庫(kù)

      為了研究漢語(yǔ)在不同地區(qū)的使用情況,香港城市大學(xué)建立了LIVAC共時(shí)語(yǔ)料庫(kù)(Linguistic Variation in Chinese Speech Communities)。語(yǔ)料來(lái)自香港、臺(tái)灣、北京、上海、澳門(mén)及新加坡六地有代表性的中文報(bào)紙,以及電子媒介上的新聞報(bào)道。自1995年7月開(kāi)始,每四天一次,收集這六個(gè)地區(qū)的對(duì)等書(shū)面語(yǔ)文本,每次約兩萬(wàn)字。內(nèi)容包括新聞、特寫(xiě)、評(píng)論等文章。到2003年上半年,已收集了1億1千多萬(wàn)字、超過(guò)56萬(wàn)個(gè)詞條。計(jì)劃收集到2005年6月,囊括新舊世紀(jì)交接點(diǎn)前后各五年各地華語(yǔ)社區(qū)有代表性的重要語(yǔ)言數(shù)據(jù),供漢語(yǔ)的各種共時(shí)比較研究使用。

      在語(yǔ)料的組織和加工方面,這個(gè)語(yǔ)料庫(kù)用計(jì)算機(jī)自動(dòng)分詞,再經(jīng)人工校對(duì)分類,可以依字、詞、句為基礎(chǔ)進(jìn)行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計(jì)功能。語(yǔ)言學(xué)家能通過(guò)這個(gè)語(yǔ)料庫(kù)考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語(yǔ),還可以對(duì)具體字或詞的頻率作統(tǒng)計(jì)比較,對(duì)字詞的差別作計(jì)量分析。對(duì)研究華人社區(qū)的文化、社會(huì)、語(yǔ)言差異也有作用。這個(gè)語(yǔ)料庫(kù)的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

      (九)少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)

      新疆大學(xué)從2002年起開(kāi)始建設(shè)現(xiàn)代維吾爾語(yǔ)語(yǔ)料庫(kù)系統(tǒng),計(jì)劃包括5個(gè)部分:語(yǔ)料庫(kù)、電子語(yǔ)法信息詞典、規(guī)則庫(kù)、統(tǒng)計(jì)信息庫(kù)和檢索統(tǒng)計(jì)軟件包。其中語(yǔ)料庫(kù)部分又分成生語(yǔ)料庫(kù)(經(jīng)初步整理的原始語(yǔ)料)和加工語(yǔ)料庫(kù)(經(jīng)過(guò)標(biāo)注和校對(duì)的語(yǔ)料)。目前已有生語(yǔ)料800萬(wàn)詞。另外,新疆大學(xué)也正在以新聞?lì)I(lǐng)域的維漢-漢維機(jī)器翻譯為目標(biāo),建設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)。內(nèi)蒙古大學(xué)的中世紀(jì)蒙古文語(yǔ)料庫(kù)收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻(xiàn)集》等歷史文獻(xiàn)。他們還建立了500萬(wàn)詞的現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù),研究了蒙古文附加成分的自動(dòng)切分、復(fù)合詞的自動(dòng)識(shí)別和語(yǔ)料的詞性標(biāo)注,獲得了詞頻統(tǒng)計(jì)、音節(jié)統(tǒng)計(jì)、詞類統(tǒng)計(jì)、附加成分統(tǒng)計(jì)等數(shù)據(jù)。西北民族大學(xué)建立了1億3千萬(wàn)字節(jié)的大型藏文語(yǔ)料庫(kù),用于藏文詞匯頻度和通用度的統(tǒng)計(jì)。中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所建立了500萬(wàn)藏語(yǔ)字符的藏語(yǔ)語(yǔ)料庫(kù),進(jìn)行詞語(yǔ)切分和標(biāo)注的研究。新疆師范大學(xué)也建立了200萬(wàn)詞的維吾爾語(yǔ)語(yǔ)料庫(kù)。

      與漢語(yǔ)語(yǔ)料庫(kù)相比,少數(shù)民族語(yǔ)料庫(kù)的建設(shè)還需要解決一些特殊的問(wèn)題,譬如拼音文字轉(zhuǎn)寫(xiě)的標(biāo)準(zhǔn)和規(guī)范,詞語(yǔ)分類體系及其標(biāo)記集等。

      到2003年,已建和在建的各種文本語(yǔ)料庫(kù)還有很多(包括書(shū)面語(yǔ)語(yǔ)料庫(kù)和以文本形式表示的口語(yǔ)語(yǔ)料庫(kù)),以上提到的只是有代表性的一部分。與文本語(yǔ)料庫(kù)相對(duì)的,是語(yǔ)音語(yǔ)料庫(kù)。語(yǔ)音語(yǔ)料庫(kù)不僅記錄語(yǔ)圖、聲學(xué)參數(shù)等語(yǔ)音學(xué)數(shù)據(jù),還有句法、韻律等各種語(yǔ)言學(xué)信息標(biāo)記和副語(yǔ)言學(xué)信息標(biāo)記,可以在語(yǔ)音識(shí)別與合成系統(tǒng)中用來(lái)建立語(yǔ)音模型,用于語(yǔ)音研究、語(yǔ)音工程開(kāi)發(fā)和漢語(yǔ)普通話教學(xué)等領(lǐng)域。語(yǔ)音技術(shù)是當(dāng)前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語(yǔ)音語(yǔ)料庫(kù)在科研和工程上有很高的使用價(jià)值。關(guān)于語(yǔ)音語(yǔ)料庫(kù)的詳細(xì)情況,請(qǐng)見(jiàn)“語(yǔ)音學(xué)和言語(yǔ)工程研究綜述”。

      下載語(yǔ)料庫(kù)的應(yīng)用(最終)word格式文檔
      下載語(yǔ)料庫(kù)的應(yīng)用(最終).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦