欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      語料庫(kù)研究綜述

      時(shí)間:2019-05-15 10:07:24下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫(kù)小編為你整理了多篇相關(guān)的《語料庫(kù)研究綜述》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫(kù)還可以找到更多《語料庫(kù)研究綜述》。

      第一篇:語料庫(kù)研究綜述

      語料庫(kù)研究與應(yīng)用綜述

      目錄 一概述

      二中國(guó)語料庫(kù)建設(shè)的基本情況 三語料庫(kù)的加工、管理和規(guī)范 四語料庫(kù)在語言研究中的的應(yīng)用 五參考文獻(xiàn)

      語料庫(kù)研究與應(yīng)用綜述

      一概述

      語料庫(kù)通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫(kù)能夠反映和記錄語言的實(shí)際使用情況。人們通過語料庫(kù)觀察和把握語言事實(shí),分析和研究語言系統(tǒng)的規(guī)律。語料庫(kù)已經(jīng)成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。

      語料庫(kù)有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫(kù)分成四種類型:(1)異質(zhì)的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲(chǔ)各種語料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實(shí);(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫(kù)也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫(kù)又可以分為語篇的、語句的、短語的。雙語和多語語料庫(kù)按照語料的組織形式,還可以分為平行(對(duì)齊)語料庫(kù)和比較語料庫(kù),前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對(duì)比研究。

      語料庫(kù)建設(shè)中涉及的主要問題包括:

      (1)設(shè)計(jì)和規(guī)劃:主要考慮語料庫(kù)的用途、類型、規(guī)模、實(shí)現(xiàn)手段、質(zhì)量保證、可擴(kuò)展性等。

      (2)語料的采集:主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

      (3)語料的加工:包括標(biāo)注項(xiàng)目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。

      (4)語料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(hù)(語料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語料描述信息項(xiàng)目管理)、語料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計(jì)、打印等)。

      (5)語料庫(kù)的應(yīng)用:針對(duì)語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的算法和軟件工具。

      我國(guó)語料庫(kù)的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語料庫(kù)方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語料庫(kù),研究的內(nèi)容涉及語料庫(kù)建設(shè)中的各個(gè)問題。90年代末到新世紀(jì)初這幾年是語料庫(kù)開發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語言信息處理和言語工程領(lǐng)域以外,語料庫(kù)方法在語言教學(xué)、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。

      語料庫(kù)與語言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語料庫(kù)方法的時(shí)候,在自然語言理解和生成、機(jī)器翻譯等研究中,分析語言的主要方法是基于規(guī)則的(Rule-based)。對(duì)于用規(guī)則無法表達(dá)或不能涵蓋的語言事實(shí),計(jì)算機(jī)就很難處理。語料庫(kù)出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語言模型,研究和應(yīng)用基于統(tǒng)計(jì)的(Statistical-based)語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進(jìn)展。另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫(kù)的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語料的自動(dòng)分詞和標(biāo)注,到語料的統(tǒng)計(jì)和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。

      下面先簡(jiǎn)要敘述1998年到2003年中國(guó)語料庫(kù)建設(shè)的基本情況,然后介紹語料庫(kù)的加工、管理和規(guī)范問題,最后談?wù)務(wù)Z料庫(kù)方法在語言研究和語言工程等方面的應(yīng)用。由于以前的《中國(guó)語言學(xué)年鑒》很少談及語料庫(kù)問題,為了盡可能全面地反映我國(guó)語料庫(kù)研究和應(yīng)用的情況,必要時(shí)會(huì)將時(shí)間上限向前延伸幾年。

      二中國(guó)語料庫(kù)建設(shè)的基本情況

      90年代末到新世紀(jì)初這幾年投入建設(shè)或開始使用的語料庫(kù)有數(shù)十個(gè)之多,不同的應(yīng)用目的使這些語料庫(kù)的類型各不相同,對(duì)語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫(kù)。

      (一)現(xiàn)代漢語通用語料庫(kù)

      這是一個(gè)由國(guó)家語言文字工作委員會(huì)主持建立、面向全社會(huì)應(yīng)用需求的大型通用語料庫(kù),從90年代初開始建設(shè),計(jì)劃規(guī)模7000萬字,主要應(yīng)用目標(biāo)是語言文字信息處理、語言文字規(guī)范和標(biāo)準(zhǔn)的制定、語言文字的學(xué)術(shù)研究、語文教育、以及語言文字的社會(huì)應(yīng)用。

      這個(gè)語料庫(kù)收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報(bào)紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計(jì)原則上,講求通用性、描述性、實(shí)用性和抽樣的科學(xué)性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個(gè)大類:

      第一類:人文與社會(huì)科學(xué)類(包括8個(gè)次類、30個(gè)細(xì)類)

      1.政法類:哲學(xué)政治宗教法律

      2.歷史類:歷史考古民族

      3.社會(huì)類:社會(huì)學(xué)心理語言文字教育文藝?yán)碚撔侣劽袼?/p>

      4.經(jīng)濟(jì)類:工業(yè)經(jīng)濟(jì)農(nóng)業(yè)經(jīng)濟(jì)政治經(jīng)濟(jì)財(cái)貿(mào)經(jīng)濟(jì)

      5.藝術(shù)類:音樂美術(shù)舞蹈戲劇

      6.文學(xué)類:小說散文傳記報(bào)告文學(xué)科幻口語

      7.軍體類:軍事體育

      8.生活類

      第二類:自然科學(xué)類(包括6個(gè)次類)

      1.?dāng)?shù)理類

      2.生化類

      3.天文地理類

      4.海洋氣象類

      5.農(nóng)林類

      6.醫(yī)藥衛(wèi)生類

      第三類:綜合類(包括6個(gè)次類,30多個(gè)細(xì)類)

      1.行政公文類:請(qǐng)示報(bào)告批復(fù)命令指示布告紀(jì)要通知等

      2.章程法規(guī)類:章程條例細(xì)則制度公約辦法法律條文等

      3.司法文書類:訴訟辯護(hù)詞控告信委托書等

      4.商業(yè)文告類:說明廣告調(diào)查報(bào)告經(jīng)濟(jì)合同等

      5.禮儀辭令類:歡迎詞賀電訃告唁電慰問信祝酒詞等

      6.實(shí)用文書類:請(qǐng)假條檢討申請(qǐng)書請(qǐng)?jiān)笗? 在不同類別、不同來源、不同時(shí)期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時(shí)和歷時(shí)兩個(gè)角度保證入選語料的平衡性,是這個(gè)語料庫(kù)的特點(diǎn)。譬如,在語言材料的年限方面,選材比例是:

      1919年– 1925年

      5%

      1926年– 1949年

      15%

      1950年– 1965年

      25%

      1966年– 1976年

      5%

      1977年以后

      50%

      在語言材料的門類、語體和來源方面,選材比例是:

      人文與社會(huì)科學(xué)類占59.6%。其中各個(gè)次類在本大類中的比例是:

      政法

      12.7%

      歷史

      8.4%

      社會(huì)

      14.0%

      經(jīng)濟(jì)

      9.8%

      藝術(shù)

      6.7%

      文學(xué)

      44.9%

      軍體

      2.3%

      生活

      1.4%

      自然科學(xué)類占17.24%。其中各個(gè)次類在本大類中的比例是:

      數(shù)理

      17.2%

      生化

      19.1%

      天文地理

      14.1%

      海洋氣象

      9.1%

      農(nóng)林

      22.8%

      醫(yī)藥衛(wèi)生

      17.7%

      綜合類占9.36%。其中各個(gè)次類在本大類中的比例是:

      各類應(yīng)用文

      91.1%

      其他

      8.9%

      報(bào)紙類占13.79%。其中各個(gè)次類在本大類中的比例是:

      全國(guó)性報(bào)刊

      25%

      省市報(bào)刊

      75%

      這個(gè)語料庫(kù)在選材過程中收集和記錄語料的有關(guān)描述信息,為每個(gè)語料樣本設(shè)立了20個(gè)描述項(xiàng)目:總號(hào)、分類號(hào)、樣本名稱、類別、作者、寫作時(shí)間、書刊名稱、編著者、出版者、出版日期、期號(hào)(版面號(hào))、版次(初版日期)、印冊(cè)數(shù)、總頁(yè)數(shù)、開本、選樣方式、樣本起止頁(yè)數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡(jiǎn)字。用戶可以利用這些語料描述標(biāo)記根據(jù)各自的需要進(jìn)行各種方式的檢索。語料庫(kù)的建庫(kù)工作分為兩步,第一步先建立核心語料庫(kù)(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對(duì)2000萬字核心語料進(jìn)行分詞和詞性標(biāo)注加工。

      (二)《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)

      《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)由北京大學(xué)計(jì)算語言學(xué)研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日?qǐng)?bào)》,共約2700萬字,到2003年又?jǐn)U充到3500萬字,是我國(guó)第一個(gè)大型的現(xiàn)代漢語標(biāo)注語料庫(kù)。這個(gè)語料庫(kù)加工的項(xiàng)目有詞語切分和詞性標(biāo)注,還有專有名詞(人名、地名、團(tuán)體機(jī)構(gòu)名稱等)標(biāo)注、語素子類標(biāo)注、動(dòng)詞、形容詞的特殊用法標(biāo)注和短語型標(biāo)注。下面是一段語料標(biāo)注的示例,對(duì)于1998年1月1日第5版第1篇文章的第11段:

      我國(guó)的國(guó)有企業(yè)改革見成效。位于河南的中國(guó)一拖集團(tuán)有限責(zé)任公司面向市場(chǎng),積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機(jī)生產(chǎn)線。(趙鵬攝)

      標(biāo)注后的形式是:

      19980101-05-001-011/m 我國(guó)/n 的/u 國(guó)有/vn企業(yè)/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國(guó)/ns 一拖/j 集團(tuán)/n 有限/a 責(zé)任/n 公司/n]nt面向/v 市場(chǎng)/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn和/c 新/a 產(chǎn)品/n 研制/vn步伐/n。/w 圖/n 為/v 東方紅牌/nz履帶/n 拖拉機(jī)/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w

      在每一個(gè)切分出來的詞和標(biāo)點(diǎn)符號(hào)后面,是該詞語的標(biāo)記。譬如詞性標(biāo)記(n,v,a,u,m,w等),專有名詞標(biāo)記(nr,ns,nz等),語素子類標(biāo)記(Vg等),動(dòng)詞和形容詞特殊用法標(biāo)記(vn,ad)。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫(kù),在一個(gè)加工規(guī)范的指導(dǎo)下標(biāo)注的。

      利用《人民日?qǐng)?bào)》標(biāo)注語料庫(kù),人們可以從各個(gè)角度考察和分析語言事實(shí),統(tǒng)計(jì)各種語言單位出現(xiàn)的頻率,譬如,詞語或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實(shí)例。與僅僅以漢字串的形式表示的“生語料”相比,經(jīng)過標(biāo)注的“熟語料”顯然含有更多的語言學(xué)特征信息,對(duì)漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識(shí)資源。

      《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日?qǐng)?bào)》新聞信息中心公開提供許可使用權(quán)。其中一個(gè)月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。

      (三)用于語言教學(xué)和研究的現(xiàn)代漢語語料庫(kù)

      建立現(xiàn)代漢語語料庫(kù)的主要目的之一是對(duì)外漢語教學(xué)和現(xiàn)代漢語研究,可以分為書面語語料庫(kù)和以文本形式表示的口語語料庫(kù)兩類。前者如北京語言大學(xué)的漢語中介語語料庫(kù)、現(xiàn)代漢語研究語料庫(kù),后者如中國(guó)社會(huì)科學(xué)院語言研究所的北京地區(qū)現(xiàn)場(chǎng)即席話語語料庫(kù)。

      漢語中介語語料庫(kù)的建設(shè)目標(biāo)是為對(duì)外漢語教學(xué)、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對(duì)外漢語教學(xué)的特點(diǎn)。作者先在北京和其他省市的9 所高等院校里,從來自96個(gè)國(guó)家和地區(qū)的1635位外國(guó)留學(xué)生那里收集了成篇成段的漢語作文或練習(xí)材料5774篇,共3528988字。再?gòu)闹谐槿×?740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學(xué)生姓名、性別、年齡、國(guó)別、是否華裔、第一語言、文化程度、所學(xué)主要教材、語料類別、寫作時(shí)間、提供者等23項(xiàng)屬性。然后對(duì)這104萬字的語料進(jìn)行詞語切分、詞性標(biāo)注以及一些專用的語言學(xué)特征標(biāo)注。例如,標(biāo)出了字、詞、句、篇等不同的層次,對(duì)語料的非規(guī)范形式(例如:錯(cuò)字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標(biāo)記,記錄其對(duì)應(yīng)的規(guī)范形式。這個(gè)語料庫(kù)的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動(dòng)標(biāo)注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語料庫(kù)的建立、管理和維護(hù),以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比,中介語語料庫(kù)能夠更好地反映學(xué)生學(xué)習(xí)漢語的情況,幫助教師更加全面地觀察他們的學(xué)習(xí)過程,了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語作為第二語言的教學(xué)中,為教材編寫、課堂教學(xué)、測(cè)試等環(huán)節(jié)提供依據(jù)。

      現(xiàn)代漢語研究語料庫(kù)的建設(shè)目標(biāo)是為語言學(xué)家提供一個(gè)研究平臺(tái),由2000萬字的粗語料庫(kù)和200萬字經(jīng)過分詞和詞性標(biāo)注的精語料庫(kù)兩個(gè)部分組成。粗語料庫(kù)收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日?qǐng)?bào)》1000萬字,《中國(guó)新聞》500萬字,各種書籍250萬字,文學(xué)作品150萬字,準(zhǔn)口語材料(書面形式的對(duì)話、獨(dú)白)100萬字。精語料庫(kù)的200萬字語料樣本是從粗語料庫(kù)中按照規(guī)定的比例由計(jì)算機(jī)隨機(jī)抽取的,有書面語語料160萬字,準(zhǔn)口語語料40萬字,是從語體、題材、體裁三個(gè)方面均衡選取的平衡語料庫(kù)。為了對(duì)這些語料進(jìn)行詞語切分和詞性標(biāo)注,作者制定了詞語切分的細(xì)則和詞性標(biāo)記體系的原則,采用了一個(gè)含有112個(gè)詞類標(biāo)記的標(biāo)記集,確定了兼類詞的處理方法。這個(gè)語料庫(kù)的管理系統(tǒng)具有建庫(kù)、檢索、瀏覽、統(tǒng)計(jì)、輸出等功能,可以按詞或詞類檢索,統(tǒng)計(jì)出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長(zhǎng)、平均句長(zhǎng)等結(jié)果。這個(gè)語料庫(kù)建成以后,很快應(yīng)用在現(xiàn)代漢語語法、漢語教學(xué)和漢語信息處理的研究中,研究?jī)?nèi)容涉及現(xiàn)代漢語的插入語、漢語句子的主題-主語標(biāo)注、V+N序列實(shí)驗(yàn)分析、詞性標(biāo)注中詞語歸類問題、動(dòng)賓組合的自動(dòng)獲取與標(biāo)注,等等。

      建設(shè)北京地區(qū)現(xiàn)場(chǎng)即席話語語料庫(kù)的目的是,通過收集大量的現(xiàn)場(chǎng)即席話語語料研究現(xiàn)場(chǎng)即席話語的各種動(dòng)態(tài)機(jī)制,以揭示現(xiàn)場(chǎng)即席話語的使用規(guī)律。這個(gè)語料庫(kù)的研究策略和取樣方法很有特點(diǎn),首先是嚴(yán)格區(qū)分資源庫(kù)和語料庫(kù),資源庫(kù)收集符合現(xiàn)場(chǎng)即席話語定義的錄音材料,語料庫(kù)收錄按照一定標(biāo)準(zhǔn)從資源庫(kù)提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對(duì)現(xiàn)場(chǎng)即席話語的真實(shí)情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場(chǎng)典型材料,這是一種層次范疇化的取樣方法。這個(gè)語料庫(kù)目前正在建設(shè)之中,已經(jīng)取得了近600小時(shí)的錄音材料和50多小時(shí)的錄象材料。

      在用于漢語研究的語料庫(kù)中,講究選材均衡,注重語料加工,同時(shí)也提供公開服務(wù)的,當(dāng)數(shù)臺(tái)灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫(kù)(簡(jiǎn)稱Sinica Corpus)。這個(gè)語料庫(kù)的規(guī)模為500萬個(gè)詞,每個(gè)句子都依詞斷開,標(biāo)示詞類標(biāo)記,并且配備了檢索系統(tǒng),在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個(gè)語料庫(kù)的特點(diǎn)之一。文本屬性用來說明文檔的呈現(xiàn)方式、文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處,包括7類,每類下設(shè)若干小類:

      文類(文檔的呈現(xiàn)方式)

      報(bào)導(dǎo)、評(píng)論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩(shī)歌、語錄、說明手冊(cè)、劇本、會(huì)話、演講、會(huì)議記錄 文體(文章的寫作方式)

      記敘、論說、說明、描寫

      語式(文檔的呈現(xiàn)方式)

      書面語、演講稿、劇本/臺(tái)辭、口語談話、會(huì)議記錄

      主題(文章寫作的內(nèi)容)

      哲學(xué)、科學(xué)、社會(huì)、藝術(shù)、生活、文學(xué)

      媒體報(bào)紙、一般雜志、學(xué)術(shù)期刊、教科書、工具書、學(xué)術(shù)論著、一般圖書、書信、視聽媒體、其它

      作者姓名、性別、國(guó)籍、母語

      出版出版單位、出版地、出版日期、版次

      不同研究目的的語言學(xué)者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫(kù)”,在“自訂語料庫(kù)”的范圍內(nèi)進(jìn)行語料的檢索和統(tǒng)計(jì)。除了通常的按詞語、詞類的檢索和統(tǒng)計(jì)以外,這個(gè)語料庫(kù)的管理系統(tǒng)還提供了一種“進(jìn)階處理”功能,對(duì)檢索出來的數(shù)據(jù)作進(jìn)一步處理,對(duì)處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

      (四)面向語言信息處理的現(xiàn)代漢語語料庫(kù)

      90年代中后期,面向語言信息處理的現(xiàn)代漢語語料庫(kù)開始建立并投入應(yīng)用。其中最早開發(fā)的是清華大學(xué)用于研究和開發(fā)漢語自動(dòng)分詞技術(shù)的現(xiàn)代漢語語料庫(kù),經(jīng)過幾年的積累已達(dá)到8億多字生語料。在這個(gè)語料庫(kù)的支持下,用統(tǒng)計(jì)語言模型的方法研究了漢語自動(dòng)分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬多個(gè)詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國(guó)漢語自動(dòng)分詞技術(shù)的發(fā)展水平,詞表被許多漢語自動(dòng)分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

      TH通用語料庫(kù)系統(tǒng)是清華大學(xué)建立的另一個(gè)現(xiàn)代漢語語料庫(kù)。這個(gè)語料庫(kù)有兩個(gè)特點(diǎn),一是語料庫(kù)管理系統(tǒng)根據(jù)不同的加工深度,分四個(gè)等級(jí)管理語料。第一級(jí)是生語料分庫(kù),有4千余萬字;第二級(jí)以上都是加工程度不同的熟語料庫(kù),其中第二級(jí)存放經(jīng)過自動(dòng)分詞并由人工校對(duì)過的初加工語料500余萬字;第三級(jí)存放經(jīng)過詞性標(biāo)注和人工校對(duì)的語料約300萬字;第四級(jí)是經(jīng)過句子成分標(biāo)注和人工校對(duì)的語料。每個(gè)分庫(kù)又按語料的來源分成一般書籍、報(bào)紙、雜志、論文和工具書五類子庫(kù)。不同等級(jí)的語料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個(gè)特點(diǎn)是在這個(gè)語料庫(kù)的支持下,進(jìn)行了漢語信息處理技術(shù)的研究。譬如,采用以謂語為中心的句型成分分析與語料統(tǒng)計(jì)相結(jié)合的方法,自動(dòng)分析漢語的句型,提出了一個(gè)“漢語句型頻度表”;在漢語文本中自動(dòng)標(biāo)注句子成分和句型成分的邊界;根據(jù)指定的句型在語料庫(kù)里搜尋句子實(shí)例,等等。

      HuaYu人工標(biāo)注語料庫(kù)是清華大學(xué)和北京語言大學(xué)合作建立的一個(gè)現(xiàn)代漢語平衡語料庫(kù)。這個(gè)語料庫(kù)按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個(gè)大類收錄了200余萬字語料。它的特點(diǎn)是講究加工的深度,除了詞語切分和詞性標(biāo)注以外,還根據(jù)語句中動(dòng)詞的類型和句子的長(zhǎng)度進(jìn)行“語塊”標(biāo)注和“句法樹”標(biāo)注,目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計(jì)數(shù)據(jù)提供資源。下面分別是語塊標(biāo)注和句法樹標(biāo)注的示例。

      對(duì)句子“自古以來,人類就重視檔案的保存和利用,設(shè)置館庫(kù)、選派專人進(jìn)行管理。”進(jìn)行語塊標(biāo)注以后得到的是一個(gè)無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊:

      [D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN,/, [P 設(shè)置/v [O 館庫(kù)/n、/、[P 選派/v [O 專人/n [P 進(jìn)行/v [O 管理v。

      對(duì)句子“我哥哥送給我一本很漂亮的書?!边M(jìn)行句法樹標(biāo)注以后,得到的是一個(gè)與樹形結(jié)構(gòu)等價(jià)的線性序列:

      [ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

      (五)用于開發(fā)特定語言分析技術(shù)的專用語料庫(kù)

      這類語料庫(kù)是針對(duì)漢語信息處理技術(shù)的需要專門建立的。例如山西大學(xué)的專有名詞標(biāo)注語料庫(kù)和分詞與詞性標(biāo)注語料庫(kù)。

      分詞與詞性標(biāo)注語料庫(kù),規(guī)模為500萬字,帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時(shí)依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。在這個(gè)語料庫(kù)的支持下,開發(fā)漢語自動(dòng)分詞和詞性標(biāo)注軟件,研究自動(dòng)分詞和詞性標(biāo)注的評(píng)測(cè)技術(shù)。為了解決漢語自動(dòng)分詞中的切分歧義問題,還建立了交集型歧義字段庫(kù)和組合型歧義字段庫(kù),專門收集這兩種類型的歧義切分實(shí)例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標(biāo)注語料庫(kù)里作了這兩類切分歧義的標(biāo)注。利用這些語料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達(dá)到90%以上。

      專有名詞標(biāo)注語料庫(kù)用于研究漢語自動(dòng)分詞中專有名詞的識(shí)別算法。其中包括標(biāo)注了中國(guó)地名的語料280萬字,標(biāo)注了中國(guó)人姓名的語料300萬字,標(biāo)注了西文姓名的語料250萬字,標(biāo)注了漢語機(jī)構(gòu)名稱的語料50萬字,還有標(biāo)注了網(wǎng)絡(luò)新詞語的語料150萬字。利用這些語料,建立了中國(guó)地名用字、用詞庫(kù),姓氏人名庫(kù),姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計(jì)語言模型的方法識(shí)別專有名詞。

      (六)雙語語料庫(kù)

      基于實(shí)例的機(jī)器翻譯(Example-based)需要大規(guī)模的雙語平行語料庫(kù)來支持。語料庫(kù)里的源語和目標(biāo)語實(shí)例要按照相同級(jí)別的翻譯單位一一對(duì)齊。目前已有的雙語平行語料庫(kù)主要是漢語和英語的,語料對(duì)齊的單位有句子級(jí)的、子句級(jí)的、短語級(jí)的,也有詞匯級(jí)的。機(jī)器翻譯系統(tǒng)把要翻譯的句子與語料庫(kù)里的源語實(shí)例進(jìn)行對(duì)比,分析相似程度,找到最適合的源語實(shí)例,再參照與它對(duì)齊的目標(biāo)語實(shí)例生成譯文。用于這類機(jī)器翻譯系統(tǒng)的雙語語料庫(kù)必須有一定的規(guī)模,用人工做語料對(duì)齊的工作顯然很難滿足要求。這就使文本自動(dòng)對(duì)齊成為建立雙語語料庫(kù)的關(guān)鍵技術(shù)。

      在目前已有的雙語語料庫(kù)中,哈爾濱工業(yè)大學(xué)的漢英平行語料庫(kù)已經(jīng)直接用來開發(fā)英漢雙向機(jī)器翻譯系統(tǒng)。這個(gè)語料庫(kù)有6萬個(gè)漢語和英語的句子,使用多級(jí)對(duì)齊加工技術(shù),分別按照句子、短語結(jié)構(gòu)和詞一一對(duì)齊。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢英雙語語料庫(kù)有20萬個(gè)句對(duì),也完成了句子一級(jí)的對(duì)齊,并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國(guó)科學(xué)院軟件研究所等單位也建立了按句對(duì)齊的漢英雙語語料庫(kù)。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫(kù),譬如中國(guó)科學(xué)院自動(dòng)化研究所的漢英雙語短語庫(kù),有3~5萬對(duì)已對(duì)齊的漢語和英語短語。東北大學(xué)的英漢雙語語段庫(kù),用來幫助建立電子版的英漢搭配詞典。

      (七)面向漢語史研究的語料庫(kù)

      面向漢語史研究的語料庫(kù)建設(shè)是從搜集漢語史文獻(xiàn)資料開始的。臺(tái)灣中央研究院歷史語言研究所從90年代初期就開始了這項(xiàng)工作,他們先收集上古漢語的語料,然后擴(kuò)展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標(biāo)注,在該院信息研究所和計(jì)算中心的協(xié)助下進(jìn)行標(biāo)注技術(shù)和檢索技術(shù)的開發(fā)。根據(jù)是否經(jīng)過分詞處理和詞性標(biāo)注,臺(tái)灣中央研究院的古漢語語料庫(kù)和近代漢語語料庫(kù)可以分成兩類:生語料庫(kù)和標(biāo)記語料庫(kù)。目前生語料庫(kù)收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻(xiàn)資料,并己陸續(xù)開放使用。在標(biāo)記語料庫(kù)方面,上古漢語及近代漢語都已有部分語料完成標(biāo)注工作,也逐步提供網(wǎng)上檢索。2001年底,開放了近代漢語標(biāo)記語料庫(kù)WWW版供各界使用,首先提供查詢的文獻(xiàn)是《紅樓夢(mèng)》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項(xiàng)及詞類的同時(shí)給出例句的出處,便于歷史語法的研究者使用。

      多年來中國(guó)社會(huì)科學(xué)院語言研究所也一直在致力于文獻(xiàn)資料的建設(shè),搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標(biāo)注。目前已經(jīng)完成了一個(gè)小型語料庫(kù),包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠(yuǎn)諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻(xiàn),成為漢語史和語言學(xué)理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻(xiàn),共約120萬字,并且已由古漢語學(xué)者逐篇逐句標(biāo)注了語法信息。

      上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語史研究的方向,建立了歷史文獻(xiàn)語料庫(kù)。四川大學(xué)的中古漢語語料庫(kù)有1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學(xué)的楚辭語庫(kù)、前四史語庫(kù)、六朝語庫(kù)、太平廣記語庫(kù)、唐詩(shī)語庫(kù)、宋詞語庫(kù),已用于“前四史”語言研究和唐宋詩(shī)詞語詞研究。

      目前歷史文獻(xiàn)語料庫(kù)建設(shè)的特點(diǎn)是依托學(xué)科建設(shè)和研究方向,廣泛收集資料,注重??本珜?。隨著漢語史研究和語料庫(kù)應(yīng)用的發(fā)展,資源共享和語料加工將得到越來越多的重視。歷史文獻(xiàn)資源共享,首先要避免語料的重復(fù)收集,還要采用國(guó)際通用的標(biāo)準(zhǔn)處理語料文本,使語料能夠準(zhǔn)確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價(jià)值的基礎(chǔ)工作,從收集歷史文獻(xiàn)的電子文檔,到建成一個(gè)具有必要的語言學(xué)標(biāo)記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫(kù),語料的加工是不可或缺的一步。

      (八)比較語料庫(kù)

      為了研究漢語在不同地區(qū)的使用情況,香港城市大學(xué)建立了LIVAC共時(shí)語料庫(kù)(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺(tái)灣、北京、上海、澳門及新加坡六地有代表性的中文報(bào)紙,以及電子媒介上的新聞報(bào)道。自1995年7月開始,每四天一次,收集這六個(gè)地區(qū)的對(duì)等書面語文本,每次約兩萬字。內(nèi)容包括新聞、特寫、評(píng)論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個(gè)詞條。計(jì)劃收集到2005年6月,囊括新舊世紀(jì)交接點(diǎn)前后各五年各地華語社區(qū)有代表性的重要語言數(shù)據(jù),供漢語的各種共時(shí)比較研究使用。

      在語料的組織和加工方面,這個(gè)語料庫(kù)用計(jì)算機(jī)自動(dòng)分詞,再經(jīng)人工校對(duì)分類,可以依字、詞、句為基礎(chǔ)進(jìn)行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計(jì)功能。語言學(xué)家能通過這個(gè)語料庫(kù)考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語,還可以對(duì)具體字或詞的頻率作統(tǒng)計(jì)比較,對(duì)字詞的差別作計(jì)量分析。對(duì)研究華人社區(qū)的文化、社會(huì)、語言差異也有作用。這個(gè)語料庫(kù)的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

      (九)少數(shù)民族語言語料庫(kù)

      新疆大學(xué)從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫(kù)系統(tǒng),計(jì)劃包括5個(gè)部分:語料庫(kù)、電子語法信息詞典、規(guī)則庫(kù)、統(tǒng)計(jì)信息庫(kù)和檢索統(tǒng)計(jì)軟件包。其中語料庫(kù)部分又分成生語料庫(kù)(經(jīng)初步整理的原始語料)和加工語料庫(kù)(經(jīng)過標(biāo)注和校對(duì)的語料)。目前已有生語料800萬詞。另外,新疆大學(xué)也正在以新聞?lì)I(lǐng)域的維漢-漢維機(jī)器翻譯為目標(biāo),建設(shè)雙語平行語料庫(kù)。內(nèi)蒙古大學(xué)的中世紀(jì)蒙古文語料庫(kù)收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻(xiàn)集》等歷史文獻(xiàn)。他們還建立了500萬詞的現(xiàn)代蒙古語語料庫(kù),研究了蒙古文附加成分的自動(dòng)切分、復(fù)合詞的自動(dòng)識(shí)別和語料的詞性標(biāo)注,獲得了詞頻統(tǒng)計(jì)、音節(jié)統(tǒng)計(jì)、詞類統(tǒng)計(jì)、附加成分統(tǒng)計(jì)等數(shù)據(jù)。西北民族大學(xué)建立了1億3千萬字節(jié)的大型藏文語料庫(kù),用于藏文詞匯頻度和通用度的統(tǒng)計(jì)。中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所建立了500萬藏語字符的藏語語料庫(kù),進(jìn)行詞語切分和標(biāo)注的研究。新疆師范大學(xué)也建立了200萬詞的維吾爾語語料庫(kù)。

      與漢語語料庫(kù)相比,少數(shù)民族語料庫(kù)的建設(shè)還需要解決一些特殊的問題,譬如拼音文字轉(zhuǎn)寫的標(biāo)準(zhǔn)和規(guī)范,詞語分類體系及其標(biāo)記集等。

      到2003年,已建和在建的各種文本語料庫(kù)還有很多(包括書面語語料庫(kù)和以文本形式表示的口語語料庫(kù)),以上提到的只是有代表性的一部分。與文本語料庫(kù)相對(duì)的,是語音語料庫(kù)。語音語料庫(kù)不僅記錄語圖、聲學(xué)參數(shù)等語音學(xué)數(shù)據(jù),還有句法、韻律等各種語言學(xué)信息標(biāo)記和副語言學(xué)信息標(biāo)記,可以在語音識(shí)別與合成系統(tǒng)中用來建立語音模型,用于語音研究、語音工程開發(fā)和漢語普通話教學(xué)等領(lǐng)域。語音技術(shù)是當(dāng)前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語音語料庫(kù)在科研和工程上有很高的使用價(jià)值。關(guān)于語音語料庫(kù)的詳細(xì)情況,請(qǐng)見“語音學(xué)和言語工程研究綜述”。

      第二篇:初中英語作文語料庫(kù)

      要求熟練掌握句式表達(dá)?。?月29日編輯完成。

      寫作表達(dá)句式

      1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨(dú)并且壓力大)4 we are short of parents’ care(我們?nèi)狈Ω改傅年P(guān)心)5 I used to be poor in English but now I am always able to make full marks.我過去英語很差,但現(xiàn)在我能夠取得滿分

      6,crossing road can be dangerous if we are not careful enough.如果我們不足夠小心,過馬路可能危險(xiǎn)。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來澆花。電腦可以用來做很多事情。(蘇文注意)

      7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時(shí)間過度看電視會(huì)對(duì)我們學(xué)習(xí)不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年,我常常遇到和你一樣的問題,這里一些建議給你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我們的環(huán)境正變得越來越差。

      10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯

      1,the more I want to memorize the words, the more difficult I find it 十(也可以替換為the harder)

      我想記得的單詞越多時(shí),我發(fā)現(xiàn)這個(gè)過程更難.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中國(guó)生產(chǎn)的。

      Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興),my classmates always encourage me and give me a lot of help in study and life.(令我高興的是,我的朋友同學(xué)總是鼓勵(lì)我并且在我的學(xué)習(xí)生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級(jí)分成6個(gè)小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學(xué)校組織手拉手活動(dòng)呼吁更多學(xué)生幫助孤獨(dú)老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長(zhǎng)城,她大概是6500長(zhǎng),如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下,購(gòu)物不是件困難的工作。只要一點(diǎn)鼠標(biāo)去選擇自己喜歡的物品,整個(gè)購(gòu)物過程就完成了。你不需要走出房間,這看起來簡(jiǎn)單快速。6.he is more interested in sports than computer games.他對(duì)體育的興趣多余電腦游戲節(jié)目 a growing number of students have learned about the shortcomings of going on-line.越來越多的學(xué)生已經(jīng)了解到上網(wǎng)的缺點(diǎn)

      8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國(guó)與許多節(jié)假日如春節(jié),中求節(jié)等等including 老師們提醒我們過馬路時(shí)要小心

      Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉(zhuǎn)折,意思是凡事都有兩面性,A也是不例外(如此。

      替換表達(dá):Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優(yōu)點(diǎn),但它的缺點(diǎn)不可以忽視,(這里用被動(dòng)語態(tài)起強(qiáng)調(diào)作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學(xué)會(huì)了如何交朋友而且學(xué)會(huì)了如何與人交流 great changes have taken place in our hometown(china)我的家鄉(xiāng)發(fā)生巨大的變化(詞句用一般現(xiàn)在時(shí)也ok 3the life of people is much better than ever before(時(shí)態(tài)比較)人民的生活比曾經(jīng)or過去好很多。

      4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于兩者在同一件事情做對(duì)比)

      我們總是浪費(fèi)水資源而干旱地區(qū)成千上萬的人卻急需用水。

      5there is a need for us to deal with the rubbish in cities and fight against the pollution 對(duì)于我們有必要處理城市垃圾,和與污染做斗爭(zhēng)。

      6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達(dá):and this can …..)因?yàn)闃淇梢赃M(jìn)化空氣而且改善我們環(huán)境,我們不可以砍樹。這里的better 是動(dòng)詞詞性。I need to spend more time studying in order to come true my dream 替換:so that , 9 I plan to go swimming instead of going shopping this afternoon。我計(jì)劃去釣魚而不是去購(gòu)物(替換詞匯rather than.)

      10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學(xué)生自行翻譯。

      第三篇:語料庫(kù)語言學(xué)綜合

      語料庫(kù)語言學(xué)基礎(chǔ)知識(shí)

      2008-09-11 01:45:34| 分類: 學(xué)術(shù)|舉報(bào)|字號(hào) 訂閱

      語料庫(kù)通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫(kù)能夠反映和記錄語言的實(shí)際使用情況。人們通過語料庫(kù)觀察和把握語言事實(shí),分析和研究語言系統(tǒng)的規(guī)律。語料庫(kù)已經(jīng)成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。

      語料庫(kù)有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫(kù)分成四種類型:(1)異質(zhì)的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲(chǔ)各種語料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實(shí);(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫(kù)也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫(kù)又可以分為語篇的、語句的、短語的。雙語和多語語料庫(kù)按照語料的組織形式,還可以分為平行(對(duì)齊)語料庫(kù)和比較語料庫(kù),前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對(duì)比研究。

      語料庫(kù)建設(shè)中涉及的主要問題包括:

      (1)設(shè)計(jì)和規(guī)劃:主要考慮語料庫(kù)的用途、類型、規(guī)模、實(shí)現(xiàn)手段、質(zhì)量保證、可擴(kuò)展性等。

      (2)語料的采集:主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

      (3)語料的加工:包括標(biāo)注項(xiàng)目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。

      (4)語料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(hù)(語料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語料描述信息項(xiàng)目管理)、語料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計(jì)、打印等)。

      (5)語料庫(kù)的應(yīng)用:針對(duì)語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的算法和軟件工具。

      我國(guó)語料庫(kù)的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語料庫(kù)方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語料庫(kù),研究的內(nèi)容涉及語料庫(kù)建設(shè)中的各個(gè)問題。90年代末到新世紀(jì)初這幾年是語料庫(kù)開發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語言信息處理和言語工程領(lǐng)域以外,語料庫(kù)方法在語言教學(xué)、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。

      語料庫(kù)與語言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語料庫(kù)方法的時(shí)候,在自然語言理解和生成、機(jī)器翻譯等研究中,分析語言的主要方法是基于規(guī)則的(Rule-based)。對(duì)于用規(guī)則無法表達(dá)或不能涵蓋的語言事實(shí),計(jì)算機(jī)就很難處理。語料庫(kù)出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語言模型,研究和應(yīng)用基于統(tǒng)計(jì)的(Statistical-based)語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進(jìn)展。另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫(kù)的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語料的自動(dòng)分詞和標(biāo)注,到語料的統(tǒng)計(jì)和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。

      下面先簡(jiǎn)要敘述1998年到2003年中國(guó)語料庫(kù)建設(shè)的基本情況,然后介紹語料庫(kù)的加工、管理和規(guī)范問題,最后談?wù)務(wù)Z料庫(kù)方法在語言研究和語言工程等方面的應(yīng)用。由于以前的《中國(guó)語言學(xué)年鑒》很少談及語料庫(kù)問題,為了盡可能全面地反映我國(guó)語料庫(kù)研究和應(yīng)用的情況,必要時(shí)會(huì)將時(shí)間上限向前延伸幾年。

      二 中國(guó)語料庫(kù)建設(shè)的基本情況

      90年代末到新世紀(jì)初這幾年投入建設(shè)或開始使用的語料庫(kù)有數(shù)十個(gè)之多,不同的應(yīng)用目的使這些語料庫(kù)的類型各不相同,對(duì)語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫(kù)。

      (一)現(xiàn)代漢語通用語料庫(kù)

      這是一個(gè)由國(guó)家語言文字工作委員會(huì)主持建立、面向全社會(huì)應(yīng)用需求的大型通用語料庫(kù),從90年代初開始建設(shè),計(jì)劃規(guī)模7000萬字,主要應(yīng)用目標(biāo)是語言文字信息處理、語言文字規(guī)范和標(biāo)準(zhǔn)的制定、語言文字的學(xué)術(shù)研究、語文教育、以及語言文字的社會(huì)應(yīng)用。

      這個(gè)語料庫(kù)收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報(bào)紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計(jì)原則上,講求通用性、描述性、實(shí)用性和抽樣的科學(xué)性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個(gè)大類:

      第一類:人文與社會(huì)科學(xué)類(包括8個(gè)次類、30個(gè)細(xì)類)1.政法類: 哲學(xué) 政治 宗教 法律 2.歷史類: 歷史 考古 民族

      3.社會(huì)類: 社會(huì)學(xué) 心理 語言文字 教育 文藝?yán)碚?新聞 民俗

      4.經(jīng)濟(jì)類: 工業(yè)經(jīng)濟(jì) 農(nóng)業(yè)經(jīng)濟(jì) 政治經(jīng)濟(jì) 財(cái)貿(mào)經(jīng)濟(jì) 5.藝術(shù)類: 音樂 美術(shù) 舞蹈 戲劇

      6.文學(xué)類: 小說 散文 傳記 報(bào)告文學(xué) 科幻 口語 7.軍體類: 軍事 體育 8.生活類

      第二類:自然科學(xué)類(包括6個(gè)次類)1.?dāng)?shù)理類 2.生化類 3.天文地理類 4.海洋氣象類 5.農(nóng)林類 6.醫(yī)藥衛(wèi)生類

      第三類:綜合類(包括6個(gè)次類,30多個(gè)細(xì)類)

      1.行政公文類: 請(qǐng)示 報(bào)告 批復(fù) 命令 指示 布告 紀(jì)要 通知等

      2.章程法規(guī)類: 章程 條例 細(xì)則 制度 公約 辦法 法律條文等 3.司法文書類: 訴訟 辯護(hù)詞 控告信 委托書等 4.商業(yè)文告類: 說明 廣告 調(diào)查報(bào)告 經(jīng)濟(jì)合同等

      5.禮儀辭令類: 歡迎詞 賀電 訃告 唁電 慰問信 祝酒詞等 6.實(shí)用文書類: 請(qǐng)假條 檢討 申請(qǐng)書 請(qǐng)?jiān)笗?/p>

      在不同類別、不同來源、不同時(shí)期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時(shí)和歷時(shí)兩個(gè)角度保證入選語料的平衡性,是這個(gè)語料庫(kù)的特點(diǎn)。譬如,在語言材料的年限方面,選材比例是:

      1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語言材料的門類、語體和來源方面,選材比例是:

      人文與社會(huì)科學(xué)類占59.6%。其中各個(gè)次類在本大類中的比例是:

      政法 12.7% 歷史 8.4% 社會(huì) 14.0% 經(jīng)濟(jì) 9.8% 藝術(shù) 6.7% 文學(xué) 44.9% 軍體 2.3% 生活 1.4% 自然科學(xué)類占17.24%。其中各個(gè)次類在本大類中的比例是:

      數(shù)理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農(nóng)林 22.8% 醫(yī)藥衛(wèi)生 17.7% 綜合類占9.36%。其中各個(gè)次類在本大類中的比例是:

      各類應(yīng)用文 91.1% 其他 8.9% 報(bào)紙類占13.79%。其中各個(gè)次類在本大類中的比例是: 全國(guó)性報(bào)刊 25% 省市報(bào)刊 75% 這個(gè)語料庫(kù)在選材過程中收集和記錄語料的有關(guān)描述信息,為每個(gè)語料樣本設(shè)立了20個(gè)描述項(xiàng)目:總號(hào)、分類號(hào)、樣本名稱、類別、作者、寫作時(shí)間、書刊名稱、編著者、出版者、出版日期、期號(hào)(版面號(hào))、版次(初版日期)、印冊(cè)數(shù)、總頁(yè)數(shù)、開本、選樣方式、樣本起止頁(yè)數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡(jiǎn)字。用戶可以利用這些語料描述標(biāo)記根據(jù)各自的需要進(jìn)行各種方式的檢索。語料庫(kù)的建庫(kù)工作分為兩步,第一步先建立核心語料庫(kù)(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對(duì)2000萬字核心語料進(jìn)行分詞和詞性標(biāo)注加工。

      (二)《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)

      《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)由北京大學(xué)計(jì)算語言學(xué)研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日?qǐng)?bào)》,共約2700萬字,到2003年又?jǐn)U充到3500萬字,是我國(guó)第一個(gè)大型的現(xiàn)代漢語標(biāo)注語料庫(kù)。這個(gè)語料庫(kù)加工的項(xiàng)目有詞語切分和詞性標(biāo)注,還有專有名詞(人名、地名、團(tuán)體機(jī)構(gòu)名稱等)標(biāo)注、語素子類標(biāo)注、動(dòng)詞、形容詞的特殊用法標(biāo)注和短語型標(biāo)注。下面是一段語料標(biāo)注的示例,對(duì)于1998年1月1日第5版第1篇文章的第11段:

      我國(guó)的國(guó)有企業(yè)改革見成效。位于河南的中國(guó)一拖集團(tuán)有限責(zé)任公司面向市場(chǎng),積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機(jī)生產(chǎn)線。(趙鵬攝)

      標(biāo)注后的形式是:

      19980101-05-001-011/m 我國(guó)/n 的/u 國(guó)有/vn 企業(yè)/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國(guó)/ns 一拖/j 集團(tuán)/n 有限/a 責(zé)任/n 公司/n]nt 面向/v 市場(chǎng)/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn 和/c 新/a 產(chǎn)品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機(jī)/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w 在每一個(gè)切分出來的詞和標(biāo)點(diǎn)符號(hào)后面,是該詞語的標(biāo)記。譬如詞性標(biāo)記(n,v,a,u,m,w等),專有名詞標(biāo)記(nr,ns,nz等),語素子類標(biāo)記(Vg等),動(dòng)詞和形容詞特殊用法標(biāo)記(vn,ad)。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫(kù),在一個(gè)加工規(guī)范的指導(dǎo)下標(biāo)注的。

      利用《人民日?qǐng)?bào)》標(biāo)注語料庫(kù),人們可以從各個(gè)角度考察和分析語言事實(shí),統(tǒng)計(jì)各種語言單位出現(xiàn)的頻率,譬如,詞語或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實(shí)例。與僅僅以漢字串的形式表示的“生語料”相比,經(jīng)過標(biāo)注的“熟語料”顯然含有更多的語言學(xué)特征信息,對(duì)漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識(shí)資源。

      《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日?qǐng)?bào)》新聞信息中心公開提供許可使用權(quán)。其中一個(gè)月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。

      (三)用于語言教學(xué)和研究的現(xiàn)代漢語語料庫(kù)

      建立現(xiàn)代漢語語料庫(kù)的主要目的之一是對(duì)外漢語教學(xué)和現(xiàn)代漢語研究,可以分為書面語語料庫(kù)和以文本形式表示的口語語料庫(kù)兩類。前者如北京語言大學(xué)的漢語中介語語料庫(kù)、現(xiàn)代漢語研究語料庫(kù),后者如中國(guó)社會(huì)科學(xué)院語言研究所的北京地區(qū)現(xiàn)場(chǎng)即席話語語料庫(kù)。

      漢語中介語語料庫(kù)的建設(shè)目標(biāo)是為對(duì)外漢語教學(xué)、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對(duì)外漢語教學(xué)的特點(diǎn)。作者先在北京和其他省市的9所高等院校里,從來自96個(gè)國(guó)家和地區(qū)的1635位外國(guó)留學(xué)生那里收集了成篇成段的漢語作文或練習(xí)材料5774篇,共3528988字。再?gòu)闹谐槿×?40人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學(xué)生姓名、性別、年齡、國(guó)別、是否華裔、第一語言、文化程度、所學(xué)主要教材、語料類別、寫作時(shí)間、提供者等23項(xiàng)屬性。然后對(duì)這104萬字的語料進(jìn)行詞語切分、詞性標(biāo)注以及一些專用的語言學(xué)特征標(biāo)注。例如,標(biāo)出了字、詞、句、篇等不同的層次,對(duì)語料的非規(guī)范形式(例如:錯(cuò)字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標(biāo)記,記錄其對(duì)應(yīng)的規(guī)范形式。這個(gè)語料庫(kù)的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動(dòng)標(biāo)注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語料庫(kù)的建立、管理和維護(hù),以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比,中介語語料庫(kù)能夠更好地反映學(xué)生學(xué)習(xí)漢語的情況,幫助教師更加全面地觀察他們的學(xué)習(xí)過程,了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語作為第二語言的教學(xué)中,為教材編寫、課堂教學(xué)、測(cè)試等環(huán)節(jié)提供依據(jù)。

      現(xiàn)代漢語研究語料庫(kù)的建設(shè)目標(biāo)是為語言學(xué)家提供一個(gè)研究平臺(tái),由2000萬字的粗語料庫(kù)和200萬字經(jīng)過分詞和詞性標(biāo)注的精語料庫(kù)兩個(gè)部分組成。粗語料庫(kù)收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日?qǐng)?bào)》1000萬字,《中國(guó)新聞》500萬字,各種書籍250萬字,文學(xué)作品150萬字,準(zhǔn)口語材料(書面形式的對(duì)話、獨(dú)白)100萬字。精語料庫(kù)的200萬字語料樣本是從粗語料庫(kù)中按照規(guī)定的比例由計(jì)算機(jī)隨機(jī)抽取的,有書面語語料160萬字,準(zhǔn)口語語料40萬字,是從語體、題材、體裁三個(gè)方面均衡選取的平衡語料庫(kù)。為了對(duì)這些語料進(jìn)行詞語切分和詞性標(biāo)注,作者制定了詞語切分的細(xì)則和詞性標(biāo)記體系的原則,采用了一個(gè)含有112個(gè)詞類標(biāo)記的標(biāo)記集,確定了兼類詞的處理方法。這個(gè)語料庫(kù)的管理系統(tǒng)具有建庫(kù)、檢索、瀏覽、統(tǒng)計(jì)、輸出等功能,可以按詞或詞類檢索,統(tǒng)計(jì)出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長(zhǎng)、平均句長(zhǎng)等結(jié)果。這個(gè)語料庫(kù)建成以后,很快應(yīng)用在現(xiàn)代漢語語法、漢語教學(xué)和漢語信息處理的研究中,研究?jī)?nèi)容涉及現(xiàn)代漢語的插入語、漢語句子的主題-主語標(biāo)注、V+N序列實(shí)驗(yàn)分析、詞性標(biāo)注中詞語歸類問題、動(dòng)賓組合的自動(dòng)獲取與標(biāo)注,等等。

      建設(shè)北京地區(qū)現(xiàn)場(chǎng)即席話語語料庫(kù)的目的是,通過收集大量的現(xiàn)場(chǎng)即席話語語料研究現(xiàn)場(chǎng)即席話語的各種動(dòng)態(tài)機(jī)制,以揭示現(xiàn)場(chǎng)即席話語的使用規(guī)律。這個(gè)語料庫(kù)的研究策略和取樣方法很有特點(diǎn),首先是嚴(yán)格區(qū)分資源庫(kù)和語料庫(kù),資源庫(kù)收集符合現(xiàn)場(chǎng)即席話語定義的錄音材料,語料庫(kù)收錄按照一定標(biāo)準(zhǔn)從資源庫(kù)提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對(duì)現(xiàn)場(chǎng)即席話語的真實(shí)情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場(chǎng)典型材料,這是一種層次范疇化的取樣方法。這個(gè)語料庫(kù)目前正在建設(shè)之中,已經(jīng)取得了近600小時(shí)的錄音材料和50多小時(shí)的錄象材料。

      在用于漢語研究的語料庫(kù)中,講究選材均衡,注重語料加工,同時(shí)也提供公開服務(wù)的,當(dāng)數(shù)臺(tái)灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫(kù)(簡(jiǎn)稱Sinica Corpus)。這個(gè)語料庫(kù)的規(guī)模為500萬個(gè)詞,每個(gè)句子都依詞斷開,標(biāo)示詞類標(biāo)記,并且配備了檢索系統(tǒng),在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個(gè)語料庫(kù)的特點(diǎn)之一。文本屬性用來說明文檔的呈現(xiàn)方式、文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處,包括7類,每類下設(shè)若干小類:

      文類(文檔的呈現(xiàn)方式)

      報(bào)導(dǎo)、評(píng)論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩(shī)歌、語錄、說明手冊(cè)、劇本、會(huì)話、演講、會(huì)議記錄 文體(文章的寫作方式)記敘、論說、說明、描寫 語式(文檔的呈現(xiàn)方式)

      書面語、演講稿、劇本/臺(tái)辭、口語談話、會(huì)議記錄 主題(文章寫作的內(nèi)容)

      哲學(xué)、科學(xué)、社會(huì)、藝術(shù)、生活、文學(xué)

      媒體 報(bào)紙、一般雜志、學(xué)術(shù)期刊、教科書、工具書、學(xué)術(shù)論著、一般圖書、書信、視聽媒體、其它

      作者 姓名、性別、國(guó)籍、母語

      出版 出版單位、出版地、出版日期、版次

      不同研究目的的語言學(xué)者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫(kù)”,在“自訂語料庫(kù)”的范圍內(nèi)進(jìn)行語料的檢索和統(tǒng)計(jì)。除了通常的按詞語、詞類的檢索和統(tǒng)計(jì)以外,這個(gè)語料庫(kù)的管理系統(tǒng)還提供了一種“進(jìn)階處理”功能,對(duì)檢索出來的數(shù)據(jù)作進(jìn)一步處理,對(duì)處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

      (四)面向語言信息處理的現(xiàn)代漢語語料庫(kù)

      90年代中后期,面向語言信息處理的現(xiàn)代漢語語料庫(kù)開始建立并投入應(yīng)用。其中最早開發(fā)的是清華大學(xué)用于研究和開發(fā)漢語自動(dòng)分詞技術(shù)的現(xiàn)代漢語語料庫(kù),經(jīng)過幾年的積累已達(dá)到8億多字生語料。在這個(gè)語料庫(kù)的支持下,用統(tǒng)計(jì)語言模型的方法研究了漢語自動(dòng)分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬多個(gè)詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國(guó)漢語自動(dòng)分詞技術(shù)的發(fā)展水平,詞表被許多漢語自動(dòng)分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

      TH通用語料庫(kù)系統(tǒng)是清華大學(xué)建立的另一個(gè)現(xiàn)代漢語語料庫(kù)。這個(gè)語料庫(kù)有兩個(gè)特點(diǎn),一是語料庫(kù)管理系統(tǒng)根據(jù)不同的加工深度,分四個(gè)等級(jí)管理語料。第一級(jí)是生語料分庫(kù),有4千余萬字;第二級(jí)以上都是加工程度不同的熟語料庫(kù),其中第二級(jí)存放經(jīng)過自動(dòng)分詞并由人工校對(duì)過的初加工語料500余萬字;第三級(jí)存放經(jīng)過詞性標(biāo)注和人工校對(duì)的語料約300萬字;第四級(jí)是經(jīng)過句子成分標(biāo)注和人工校對(duì)的語料。每個(gè)分庫(kù)又按語料的來源分成一般書籍、報(bào)紙、雜志、論文和工具書五類子庫(kù)。不同等級(jí)的語料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個(gè)特點(diǎn)是在這個(gè)語料庫(kù)的支持下,進(jìn)行了漢語信息處理技術(shù)的研究。譬如,采用以謂語為中心的句型成分分析與語料統(tǒng)計(jì)相結(jié)合的方法,自動(dòng)分析漢語的句型,提出了一個(gè)“漢語句型頻度表”;在漢語文本中自動(dòng)標(biāo)注句子成分和句型成分的邊界;根據(jù)指定的句型在語料庫(kù)里搜尋句子實(shí)例,等等。

      HuaYu人工標(biāo)注語料庫(kù)是清華大學(xué)和北京語言大學(xué)合作建立的一個(gè)現(xiàn)代漢語平衡語料庫(kù)。這個(gè)語料庫(kù)按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個(gè)大類收錄了200余萬字語料。它的特點(diǎn)是講究加工的深度,除了詞語切分和詞性標(biāo)注以外,還根據(jù)語句中動(dòng)詞的類型和句子的長(zhǎng)度進(jìn)行“語塊”標(biāo)注和“句法樹”標(biāo)注,目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計(jì)數(shù)據(jù)提供資源。下面分別是語塊標(biāo)注和句法樹標(biāo)注的示例。

      對(duì)句子“自古以來,人類就重視檔案的保存和利用,設(shè)置館庫(kù)、選派專人進(jìn)行管理?!边M(jìn)行語塊標(biāo)注以后得到的是一個(gè)無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊: [D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN,/, [P 設(shè)置/v [O 館庫(kù)/n、/、[P 選派/v [O 專人/n [P 進(jìn)行/v [O 管理v。

      對(duì)句子“我哥哥送給我一本很漂亮的書?!边M(jìn)行句法樹標(biāo)注以后,得到的是一個(gè)與樹形結(jié)構(gòu)等價(jià)的線性序列:

      [ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

      (五)用于開發(fā)特定語言分析技術(shù)的專用語料庫(kù)

      這類語料庫(kù)是針對(duì)漢語信息處理技術(shù)的需要專門建立的。例如山西大學(xué)的專有名詞標(biāo)注語料庫(kù)和分詞與詞性標(biāo)注語料庫(kù)。

      分詞與詞性標(biāo)注語料庫(kù),規(guī)模為500萬字,帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時(shí)依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。在這個(gè)語料庫(kù)的支持下,開發(fā)漢語自動(dòng)分詞和詞性標(biāo)注軟件,研究自動(dòng)分詞和詞性標(biāo)注的評(píng)測(cè)技術(shù)。為了解決漢語自動(dòng)分詞中的切分歧義問題,還建立了交集型歧義字段庫(kù)和組合型歧義字段庫(kù),專門收集這兩種類型的歧義切分實(shí)例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標(biāo)注語料庫(kù)里作了這兩類切分歧義的標(biāo)注。利用這些語料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達(dá)到90%以上。

      專有名詞標(biāo)注語料庫(kù)用于研究漢語自動(dòng)分詞中專有名詞的識(shí)別算法。其中包括標(biāo)注了中國(guó)地名的語料280萬字,標(biāo)注了中國(guó)人姓名的語料300萬字,標(biāo)注了西文姓名的語料250萬字,標(biāo)注了漢語機(jī)構(gòu)名稱的語料50萬字,還有標(biāo)注了網(wǎng)絡(luò)新詞語的語料150萬字。利用這些語料,建立了中國(guó)地名用字、用詞庫(kù),姓氏人名庫(kù),姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計(jì)語言模型的方法識(shí)別專有名詞。

      (六)雙語語料庫(kù)

      基于實(shí)例的機(jī)器翻譯(Example-based)需要大規(guī)模的雙語平行語料庫(kù)來支持。語料庫(kù)里的源語和目標(biāo)語實(shí)例要按照相同級(jí)別的翻譯單位一一對(duì)齊。目前已有的雙語平行語料庫(kù)主要是漢語和英語的,語料對(duì)齊的單位有句子級(jí)的、子句級(jí)的、短語級(jí)的,也有詞匯級(jí)的。機(jī)器翻譯系統(tǒng)把要翻譯的句子與語料庫(kù)里的源語實(shí)例進(jìn)行對(duì)比,分析相似程度,找到最適合的源語實(shí)例,再參照與它對(duì)齊的目標(biāo)語實(shí)例生成譯文。用于這類機(jī)器翻譯系統(tǒng)的雙語語料庫(kù)必須有一定的規(guī)模,用人工做語料對(duì)齊的工作顯然很難滿足要求。這就使文本自動(dòng)對(duì)齊成為建立雙語語料庫(kù)的關(guān)鍵技術(shù)。

      在目前已有的雙語語料庫(kù)中,哈爾濱工業(yè)大學(xué)的漢英平行語料庫(kù)已經(jīng)直接用來開發(fā)英漢雙向機(jī)器翻譯系統(tǒng)。這個(gè)語料庫(kù)有6萬個(gè)漢語和英語的句子,使用多級(jí)對(duì)齊加工技術(shù),分別按照句子、短語結(jié)構(gòu)和詞一一對(duì)齊。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢英雙語語料庫(kù)有20萬個(gè)句對(duì),也完成了句子一級(jí)的對(duì)齊,并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國(guó)科學(xué)院軟件研究所等單位也建立了按句對(duì)齊的漢英雙語語料庫(kù)。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫(kù),譬如中國(guó)科學(xué)院自動(dòng)化研究所的漢英雙語短語庫(kù),有3~5萬對(duì)已對(duì)齊的漢語和英語短語。東北大學(xué)的英漢雙語語段庫(kù),用來幫助建立電子版的英漢搭配詞典。

      (七)面向漢語史研究的語料庫(kù)

      面向漢語史研究的語料庫(kù)建設(shè)是從搜集漢語史文獻(xiàn)資料開始的。臺(tái)灣中央研究院歷史語言研究所從90年代初期就開始了這項(xiàng)工作,他們先收集上古漢語的語料,然后擴(kuò)展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標(biāo)注,在該院信息研究所和計(jì)算中心的協(xié)助下進(jìn)行標(biāo)注技術(shù)和檢索技術(shù)的開發(fā)。根據(jù)是否經(jīng)過分詞處理和詞性標(biāo)注,臺(tái)灣中央研究院的古漢語語料庫(kù)和近代漢語語料庫(kù)可以分成兩類:生語料庫(kù)和標(biāo)記語料庫(kù)。目前生語料庫(kù)收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻(xiàn)資料,并己陸續(xù)開放使用。在標(biāo)記語料庫(kù)方面,上古漢語及近代漢語都已有部分語料完成標(biāo)注工作,也逐步提供網(wǎng)上檢索。2001年底,開放了近代漢語標(biāo)記語料庫(kù)WWW版供各界使用,首先提供查詢的文獻(xiàn)是《紅樓夢(mèng)》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項(xiàng)及詞類的同時(shí)給出例句的出處,便于歷史語法的研究者使用。

      多年來中國(guó)社會(huì)科學(xué)院語言研究所也一直在致力于文獻(xiàn)資料的建設(shè),搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標(biāo)注。目前已經(jīng)完成了一個(gè)小型語料庫(kù),包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠(yuǎn)諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻(xiàn),成為漢語史和語言學(xué)理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻(xiàn),共約120萬字,并且已由古漢語學(xué)者逐篇逐句標(biāo)注了語法信息。

      上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語史研究的方向,建立了歷史文獻(xiàn)語料庫(kù)。四川大學(xué)的中古漢語語料庫(kù)有1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學(xué)的楚辭語庫(kù)、前四史語庫(kù)、六朝語庫(kù)、太平廣記語庫(kù)、唐詩(shī)語庫(kù)、宋詞語庫(kù),已用于“前四史”語言研究和唐宋詩(shī)詞語詞研究。

      目前歷史文獻(xiàn)語料庫(kù)建設(shè)的特點(diǎn)是依托學(xué)科建設(shè)和研究方向,廣泛收集資料,注重??本珜?。隨著漢語史研究和語料庫(kù)應(yīng)用的發(fā)展,資源共享和語料加工將得到越來越多的重視。歷史文獻(xiàn)資源共享,首先要避免語料的重復(fù)收集,還要采用國(guó)際通用的標(biāo)準(zhǔn)處理語料文本,使語料能夠準(zhǔn)確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價(jià)值的基礎(chǔ)工作,從收集歷史文獻(xiàn)的電子文檔,到建成一個(gè)具有必要的語言學(xué)標(biāo)記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫(kù),語料的加工是不可或缺的一步。

      (八)比較語料庫(kù)

      為了研究漢語在不同地區(qū)的使用情況,香港城市大學(xué)建立了LIVAC共時(shí)語料庫(kù)(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺(tái)灣、北京、上海、澳門及新加坡六地有代表性的中文報(bào)紙,以及電子媒介上的新聞報(bào)道。自1995年7月開始,每四天一次,收集這六個(gè)地區(qū)的對(duì)等書面語文本,每次約兩萬字。內(nèi)容包括新聞、特寫、評(píng)論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個(gè)詞條。計(jì)劃收集到2005年6月,囊括新舊世紀(jì)交接點(diǎn)前后各五年各地華語社區(qū)有代表性的重要語言數(shù)據(jù),供漢語的各種共時(shí)比較研究使用。

      在語料的組織和加工方面,這個(gè)語料庫(kù)用計(jì)算機(jī)自動(dòng)分詞,再經(jīng)人工校對(duì)分類,可以依字、詞、句為基礎(chǔ)進(jìn)行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計(jì)功能。語言學(xué)家能通過這個(gè)語料庫(kù)考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語,還可以對(duì)具體字或詞的頻率作統(tǒng)計(jì)比較,對(duì)字詞的差別作計(jì)量分析。對(duì)研究華人社區(qū)的文化、社會(huì)、語言差異也有作用。這個(gè)語料庫(kù)的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

      (九)少數(shù)民族語言語料庫(kù)

      新疆大學(xué)從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫(kù)系統(tǒng),計(jì)劃包括5個(gè)部分:語料庫(kù)、電子語法信息詞典、規(guī)則庫(kù)、統(tǒng)計(jì)信息庫(kù)和檢索統(tǒng)計(jì)軟件包。其中語料庫(kù)部分又分成生語料庫(kù)(經(jīng)初步整理的原始語料)和加工語料庫(kù)(經(jīng)過標(biāo)注和校對(duì)的語料)。目前已有生語料800萬詞。另外,新疆大學(xué)也正在以新聞?lì)I(lǐng)域的維漢-漢維機(jī)器翻譯為目標(biāo),建設(shè)雙語平行語料庫(kù)。內(nèi)蒙古大學(xué)的中世紀(jì)蒙古文語料庫(kù)收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻(xiàn)集》等歷史文獻(xiàn)。他們還建立了500萬詞的現(xiàn)代蒙古語語料庫(kù),研究了蒙古文附加成分的自動(dòng)切分、復(fù)合詞的自動(dòng)識(shí)別和語料的詞性標(biāo)注,獲得了詞頻統(tǒng)計(jì)、音節(jié)統(tǒng)計(jì)、詞類統(tǒng)計(jì)、附加成分統(tǒng)計(jì)等數(shù)據(jù)。西北民族大學(xué)建立了1億3千萬字節(jié)的大型藏文語料庫(kù),用于藏文詞匯頻度和通用度的統(tǒng)計(jì)。中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所建立了500萬藏語字符的藏語語料庫(kù),進(jìn)行詞語切分和標(biāo)注的研究。新疆師范大學(xué)也建立了200萬詞的維吾爾語語料庫(kù)。

      與漢語語料庫(kù)相比,少數(shù)民族語料庫(kù)的建設(shè)還需要解決一些特殊的問題,譬如拼音文字轉(zhuǎn)寫的標(biāo)準(zhǔn)和規(guī)范,詞語分類體系及其標(biāo)記集等。

      到2003年,已建和在建的各種文本語料庫(kù)還有很多(包括書面語語料庫(kù)和以文本形式表示的口語語料庫(kù)),以上提到的只是有代表性的一部分。與文本語料庫(kù)相對(duì)的,是語音語料庫(kù)。語音語料庫(kù)不僅記錄語圖、聲學(xué)參數(shù)等語音學(xué)數(shù)據(jù),還有句法、韻律等各種語言學(xué)信息標(biāo)記和副語言學(xué)信息標(biāo)記,可以在語音識(shí)別與合成系統(tǒng)中用來建立語音模型,用于語音研究、語音工程開發(fā)和漢語普通話教學(xué)等領(lǐng)域。語音技術(shù)是當(dāng)前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語音語料庫(kù)在科研和工程上有很高的使用價(jià)值。關(guān)于語音語料庫(kù)的詳細(xì)情況,請(qǐng)見“語音學(xué)和言語工程研究綜述”。

      三 語料庫(kù)的加工、管理和規(guī)范

      (一)語料的加工

      一個(gè)計(jì)算機(jī)語料庫(kù)的功能主要與三個(gè)因素有關(guān),一是語料庫(kù)的規(guī)模,二是語料的分布,三是語料的加工程度。規(guī)模的大小關(guān)系到統(tǒng)計(jì)數(shù)據(jù)是否可靠,語料的分布涉及統(tǒng)計(jì)結(jié)果的適用范圍,語料加工的深度則決定這個(gè)語料庫(kù)能為使用者提供什么樣的語言學(xué)信息。

      加工語料主要指文本格式處理和文本描述兩項(xiàng)工作,前者是對(duì)采集的語料文本進(jìn)行整理,轉(zhuǎn)成統(tǒng)一的電子文本格式,例如數(shù)據(jù)庫(kù)格式、XML文本格式等。后者是描述每一篇語料樣本的屬性或特征,包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的屬性,例如語體、內(nèi)容所屬的領(lǐng)域、作者、寫作時(shí)間、來源出處等等,篇體描述是在文本里添加各種語言學(xué)屬性標(biāo)記,對(duì)于漢語書面語語料庫(kù)來說,常見的是詞語切分標(biāo)記、詞性標(biāo)記、專有名詞標(biāo)記,還有某些語法特征如短語標(biāo)記、子句標(biāo)記,或語義信息標(biāo)記,等等。對(duì)漢語書面語語料的加工一般是從詞語切分、詞性標(biāo)注,到語法、語義屬性標(biāo)注,按順序進(jìn)行。標(biāo)注的信息逐步增多,語料加工的深度也就逐漸增加。人們通常把沒有篇體描述信息的語料叫做生語料。對(duì)漢語的生語料只能以字為單位進(jìn)行檢索和統(tǒng)計(jì)。經(jīng)過詞語切分處理的語料,就能以詞為單位進(jìn)行檢索、統(tǒng)計(jì)和定量分析。如果還作了詞性標(biāo)記,那么可以獲得的語言學(xué)信息就更多了。語料的標(biāo)注如果由人來做,當(dāng)然能夠保證準(zhǔn)確性,但是人工標(biāo)注對(duì)處理大規(guī)模的語料顯然不夠現(xiàn)實(shí)。所以幾乎每一個(gè)大規(guī)模語料庫(kù)的加工都需要借助自動(dòng)化的手段,詞語自動(dòng)切分、詞性自動(dòng)標(biāo)注等就成為備受關(guān)注的語料加工技術(shù)。

      自動(dòng)分詞是我國(guó)最早開始研究的漢語信息處理技術(shù)之一。語料庫(kù)的建設(shè)開始以后,自動(dòng)分詞技術(shù)在語料加工中又得到了應(yīng)用和發(fā)展。自動(dòng)分詞和詞性自動(dòng)標(biāo)注一般都需要一個(gè)詞典,作為分詞和詞性標(biāo)注的基礎(chǔ)。這個(gè)詞典與常用的語文詞典相比,收錄的詞目不大一樣,包括了語言學(xué)家認(rèn)可的詞,以及一些比詞小的單位(如語素字、詞綴等)和一些比詞大的單位(如成語、習(xí)語、簡(jiǎn)稱略語等)。詞典中也包括詞類信息和其他語法信息。目前的自動(dòng)分詞技術(shù)是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分過程中會(huì)出現(xiàn)歧義現(xiàn)象,如何處理歧義是自動(dòng)分詞研究的重點(diǎn)之一,在這方面投入的研究也最多,先后提出了“短語結(jié)構(gòu)法”、“專家系統(tǒng)法”、“隱馬爾科夫模型”、“串頻統(tǒng)計(jì)和詞匹配”等辯識(shí)歧義的方法。識(shí)別未登錄詞是自動(dòng)分詞研究的第二個(gè)重點(diǎn)。未登錄詞指沒有被分詞底表收錄的詞語,包括人名、地名、機(jī)構(gòu)名等專有名詞和新出現(xiàn)的詞語。對(duì)未登錄詞的識(shí)別一般以基于語料庫(kù)的統(tǒng)計(jì)語言模型方法為主。

      詞性自動(dòng)標(biāo)注通常與自動(dòng)分詞同時(shí)進(jìn)行,根據(jù)帶有詞類信息的分詞詞典,給切分出來的詞語標(biāo)上初始的詞類標(biāo)記。對(duì)于兼類詞,必須在句子里判斷類別。因此需要分析兼類詞語在上下文中的分布特點(diǎn)和語法功能,并用形式化的方式表達(dá)出來,作為詞性標(biāo)注系統(tǒng)排除兼類的規(guī)則。近年來,已經(jīng)有幾個(gè)自動(dòng)分詞和詞性自動(dòng)標(biāo)注系統(tǒng)投入了應(yīng)用,其中北京大學(xué)用自己研制的系統(tǒng)為《人民日?qǐng)?bào)標(biāo)注語料庫(kù)》做分詞和詞性標(biāo)注的初加工,北京語言大學(xué)的自動(dòng)分詞系統(tǒng)也成為其《面向語言教學(xué)研究的漢語語料檢索系統(tǒng)》中的關(guān)鍵技術(shù)。此外,經(jīng)過十幾年的研究和實(shí)踐,2001年發(fā)布了收錄9萬多詞語的《信息處理用現(xiàn)代漢語分詞詞表》和《現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。對(duì)于1993年制定的國(guó)家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》的可操作性問題,也進(jìn)行了積極的討論和實(shí)驗(yàn),提出了有效的解決方法。關(guān)于自動(dòng)分詞和詞性自動(dòng)標(biāo)注的詳細(xì)情況,請(qǐng)見“計(jì)算語言學(xué)和自然語言信息處理研究綜述”。

      經(jīng)過分詞的語料,除了標(biāo)注詞性以外,還可以進(jìn)一步標(biāo)注其他語言學(xué)屬性,譬如韻律、語調(diào)、短語結(jié)構(gòu)、句法結(jié)構(gòu)、語義關(guān)系等等。句子的語法結(jié)構(gòu)需要有形式化的方式來表達(dá),大多數(shù)語料庫(kù)或者采用短語結(jié)構(gòu)樹,或者采用依存語法樹的方式,這樣標(biāo)注過的語料庫(kù)就成為短語樹庫(kù)或句法樹庫(kù)。一般情況下,在詞性標(biāo)注的基礎(chǔ)上再作進(jìn)一步的語法標(biāo)注加工,多以人工為主,也有關(guān)于自動(dòng)短語定界和句法信息自動(dòng)標(biāo)注的研究和實(shí)驗(yàn)。目前已有的漢語短語庫(kù)、句法樹庫(kù)規(guī)模都不大,至多百萬詞級(jí)。

      在雙語語料庫(kù)的建設(shè)中,除了上述語料加工項(xiàng)目以外,還有一項(xiàng)不可缺少的語料加工任務(wù):雙語語料對(duì)齊。語料對(duì)齊分為段落、句子、子句、短語和詞語幾個(gè)不同的層次。如果考慮用計(jì)算機(jī)程序做自動(dòng)對(duì)齊,不同的層次要解決的問題各不相同。每種語言的段落都有可識(shí)別的標(biāo)志,因此段落的對(duì)齊最容易實(shí)現(xiàn),句子的對(duì)齊在印歐語言之間比它們和漢語之間要容易,詞語的對(duì)齊需要借助詞典,句子內(nèi)的各種結(jié)構(gòu)要自動(dòng)對(duì)齊則是最難的。目前雙語自動(dòng)對(duì)齊技術(shù)的研究主要是針對(duì)句子和句子內(nèi)的結(jié)構(gòu),采用的方法有基于長(zhǎng)度的、基于詞典的,或者是這兩種方法的混合策略。

      (二)語料庫(kù)管理系統(tǒng)

      經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫(kù),還應(yīng)該有一個(gè)功能齊備的管理系統(tǒng),包括數(shù)據(jù)維護(hù)(語料錄入、校對(duì)、存儲(chǔ)、修改、刪除及語料描述信息項(xiàng)目管理)、語料自動(dòng)加工(分詞、標(biāo)注、文本分割、合并、語料對(duì)齊、標(biāo)記處理等)、用戶服務(wù)功能(查詢、檢索、統(tǒng)計(jì)、打印等)。其中數(shù)據(jù)維護(hù)部分主要涉及漢字字符處理、文本處理、文件管理等計(jì)算機(jī)程序設(shè)計(jì)技術(shù)。語料自動(dòng)加工部分的主要內(nèi)容是自動(dòng)分詞、各種語言學(xué)屬性的標(biāo)注技術(shù),已經(jīng)在前面專門介紹過了。這里主要談?wù)劽嫦蛴脩舻恼Z料檢索、統(tǒng)計(jì)和分析技術(shù)。

      語料檢索是一種全文檢索技術(shù),但是也有自己的特點(diǎn),僅用普通的全文檢索技術(shù)還不能滿足語料檢索的需要。這是因?yàn)?,全文信息檢索關(guān)心的是檢索目標(biāo)的意義,不是檢索目標(biāo)的語言表述形式。而面向語言研究的語料檢索則特別注重語言的表述形式,它既需要按照字、字串和詞檢索,也需要把詞語的語言學(xué)屬性作為檢索的目標(biāo)和約束條件,還要求把檢索的結(jié)果或目標(biāo)的出處按照研究的需要排序、輸出。除此之外,還要有字頻、詞頻和特定語言形式出現(xiàn)頻率的統(tǒng)計(jì)功能。

      對(duì)漢語生語料的檢索和統(tǒng)計(jì)是以字或字串為單位進(jìn)行的。這一類檢索系統(tǒng)主要以單字索引和字符串匹配為關(guān)鍵技術(shù),由于把詞語當(dāng)作字串來檢索,所以檢索結(jié)果中經(jīng)常出現(xiàn)“非詞”的問題。例如要查找“出警”,檢索結(jié)果中除了“迅速出警”、“拒絕出警”、“出警次數(shù)”等實(shí)例以外,“發(fā)出警告”、“放出警犬”等也混在其中。為了解決這些問題,常常需要為字符串匹配的檢索表達(dá)式另外設(shè)置限制條件。這些限制條件大多是個(gè)性的,只能排除一部分“非詞”的實(shí)例。要想從根本上解決這個(gè)問題,就必須對(duì)語料作詞語切分。經(jīng)過詞語切分處理的熟語料,能以詞為單位進(jìn)行檢索、統(tǒng)計(jì)和定量分析。但是熟語料庫(kù)的加工代價(jià)很高,而且對(duì)于語料的詞語切分和詞性標(biāo)注,目前還沒有既成熟又便于操作的規(guī)范,所以近年來,面向生語料庫(kù)的檢索技術(shù)一直在廣泛應(yīng)用,并且在用戶功能方面不斷發(fā)展。譬如,可以對(duì)用戶給出的任何生語料快速生成索引;可以使用具有復(fù)合邏輯關(guān)系的檢索表達(dá)式;可以按照漢字、拼音、筆畫對(duì)檢索結(jié)果的上下文自動(dòng)排序;可以提供檢出實(shí)例的來源、出處;可以按字頻統(tǒng)計(jì)的數(shù)據(jù)排序;檢索結(jié)果和統(tǒng)計(jì)結(jié)果既可以按文本形式輸出,也可以按數(shù)據(jù)庫(kù)形式輸出;還可以通過網(wǎng)絡(luò)支持多用戶遠(yuǎn)程檢索。

      對(duì)于經(jīng)過詞語切分處理和詞性標(biāo)注的熟語料庫(kù),除了所有生語料的檢索功能以外,語料檢索系統(tǒng)還可以把詞語或詞性作為檢索的關(guān)鍵字或限制條件,得到關(guān)于這些語言學(xué)屬性的檢索和統(tǒng)計(jì)結(jié)果,并按各種排序和輸出形式的提供給用戶。語言學(xué)屬性來自語言學(xué)家對(duì)漢語的研究,研究過程中有各種觀點(diǎn)和認(rèn)識(shí),從詞的定義到詞類的確定,一直還沒有統(tǒng)一的意見。另一方面,人們檢索語料時(shí)的目的也各不相同,有的關(guān)心詞匯問題,有的關(guān)心語法現(xiàn)象,還有的目標(biāo)是漢語信息處理的應(yīng)用問題。因此對(duì)于熟語料庫(kù)檢索來說,一個(gè)好的檢索系統(tǒng)應(yīng)該能夠包容各種不同的語言學(xué)觀點(diǎn),可以用于不同的檢索目的。

      為了做到這一點(diǎn),通常采用的辦法是,把用于語料庫(kù)自動(dòng)分詞的底表和附著于底表的詞性、構(gòu)詞等屬性都看作語言學(xué)屬性表,使這個(gè)屬性表與檢索系統(tǒng)的程序相互獨(dú)立,檢索系統(tǒng)只把屬性標(biāo)記作為抽象的字符串處理,而把建立屬性表的工作交給用戶。以北京語言大學(xué)的《面向語言教學(xué)研究的漢語語料檢索系統(tǒng)》為例,它的自動(dòng)分詞詞表、詞屬性集和每個(gè)詞的屬性標(biāo)記都由用戶提供,提供的方式是把詞目和它的屬性標(biāo)記登記在數(shù)據(jù)庫(kù)里。檢索系統(tǒng)使用用戶提供的這個(gè)屬性表對(duì)生語料自動(dòng)分詞,并生成索引,供給用戶檢索。檢索系統(tǒng)對(duì)屬性表沒有任何限制,規(guī)??纱罂尚?,表中的詞目也可以跟通常認(rèn)為的詞沒有關(guān)系,屬性可以是語法的,也可以是構(gòu)詞的、語義的、語音的,等等。這樣用戶就能根據(jù)自己的需要檢索和研究各種字串在語料中的表現(xiàn)。

      把語料加工技術(shù)集成在檢索系統(tǒng)里面,是語料庫(kù)檢索系統(tǒng)的另一個(gè)特點(diǎn)。語料加工技術(shù)一般指詞語自動(dòng)切分和詞性自動(dòng)標(biāo)注。在北京語言大學(xué)的語料檢索系統(tǒng)中,未登錄詞的自動(dòng)識(shí)別技術(shù)比較有特點(diǎn)。它可以識(shí)別各種數(shù)字串、中西人名、中西地名、機(jī)構(gòu)名、后綴短語等,并為它們建立索引,供用戶檢索和統(tǒng)計(jì)。

      (三)語料庫(kù)的規(guī)范問題

      語料庫(kù)的規(guī)范問題主要是對(duì)語料加工而言的。漢語語料庫(kù)首先遇到的規(guī)范問題是詞語切分。我國(guó)90年代初發(fā)布了國(guó)家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》(標(biāo)準(zhǔn)號(hào)為GB/T13715-92)。這個(gè)規(guī)范基本上采用《暫擬漢語教學(xué)語法系統(tǒng)》中的觀點(diǎn),把詞定義為“最小的獨(dú)立運(yùn)用的語言單位”。針對(duì)漢語語素、詞和詞組界限不夠清晰的問題,還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且用“結(jié)合緊密、使用穩(wěn)定”的原則作為判斷分詞單位的標(biāo)準(zhǔn)。這樣做的目的是避免關(guān)于如何界定詞的爭(zhēng)論。但是“結(jié)合緊密、使用穩(wěn)定”的原則缺少可操作性,對(duì)于自動(dòng)分詞研究中的具體問題常常難有定論。于是就有了根據(jù)規(guī)范制定一個(gè)詞表,用“規(guī)范+詞表”的辦法指導(dǎo)分詞的建議。這樣在90年代中期和末期,分別提出了收詞43570條的《信息處理用現(xiàn)代漢語常用詞表》和收詞9萬多條的《信息處理用現(xiàn)代漢語分詞詞表》。其中后者是在8億字的大規(guī)模語料庫(kù)支持下,采用“串頻”、“互信息”、“相關(guān)度”等計(jì)算統(tǒng)計(jì)方法,依據(jù)定量的數(shù)據(jù)分析結(jié)果辨識(shí)“分詞單位”的。與此同時(shí),語言學(xué)家也參與了制定這個(gè)詞表的工作,他們提出的各種語言學(xué)規(guī)則,從定性分析的角度與統(tǒng)計(jì)數(shù)據(jù)相互作用,最后經(jīng)過人工審定,確定了92843個(gè)詞目,其中一級(jí)常用詞56606個(gè),二級(jí)常用詞36237個(gè),成為目前許多自動(dòng)分詞系統(tǒng)使用的詞表。

      90年代中期,臺(tái)灣的計(jì)算語言學(xué)會(huì)也提出了一個(gè)《資訊處理用中文分詞規(guī)范》。這個(gè)規(guī)范有三條基本原則,一是分詞單位必須符合語言學(xué)理論的要求;二是在信息處理上切實(shí)可行;三是能夠確保真實(shí)文本處理的一致性。它把分詞規(guī)范分成信、達(dá)、雅三個(gè)不同的等級(jí),“信”級(jí)是基本資料交換的標(biāo)準(zhǔn),“達(dá)”級(jí)是機(jī)器翻譯、情報(bào)檢索等自然語言處理的標(biāo)準(zhǔn),“雅”級(jí)則是分詞的最好結(jié)果。這樣可以根據(jù)不同的應(yīng)用目的做難易程度不同的分詞處理。

      詞語切分以后,下一個(gè)規(guī)范問題就是詞性標(biāo)注。經(jīng)過十多年的詞性標(biāo)注研究和實(shí)踐,教育部語言文字應(yīng)用研究所于2001年提出了《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》。這個(gè)規(guī)范吸收了語言學(xué)家的研究成果,也兼顧了已有的各個(gè)用于語言信息處理的詞類系統(tǒng),制定了標(biāo)記現(xiàn)代漢語書面語詞類的符號(hào)集,使各種漢語信息處理應(yīng)用系統(tǒng)能夠盡量使用統(tǒng)一的詞類標(biāo)記,有助于信息交換和資源共享。

      標(biāo)注短語和句子結(jié)構(gòu)是語料庫(kù)進(jìn)一步深加工的內(nèi)容,雖然目前尚處于起步階段,但已經(jīng)在標(biāo)注的同時(shí)考慮了規(guī)范的問題。清華大學(xué)提出的《漢語句子的句法樹標(biāo)注規(guī)范》,主要包括句法標(biāo)記集的內(nèi)容描述、句法樹的劃分規(guī)定、歧義結(jié)構(gòu)的處理、結(jié)構(gòu)分析的方向性等問題。上海師范大學(xué)根據(jù)自己制定的《漢語文本短語結(jié)構(gòu)人工標(biāo)注規(guī)范》,對(duì)100萬字的1997年《讀者文摘》進(jìn)行了分詞、詞性標(biāo)注和人工標(biāo)注短語的試驗(yàn)。哈爾濱工業(yè)大學(xué)采用包含23個(gè)短語符號(hào)的標(biāo)記集合,開發(fā)了一個(gè)8000個(gè)句子的漢語樹庫(kù)。清華大學(xué)還建立了一個(gè)基于語義依存關(guān)系的語料庫(kù),也涉及到標(biāo)注體系的選擇和標(biāo)注關(guān)系集的確定。這些工作規(guī)模都不大,在規(guī)范方面還處于各自為政的狀態(tài)。隨著語料的進(jìn)一步深入加工,統(tǒng)一規(guī)范將成為不可避免的問題。

      北京大學(xué)的《人民日?qǐng)?bào)》標(biāo)注語料庫(kù)是目前規(guī)模最大的漢語基本標(biāo)注語料庫(kù)。在它的開發(fā)過程中,各種加工規(guī)范起了關(guān)鍵的作用。在這些加工規(guī)范中,有詞語的切分規(guī)范,主要規(guī)定把句子的漢字串形式切分為詞語序列的原則;有現(xiàn)代漢語詞類及標(biāo)記集規(guī)范,規(guī)定切分出來的詞語、短語、標(biāo)點(diǎn)符號(hào)的類別和標(biāo)識(shí)符號(hào);有切分和標(biāo)注相結(jié)合的規(guī)范,規(guī)定語素構(gòu)成合成詞的方式(重疊、附加和復(fù)合);有標(biāo)注規(guī)范,規(guī)定詞性標(biāo)注與詞庫(kù)的關(guān)系,主要解決如何在上下文環(huán)境里確定兼類詞的詞性;還有收詞7萬余條的詞庫(kù)《現(xiàn)代漢語語法信息詞典》。加工大規(guī)模的語料是一項(xiàng)浩大的語言工程。語料標(biāo)注的準(zhǔn)確性和一致性需要靠完善、合理的詞庫(kù)和嚴(yán)謹(jǐn)、實(shí)用的加工規(guī)范來保證?!度嗣袢?qǐng)?bào)》標(biāo)注語料庫(kù)的加工規(guī)范和《現(xiàn)代漢語語法信息詞典》是語言學(xué)家和信息處理專家合作,在漢語語法研究的理論和方法指導(dǎo)下,根據(jù)漢語信息處理的實(shí)際需要制定和開發(fā)的。在標(biāo)注大規(guī)模語料的實(shí)踐中,又得到了驗(yàn)證和完善。

      除了語料加工以外,語料庫(kù)還應(yīng)該在語料的采集和存儲(chǔ)格式上有所規(guī)范。對(duì)于平衡語料庫(kù)來說,采集規(guī)范主要是為了保證語料的平衡性,而類別分布和時(shí)間分布是語料平衡的兩大要素。每個(gè)語料庫(kù)都要對(duì)語料進(jìn)行分類,分類的原則各不相同。有的根據(jù)內(nèi)容涉及的主題分類,有的根據(jù)語體分類。在眾多平衡語料庫(kù)當(dāng)中,臺(tái)灣中央研究院的現(xiàn)代漢語平衡語料庫(kù)的分類標(biāo)準(zhǔn)很值得注意。這個(gè)語料庫(kù)的研制者認(rèn)為,用傳統(tǒng)的文體單一特征來界定平衡語料庫(kù)不足以反映影響整個(gè)語言全貌的內(nèi)在因素。因此他們采用的是多重分類原則:把所有語料都標(biāo)上五個(gè)不同特征的值:(1)文類(2)文體(3)語式(4)主題(5)媒體。利用以主題為主的五個(gè)特征的多重分類來進(jìn)行語料庫(kù)的平衡。這樣做還使研究者能夠任選其中幾個(gè)特征的組合,定義自己的次語料庫(kù)(sub-corpora),也可以在次語料庫(kù)間作比較研究。另外,多重分類原則也有利于以后平衡語料庫(kù)的更新。語料存儲(chǔ)格式的規(guī)范一般指采用統(tǒng)一的編碼規(guī)范為電子文本作標(biāo)記,目前可擴(kuò)充置標(biāo)語言XML被廣泛地用作語料庫(kù)標(biāo)注的元語言,存儲(chǔ)格式的標(biāo)準(zhǔn)化有助于語料的交換和共享。

      四 語料庫(kù)在語言研究中的的應(yīng)用

      在語言研究中,語料庫(kù)方法是一種經(jīng)驗(yàn)的方法,它能提供大量的自然語言材料,有助于研究者根據(jù)語言實(shí)際得出客觀的結(jié)論,這種結(jié)論同時(shí)也是可觀測(cè)和可驗(yàn)證的。在計(jì)算機(jī)技術(shù)的支持下,語料庫(kù)方法對(duì)語言研究的許多領(lǐng)域產(chǎn)生了越來越多的影響。各種為不同目的而建立的語料庫(kù)可以應(yīng)用在詞匯、語法、語義、語用、語體研究,社會(huì)語言學(xué)研究,口語研究,詞典編纂,語言教學(xué)以及自然語言處理、人工智能、機(jī)器翻譯、言語識(shí)別與合成等領(lǐng)域。我國(guó)在語料庫(kù)的應(yīng)用上還處于起步階段,在計(jì)算語言學(xué)和語言信息處理領(lǐng)域,語料庫(kù)主要用來為統(tǒng)計(jì)語言模型提供語言特征信息和概率數(shù)據(jù),在語言研究的其他領(lǐng)域,多使用語料的檢索和頻率統(tǒng)計(jì)結(jié)果。

      語料庫(kù)與自然語言信息處理有著相輔相成的關(guān)系,大規(guī)模的語料庫(kù)是用統(tǒng)計(jì)語言模型方法處理自然語言的基礎(chǔ)資源。然而統(tǒng)計(jì)語言模型本身并不關(guān)心其建模對(duì)象的語言學(xué)信息,它關(guān)心的只是一串符號(hào)的同現(xiàn)概率。譬如N元語法模型,它只關(guān)心句子中各種單元(比如字、詞、短語等)近距離連接關(guān)系的概率分布,而對(duì)于許多復(fù)雜的語言現(xiàn)象,它就無能為力了。在統(tǒng)計(jì)語言建模技術(shù)最先得到成功應(yīng)用的自動(dòng)語音識(shí)別領(lǐng)域,語料庫(kù)的開發(fā)和建設(shè)受到格外的重視,標(biāo)注語料庫(kù)成為不可缺少的系統(tǒng)資源,就是因?yàn)?,要想改進(jìn)N元語法的建模技術(shù),必須利用語料庫(kù)引入更多的語言特征信息和統(tǒng)計(jì)語言數(shù)據(jù)。同樣,在書面語語言信息處理領(lǐng)域里,語料庫(kù)提供的語言知識(shí)也越來越多地用在統(tǒng)計(jì)語言模型方法中。除了詞語自動(dòng)切分、詞性自動(dòng)標(biāo)注、雙語語料對(duì)齊等語料加工技術(shù)以外,人們還在語料庫(kù)的支持下,建立有關(guān)語法、語義的語言知識(shí)庫(kù),開發(fā)信息抽取系統(tǒng)、信息檢索系統(tǒng)、文本分類和過濾系統(tǒng),并且把基于統(tǒng)計(jì)或?qū)嵗姆治黾夹g(shù)集成到機(jī)器翻譯系統(tǒng)里面。

      近年來在語料庫(kù)的支持下,從信息處理的角度研究漢語詞匯、語法和語義問題的報(bào)告也日漸增多。這些研究包括:根據(jù)逐詞索引作漢語詞義的調(diào)查;對(duì)詞語搭配進(jìn)行計(jì)量分析;利用量詞--名詞的搭配數(shù)據(jù)研究漢語名詞分類問題;進(jìn)行現(xiàn)代漢語句型的統(tǒng)計(jì)和研究;做短語自動(dòng)識(shí)別(例如基本名詞短語、動(dòng)賓結(jié)構(gòu))和自動(dòng)句法分析的試驗(yàn);研究在句子里為詞語排除歧義的算法;分析和統(tǒng)計(jì)漢語詞語重疊結(jié)構(gòu)的深層結(jié)構(gòu)類型及產(chǎn)生方式;等等。

      對(duì)于詞匯學(xué)、語法學(xué)、語言理論、歷史語言學(xué)等研究來說,語料庫(kù)的作用目前大多還是通過語料檢索和頻率統(tǒng)計(jì),幫助人們觀察和把握語言事實(shí),分析和研究語言的規(guī)律。語料庫(kù)方法的發(fā)展會(huì)使這種僅起輔助作用的手段逐步變成必備的應(yīng)用資源和工具。利用語料庫(kù),人們可以把指定的語法現(xiàn)象加以量化,并且檢測(cè)和驗(yàn)證語言理論、規(guī)則或假設(shè)。

      在少數(shù)民族語言和方言調(diào)查研究方面,比較有代表性的工作是“藏緬語語料庫(kù)及比較研究的計(jì)量描寫”。它建立了我國(guó)境內(nèi)藏緬語族五大語支82個(gè)語言點(diǎn)16萬詞條的詞匯語音數(shù)據(jù)庫(kù),對(duì)藏語方言的音節(jié)、音位、聲母、韻母、聲詞、詞素、構(gòu)詞能力和語音結(jié)構(gòu)等10余項(xiàng)特征作了分布和對(duì)比分析。對(duì)藏語15個(gè)方言點(diǎn)作了語音對(duì)應(yīng)關(guān)系和音系對(duì)比關(guān)系的量化描述,并且在這個(gè)基礎(chǔ)上做出具有歷時(shí)和共時(shí)比較研究意義的相關(guān)分析,得出了語言分類的相關(guān)矩陣和聚類分析圖表。

      在應(yīng)用語言學(xué)領(lǐng)域,詞典編纂和語言教學(xué)同是語料庫(kù)的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫(kù)或電子文檔收集詞語數(shù)據(jù),用于收詞、釋義、例句、屬性標(biāo)注等。南京大學(xué)近年來開發(fā)了NULEXID語料庫(kù)暨雙語詞典編纂系統(tǒng),涉及英漢兩種語言,在《新時(shí)代英漢大詞典》的編纂過程中起了重要作用。從詞典編纂的整體情況看,我們還缺少充分的語料資源和有效的分析工具,很多有意義的事情還做不了。譬如,分析語料中顯現(xiàn)的詞語搭配現(xiàn)象,利用語料庫(kù)進(jìn)行詞語意義辨析,在動(dòng)態(tài)的語料庫(kù)中輔助提取新詞語,等等。把語料庫(kù)用于語言教學(xué)的一個(gè)例子是上海交通大學(xué)的JDEST英語語料庫(kù),利用這個(gè)語料庫(kù),通過語料比較、統(tǒng)計(jì)、篩選等方法為中國(guó)大學(xué)英語教學(xué)提供通用詞匯和技術(shù)詞匯的應(yīng)用信息,為確定大學(xué)英語教學(xué)大綱的詞表提供了可靠的量化依據(jù)。這個(gè)語料庫(kù)也在英語語言研究中發(fā)揮了作用,支持基于語料庫(kù)的英語語法的頻率特征、語料庫(kù)驅(qū)動(dòng)的詞語搭配等項(xiàng)研究。2003年,中國(guó)學(xué)習(xí)者英語語料庫(kù)由上海外語教育出版社正式發(fā)行。這個(gè)語料庫(kù)是一個(gè)100多萬詞的書面英語語料庫(kù),涵蓋我國(guó)中學(xué)生、大學(xué)英語4級(jí)和6級(jí)、英語專業(yè)低年級(jí)和高年級(jí)的學(xué)習(xí)內(nèi)容,并對(duì)所有的語料作了語法標(biāo)注和言語失誤標(biāo)注。根據(jù)這個(gè)語料庫(kù)得到了詞頻排列表、拼寫失誤表、詞目表、詞頻分布表、語法標(biāo)注頻數(shù)表、言語失誤表等,還把這些數(shù)據(jù)與一些英語本族語語料庫(kù)(如BROWN,LOB,F(xiàn)ROWN,F(xiàn)LOB)進(jìn)行了某些比較。這個(gè)語料庫(kù)為詞典編纂、教材編寫和語言測(cè)試提供了必要的資源。目前上海交通大學(xué)正在建設(shè)大學(xué)英語學(xué)習(xí)者口語英語語料庫(kù)。

      在幾年來語料庫(kù)建設(shè)和應(yīng)用的基礎(chǔ)上,2003年國(guó)家“973”計(jì)劃開始支持中文語言資源聯(lián)盟(Chinese Linguistic Data Consortium,簡(jiǎn)稱ChineseLDC)的建立。ChineseLDC是吸收國(guó)內(nèi)高等院校、科研機(jī)構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的、通用的中文語言信息知識(shí)庫(kù)。ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典、語料庫(kù)、數(shù)據(jù)、工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶,并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。

      幾年來在計(jì)算語言學(xué)和語言信息處理領(lǐng)域的學(xué)術(shù)會(huì)議上,語料庫(kù)的建設(shè)和應(yīng)用一直是重要論題之一。討論的重點(diǎn)集中在基于語料庫(kù)的語言分析方法,以及語料的標(biāo)注、管理和規(guī)范等問題上。語言學(xué)家更多關(guān)心的是語料庫(kù)的規(guī)劃和建設(shè),語料庫(kù)方法在語言研究和教學(xué)中的應(yīng)用。近年來語言學(xué)界也召開有關(guān)語料庫(kù)的專門學(xué)術(shù)會(huì)議,譬如2001年由中國(guó)社會(huì)科學(xué)院語言研究所主辦、在清華大學(xué)召開的語料庫(kù)語言學(xué)與計(jì)算語言學(xué)研究與實(shí)踐研討會(huì)(主要討論了語料庫(kù)的建設(shè)和應(yīng)用、語言信息處理等問題);2003年由上海交通大學(xué)等單位主辦、在上海交通大學(xué)召開的語料庫(kù)語言學(xué)國(guó)際研討會(huì)(會(huì)議主題是語料庫(kù)研究與外語教學(xué))。

      第四篇:基于語料庫(kù)的中國(guó)文化負(fù)載詞匯英譯研究

      基于語料庫(kù)的中國(guó)文化負(fù)載詞匯英譯研究

      [本文為2015年江蘇省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃省級(jí)項(xiàng)目“基于語料庫(kù)的中國(guó)文化負(fù)載詞匯研究---以2015年政府工作報(bào)告為例”(項(xiàng)目編號(hào):201510332069X)部分研究成果。

      江蘇省高校哲學(xué)社會(huì)科學(xué)項(xiàng)目“基于語料庫(kù)的中國(guó)英語文化負(fù)載詞匯研究”(2014SJB554)。]

      摘要:本研究以德國(guó)功能目的論為依據(jù),探討2015年《政府工作報(bào)告》(以下簡(jiǎn)稱《報(bào)告》)中國(guó)文化負(fù)載詞的英譯方法。研究采用語料庫(kù)檢索工具Antconc3.2,通過國(guó)務(wù)院官網(wǎng)2015年《報(bào)告》(英文版)報(bào)道和中央編譯局2015年《報(bào)告》重要術(shù)語發(fā)布建立兩個(gè)小型語料庫(kù)。結(jié)果發(fā)現(xiàn),2015年政府工作報(bào)告英譯本詞匯具有:實(shí)詞使用量大、動(dòng)詞名詞化顯著和解釋性名詞具有中國(guó)特色的特征。通過對(duì)政府工作報(bào)告的英譯文本分析,得出以下結(jié)論:《報(bào)告》英譯是有明確目的的跨文化交際活動(dòng),中國(guó)文化負(fù)載詞的英譯應(yīng)遵循“目的法則”,靈活多樣地采取直譯、直譯+增譯、意譯相結(jié)合的翻譯方法,以提升中國(guó)文化軟實(shí)力。

      關(guān)鍵詞:語料庫(kù);文化負(fù)載詞;2015年《政府工作報(bào)告》;功能目的論;英譯

      一、引言

      隨著自身的全球化和本土化,英語作為世界通用語,日漸與源文化分離,不斷產(chǎn)生區(qū)域變體,中國(guó)英語就是英語在中國(guó)本土化之后的使用變體。葛傳?耍?1980:91-93)提出,中國(guó)英語是以規(guī)范英語為核心,表達(dá)中國(guó)社會(huì)文化諸領(lǐng)域特有事物,不受母語干擾,通過英譯、借譯及語義再生諸多手段進(jìn)入英語交際,具有中國(guó)特點(diǎn)的詞匯、句式或語篇。汪榕培(1991:1-8)肯定中國(guó)英語是客觀存在的,國(guó)際著名語言類期刊“World Englishes ”2002年第2期也曾集中刊發(fā)了15篇中國(guó)英語研究方面的論文,可見,中國(guó)英語研究也成為世界英語變體研究的熱點(diǎn)之一。金惠康(2003:72-79)認(rèn)為,中國(guó)英語是介紹華夏文明的橋梁,能填補(bǔ)詞匯空白、文化空白和中國(guó)意念的空白。這些空白標(biāo)志著中國(guó)文化中特有事物的詞組和短語,即中國(guó)文化負(fù)載詞,從中可以了解中華民族的價(jià)值觀、思維方式和風(fēng)土人情。

      中國(guó)英語文化負(fù)載詞匯是中國(guó)英語的重要組成部分,其承載的信息量絕不亞于句法和語篇。雖然國(guó)內(nèi)有學(xué)者也注意到了中國(guó)英語文化負(fù)載詞匯所折射出的文化身份和意識(shí)形態(tài),但這方面鮮有系統(tǒng)性的實(shí)證研究,故本文將對(duì)2015《政府工作報(bào)告》的中國(guó)文化負(fù)載詞匯英譯策略和英譯方法展開較為系統(tǒng)的研究。

      二、研究意義和視角

      《政府工作報(bào)告》(以下簡(jiǎn)稱《報(bào)告》)屬政論文體,用詞嚴(yán)謹(jǐn),書面語特征明顯,是對(duì)上一年工作的總結(jié)和新一年工作的部署?!秷?bào)告》的英譯不僅具有傳達(dá)貫徹黨和國(guó)家大政方針的重要職能,也是他國(guó)了解我國(guó)國(guó)情、方針政策、政治制度、政治立場(chǎng)等最權(quán)威的來源(王小萍,2006:109)。《報(bào)告》作為典型的外宣文件,每個(gè)詞的英譯都要仔細(xì)斟酌其政治影響。中國(guó)外交部官員王弄笙(2004:56-59)曾指出,譯文必須準(zhǔn)確無誤地反映原文,不能偏離原意,更不能曲解原意。

      隨著中國(guó)社會(huì)的不斷發(fā)展,大量反映時(shí)代思想和風(fēng)貌的新詞不斷涌現(xiàn)。詞匯作為語言中最活躍的因素不斷更新變化,日益頻繁的國(guó)際交往也使得詞匯的翻譯成為了語言中變化最快的部分。(楊原,2006:103-105)早在1991年,Newmark就在其專著《關(guān)于翻譯》(About Translation)中獨(dú)辟一章討論了政治文化負(fù)載詞匯的特點(diǎn)和英譯策略,可見外宣文化交際中詞匯翻譯的重要性。

      德國(guó)功能派翻譯理論始于1971年,“目的論”是其核心理論。功能目的論的理論基礎(chǔ)是行為主義,認(rèn)為人的行為是在特定的情況下發(fā)生的有目的的行為,翻譯是在目的語情景中為某種目的及目的的受眾而生產(chǎn)的語篇(Nord,1997)。

      功能目的論有三大法則:目的法則、連貫法則和忠實(shí)法則,后兩者必須服從于目的法則。作為一種有目的的跨文化交際活動(dòng),翻譯的目的決定了翻譯的策略?!秷?bào)告》英譯的目的是溝通(王惠,2011),即與世界各國(guó)進(jìn)行平等的文化交流,過度使用異化或歸化的翻譯策略都是不得體的。

      三、語料統(tǒng)計(jì)

      本文將以Antconc3.2作為語料庫(kù)檢索工具,通過國(guó)務(wù)院英文官網(wǎng)對(duì)2015年《報(bào)告》的報(bào)道及中共中央編譯局對(duì)2015年《報(bào)告》重要術(shù)語的譯文發(fā)布建立兩個(gè)小型的語料庫(kù)。

      《報(bào)告》英譯本的詞匯主要有以下三個(gè)特征:

      一、大量實(shí)詞的使用;

      二、文體正式,動(dòng)詞名詞化現(xiàn)象顯著;

      三、解釋性名詞頗具中國(guó)特色(李楠芳,2012:110)。本文通過統(tǒng)計(jì)2015年《報(bào)告》英譯本前100個(gè)高頻詞,以揭示2015年中國(guó)社會(huì)發(fā)展變化的軌跡和本屆中國(guó)政府的工作重心,語料數(shù)據(jù)及分析如下。

      1.“We”“we”詞頻排名第5、第19,總計(jì)出現(xiàn)419次;“China”“Chinese”詞頻排名第16、第19,總計(jì)出現(xiàn)101次;“government”“governments”詞頻排名第20、第92,總計(jì)出現(xiàn)91次,表明2015《報(bào)告》中“我們(的)”、“中國(guó)(的)”、“政府”是主體?!癲evelopment”“develop”詞頻排名第10、第15,總計(jì)出現(xiàn)169次,表明“發(fā)展”是《報(bào)告》主旋律。

      2.“reform”詞頻排名第5、第19,總計(jì)出現(xiàn)419次,表明2015《報(bào)告》“改革”是主基調(diào)?!癿ore”“improve”“increase”“promote”“growth”等表示增長(zhǎng)含義的詞語在《報(bào)告》前100高頻詞中占11個(gè),總計(jì)出現(xiàn)445次,表明“改革”的目的是為了促進(jìn)國(guó)家各方面的提升發(fā)展。

      3.“policies”“policy”詞頻排名第82、第88,總計(jì)出現(xiàn)44次;“economic”“economy”詞頻排名第36、第68,總計(jì)出現(xiàn)76次;“market”“investment”詞頻排名第58、第62,總計(jì)出現(xiàn)52次;“education”“innovation”詞頻排名第77、第79,總計(jì)出現(xiàn)48次,表明2015《報(bào)告》對(duì)政治、經(jīng)濟(jì)、教育、創(chuàng)新等各方面提出了“改革”。

      4.網(wǎng)絡(luò)領(lǐng)域

      直譯

      原文:制定“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合。

      譯文:We will develop the “Internet Plus” action plan to integrate the mobile Internet,cloud computing,big data,and the Internet of Things with modern manufacturing,“互聯(lián)網(wǎng)+”是指創(chuàng)新互聯(lián)網(wǎng)發(fā)展的新形態(tài)和新業(yè)態(tài),促進(jìn)者經(jīng)濟(jì)形態(tài)的轉(zhuǎn)變,為中國(guó)經(jīng)濟(jì)的發(fā)展提供了廣闊的網(wǎng)絡(luò)平臺(tái)。The “Internet Plus” action plan 采用直譯的翻譯方法準(zhǔn)確忠實(shí)地表達(dá)了“互聯(lián)網(wǎng)+”這一新詞的內(nèi)在涵義。

      5.教育領(lǐng)域

      意譯

      原文:提供跟多優(yōu)秀文藝作品,倡導(dǎo)全民閱讀,建設(shè)書香社會(huì)。

      譯文:We will ensure that more outstanding works of literature and art are created for the people to enjoy,and encourage a love of reading in all our people to build a nation of avid readers.“書香社會(huì)”的文化內(nèi)涵在于倡導(dǎo)“全民閱讀”,建設(shè)學(xué)習(xí)型社會(huì)。“avid”意為“熱衷的,熱切的”,用“avid readers” 體現(xiàn)全民閱讀的氛圍,以名詞化結(jié)構(gòu)“a nation of avid readers”對(duì)“書香社會(huì)”進(jìn)行意譯,傳達(dá)了豐富的內(nèi)在含義,簡(jiǎn)潔明了的表述也有助于語篇得到的銜接,體現(xiàn)了功能目的論的連貫法則。

      五、結(jié)語

      本文運(yùn)用語料庫(kù)的研究方法,在德國(guó)功能目的論的研究視角下,對(duì)2015《報(bào)告》的中國(guó)文化負(fù)載詞進(jìn)行了較為全面的英譯方法分析。中國(guó)文化的輸出,在很大程度上取決于翻譯工作的力量。(黃友義,2008:6-9)報(bào)告》的中國(guó)文化負(fù)載詞匯英譯需在“目的法則”的指導(dǎo)下,貼近中國(guó)發(fā)展的實(shí)際、貼近國(guó)外受眾對(duì)中國(guó)信息的需求、貼近國(guó)外受眾的思維習(xí)慣,(黃友義,2004:27-28)采用靈活多變的翻譯策略和翻譯方法,才能實(shí)現(xiàn)《報(bào)告》外宣目的,讓世界了解中國(guó),向世界傳播中國(guó)的聲音。在當(dāng)今的全球化語境下,本研究對(duì)提高中華文化軟實(shí)力和國(guó)際影響力、推動(dòng)中華文化走向世界、增強(qiáng)中華文化在世界文化交流中的話語權(quán)、切實(shí)維護(hù)國(guó)家文化安全方面具有重要的現(xiàn)實(shí)意義。

      【參考文獻(xiàn)】

      [1] Nord,C.Translating as a Purposeful Activity Functionalist Approaches Explained[M].Manchester:St.Jerome Publishing,1997,7

      [2]黃友義.堅(jiān)持“外宣三貼近原則”處理好外宣翻譯中的難點(diǎn)問題[J].中國(guó)翻譯,2004(6):27-28

      [3]黃友義.發(fā)展翻譯事業(yè),促進(jìn)世界多元化文化的交流與繁榮[J].中國(guó)翻譯,2008(4):6-9

      [4]金惠康.漢英跨文化交際中的CHINA ENGLISH[J].廣東職業(yè)技術(shù)師范學(xué)院學(xué)報(bào),2002(2):72-79

      [5]李楠芳.《政府工作報(bào)告》英譯本的詞匯特征[J].湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào),2012(11):110-112

      [6]王惠.從目的論角度看《政府工作報(bào)告》的中譯英[D].北京:外交學(xué)院,2011.[7]王弄笙.十六大報(bào)告漢英翻譯的幾點(diǎn)思考[J].中國(guó)翻譯,2004(1):56-59

      [8]汪榕培.中國(guó)英語是客觀存在[J].解放軍外語學(xué)院學(xué)報(bào),1991(1):1-8

      [9]王小萍.中國(guó)黨政熱點(diǎn)詞語英譯[M].廣州:廣東人民出版社,2006:109

      [10]王銀泉.“福娃”的英譯之爭(zhēng)與文化負(fù)載詞的漢英翻譯策略[J].中國(guó)翻譯,2006(3):74-76

      [11]楊原.有關(guān)中國(guó)特色的政治經(jīng)濟(jì)詞匯的英譯[J].邵陽(yáng)學(xué)院學(xué)報(bào),2006,5(2):103-105

      [12]張順生.談俗語“打鐵還須自身硬”的英譯[J].上海翻譯,2013(2):54-56.

      第五篇:如何利用語料庫(kù)輔助語言教學(xué)與研究(BNC)

      如何利用語料庫(kù)輔助語言教學(xué)與研究(BNC)

      一、緒言

      語料庫(kù)是專門用于語言材料檢索和統(tǒng)計(jì)的工具,包括為某一目的而收集的大量電子文本(加標(biāo)注或未加標(biāo)注)和專門的語料檢索和管理程序。其最大的特點(diǎn)是能快速提供大量真實(shí)的語言材料并進(jìn)行相關(guān)統(tǒng)計(jì)(如詞頻和搭配詞等),已廣泛運(yùn)用于詞典、教材、語法書和詞匯表等的編纂及語言研究中。然而,語料庫(kù)在日常外語課堂教學(xué)和學(xué)生自主學(xué)習(xí)中并沒有得到廣泛運(yùn)用,至少在中國(guó)是如此。這一方面是由于對(duì)語料庫(kù)在教學(xué)中的運(yùn)用缺乏有力推廣,加價(jià)格、市場(chǎng)等因素使得購(gòu)買商用語料庫(kù)有難度,自己建設(shè)語料庫(kù)又需花費(fèi)較大精力,另一方面人們對(duì)如何獲取網(wǎng)上免費(fèi)語料庫(kù)資源缺乏了解。

      語料庫(kù)在日常英語課堂教學(xué)和學(xué)生自主學(xué)習(xí)中能夠起到多種作用。作為一種高效的語言檢索工具,它所提供的大量真實(shí)語言實(shí)例能提示從構(gòu)詞、詞短語到句法結(jié)構(gòu)乃至語篇幾乎所有語言單位的語言生態(tài)(language ecology),包括語境、搭配規(guī)律、使用頻率、語義和語用等。語料庫(kù)的獲得和個(gè)人建設(shè)雖然面臨諸多困難,但幸運(yùn)的是,開放的互聯(lián)網(wǎng)為廣大英語教師和英語學(xué)習(xí)者提供了接觸和使用語料庫(kù)的機(jī)會(huì)。

      二、網(wǎng)絡(luò)語料庫(kù)的運(yùn)用 1.英語單語語料庫(kù)

      目前,語料庫(kù)運(yùn)用于日常英語課堂教學(xué)的主要還是英語單語語料庫(kù),互聯(lián)網(wǎng)上的情況也是如此。網(wǎng)上有許多大型通用語料庫(kù)(單語)提供在線檢索,其免費(fèi)服務(wù)雖功能有所限制,但已能滿足中學(xué)英語教學(xué)和學(xué)生自主學(xué)習(xí)的需求。如1億詞次的英語國(guó)家語料庫(kù)(BNC)(http://view.byu.edu/)和5600萬詞次的柯林斯在線詞庫(kù)(Collins Wordbanks Online)(004km.cnbination),并能指定檢索詞詞性,功能強(qiáng)大,檢索方便,可在日常中學(xué)英語教學(xué)中加以運(yùn)用。

      1)提供語用實(shí)例

      語料庫(kù)在線檢索在日常英語課堂教學(xué)中最常見的用途是提供大量典型語例。當(dāng)傳統(tǒng)方法(如詞典)無法提供足夠的典型例句時(shí)就可檢索網(wǎng)上語料庫(kù)。如“wet”一詞語義很豐富,而其動(dòng)詞用法在教學(xué)中關(guān)注不多,詞典也沒有提供足夠的語用信息。利用以上語料庫(kù)在線檢索(此處指柯林斯,檢索表達(dá)式為“wet/VERB”,詳細(xì)用法參見檢索頁(yè)使用說明),便可呈現(xiàn)它作動(dòng)詞時(shí)的大量語用實(shí)例,下面是部分檢索行實(shí)例(concordance line)(經(jīng)過整理):

      Wet your face thoroughly before using the product.Yeah, They wet their pants and cry a lot.“[p]No.”She eased me, Sumner wet the bed every night.It would be impossible…

      對(duì)于詞匯的某一具體用法,如該詞的“wet the / one’s bed”,詞典就更缺少語用信息。為了解其實(shí)際使用狀況,如語境、使用頻率等可用該結(jié)構(gòu)做檢索詞進(jìn)一步檢索,通過大量真實(shí)的語例使學(xué)習(xí)者感性地認(rèn)識(shí)到本族語者確實(shí)廣泛地使用該用法,這能提高學(xué)習(xí)者語言輸出的信心和質(zhì)量。下面是從柯林斯檢索獲取的部分例子:

      (1)Even dry children may wet the bed under stress, like a change of school, a divorce or moving house.(2)1982 found that one-third of normal 3-year-olds still wet three or more times a week.2)揭示搭配規(guī)律

      展示語言搭配規(guī)律是語料庫(kù)最主要的特色。搭配也是目前中學(xué)英語教學(xué)中常常被忽視的地方,這和教師對(duì)語言的認(rèn)識(shí)、對(duì)搭配的敏感程度及自身?yè)碛械拇钆淠芰γ芮邢嚓P(guān)。語料庫(kù)的運(yùn)用正好能提供大量的搭配信息,彌補(bǔ)英語非母語教師搭配能力的不足。其呈現(xiàn)形式也有助于提高教師和學(xué)生的搭配意識(shí)(collocational awareness)。從語料庫(kù)運(yùn)用于語言教學(xué)的角度,最直接的方法是根據(jù)檢索詞的特點(diǎn)將檢索行排序以突顯檢索詞左邊或右邊的搭配規(guī)律(謝家成,2004)。不過,由于網(wǎng)上語料庫(kù)檢索行缺乏排序功能,可將檢索行拷貝下來進(jìn)行手工整理歸納,限于篇幅,本文不便例示。

      除了通過檢索行直接觀察語言實(shí)例以發(fā)現(xiàn)和歸納語言搭配外,利用語料庫(kù)提供的基于統(tǒng)計(jì)方法自動(dòng)獲取的搭配詞也有助于搭配學(xué)習(xí)。最為有效的是一個(gè)稱為“詞語素描”(Word Sketches)的網(wǎng)站(004km.cne was high, say 90%, but the market went otherwise from your expectation? What did you do then? 2)Have you ever had a case where you did not know occurred and had to seek other’s advice? 搜索引擎不僅可用于揭示語言運(yùn)用規(guī)律,也可用于查詢沒有把握的英語表達(dá),觀察該表達(dá)是否被母語者廣泛使用。如漢語“小雨”,當(dāng)不能肯定其對(duì)應(yīng)英語表達(dá)是“small rain”或“l(fā)ight rain”,或者兩者皆可時(shí),我們便可以在網(wǎng)上搜索。不過我們應(yīng)充分認(rèn)識(shí)到開放的互聯(lián)網(wǎng)語料庫(kù)自身的不足,為保證語料的可靠性,需要查看網(wǎng)址來源、文章作者等以判斷某一語料是否來自英語本族語者。當(dāng)然,前文提到的網(wǎng)絡(luò)語料庫(kù)也可以用來驗(yàn)證有疑問的英語表達(dá),如“l(fā)ight rain”在BNC中檢索到47個(gè)語例,而“small rain”則只有一個(gè)語例,哪個(gè)更地道就顯而易見了。由此可見,專門的語料庫(kù)和直接利用網(wǎng)絡(luò)資源的開放語料庫(kù)各有優(yōu)勢(shì)和局限,適合不同類型問題的查詢。一般在專門的語料庫(kù)無法滿足需要時(shí),我們可求助規(guī)模更大的開放語料庫(kù);二者也可相互補(bǔ)充。

      四、結(jié)語

      充分且真實(shí)地道的語言輸入是外語學(xué)習(xí)的重要條件,網(wǎng)上各種語料庫(kù)工具正是提供這種資源的有效途徑之一。這些豐富而典型的實(shí)例無論是教師歸納講解,或是課堂實(shí)時(shí)演示,或是改編成練習(xí),或是學(xué)生自主檢索和探索學(xué)習(xí),都能極大促進(jìn)語言教學(xué)與學(xué)習(xí)效率,促進(jìn)所學(xué)語言內(nèi)化。由于語料庫(kù)的語料對(duì)中學(xué)生難免會(huì)有一些難度,教師對(duì)語例的選擇和歸納應(yīng)是不可或缺的工作。教師和學(xué)習(xí)者均應(yīng)具備強(qiáng)烈的語用實(shí)證意識(shí),對(duì)任何語言疑難問題、語用和搭配規(guī)律等都應(yīng)盡可能利用多種工具查詢,盡力尋求客觀而充分的解釋。

      參考文獻(xiàn):

      1.Eastment, D.(2003)Googling.ELT Journal,(1): 91-94)2.謝家成“個(gè)人英語教學(xué)語料庫(kù)的運(yùn)用”,《電化教學(xué)》2004年第2期

      下載語料庫(kù)研究綜述word格式文檔
      下載語料庫(kù)研究綜述.doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦