國內(nèi)語料庫建設(shè)一覽表

第一篇：國內(nèi)語料庫建設(shè)一覽表

類型

英語學(xué)習(xí)者語料庫（書面語及

口語）

平行語料庫

國內(nèi)語料庫建設(shè)一覽表

語料庫名稱及大小

中國學(xué)習(xí)者語料庫 CLEC（100萬）大學(xué)英語學(xué)習(xí)者口語語料庫 COLSEC(5萬)

香港科技大學(xué)學(xué)習(xí)者語料庫 HKUST Learner Corpus

中國英語專業(yè)語料庫 CEME(148萬)中國英語學(xué)習(xí)者口語語料庫 SECCL(100萬)

LINSEI-China(10萬)

碩士寫作語料庫 MWC(12萬)

漢英平行語料庫 PCCE 南大－國關(guān)平行語料庫英漢文學(xué)作品語料庫；

馮友蘭《中國哲學(xué)史》漢英對照語料庫

李約瑟(Joself Needham)《中國科學(xué)技術(shù)史》英漢對照語料庫

計算機專業(yè)的雙語語料庫；

柏拉圖(Plato)哲學(xué)名著《理想國》的雙語語料庫

英漢雙語語料庫(15萬對)

建設(shè)單位廣外、上海交大上海交大香港科技大學(xué) 南京大學(xué) 南京大學(xué) 華南師大華中科技大學(xué)

北外南京大學(xué)

外研社究所中科院軟件所

國際外語學(xué)習(xí)者英語口語語料庫中國部分國家語言文字工作委員會語言文字應(yīng)用研

英漢雙語語料庫：LDC香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語

特殊英語語料

庫

漢語語料庫

料31萬句子對

英漢雙語語料庫(100萬)，網(wǎng)上英漢語段電子詞典及網(wǎng)上電子英漢搭配詞典(1000萬)

英漢雙語語料庫(40-50萬句子對)

雙語語料庫(5萬多對)

對比語料庫 LIVAC(Linguistic variety in Chinese communities)平衡語料庫(Sinica Corpus)；樹圖語料庫(Sinica Treebank)

中國英語(China English)語料庫

軍事英語語料庫(Corpus of Military Texts)

新視野大學(xué)英語教材語料庫

漢語現(xiàn)代文學(xué)作品語料庫(1979年，527萬字)

現(xiàn)代漢語語料庫(1983年,2000萬字)中學(xué)語文教材語料庫(1983年,106萬8000字)

現(xiàn)代漢語詞頻統(tǒng)計語料庫(1983年,182萬字)國家級大型漢語均衡語料庫(2000萬字)《人民日報》語料庫(2700萬字)大型中文語料庫(5億字,10分庫)

中國科學(xué)院自動化研究所

東北大學(xué) 哈爾濱工業(yè)大學(xué) 北京大學(xué)計算語言學(xué)研究所

香港城市理工大學(xué)

臺灣河南師范大學(xué)

解放軍外語學(xué)院上海交通大學(xué) 武漢大學(xué) 北京航空航天大學(xué) 北京師范大學(xué) 北京語言學(xué)院國家語言文字工作委員會北京大學(xué)計算機語言學(xué)研究所

北京語言文化大學(xué)

現(xiàn)代漢語語料庫(1億字)

漢語新聞?wù)Z料庫；(1988年,250萬字)

標(biāo)準(zhǔn)語料庫(2000年,70萬字)

生語料庫(3000萬字)；《作家文摘》的標(biāo)注語料庫(100萬字)

現(xiàn)代自然口語語料庫

旅游咨詢口語對話語料庫和旅館預(yù)定口語對話語料庫

清華大學(xué)

山西大學(xué)

上海師范大學(xué) 中國科學(xué)院自動化所

中國社會科學(xué)院語言所

第二篇：國內(nèi)各銀行收費情況一覽表

國內(nèi)各銀行收費情況一覽表

銀行異地存取款收費比較

牡丹靈通卡中國工商銀行

異地ATM取款：異地本行ATM跨行取款每筆取款金額的1%，最低1元，最高50元；異地跨行ATM取款每筆手續(xù)費為2元+取款金額的1%，1%部分最低1元，最高50元；異地存款手續(xù)費：按存款金額的0.5%收取手續(xù)費，最低1元，最高50元。

異地取款手續(xù)費：按取款金額的0.5%收取手續(xù)費，最低1元，最高50元。

龍卡儲蓄卡中國建設(shè)銀行

異地ATM取款：異地本行ATM跨行取款每筆取款金額的1%，最低2元；異地跨行ATM取款每筆手續(xù)費為2元+取款金額的1%，1%部分最低2元；

異地存款手續(xù)費：按存款金額的0.5%收取手續(xù)費，最低2元，最高50元。

異地取款手續(xù)費：按取款金額的0.5%收取手續(xù)費，最低2元，不設(shè)上限。

一卡通招商銀行

異地ATM取款：異地本行ATM跨行取款每筆取款金額的0.5%；異地跨行ATM取款每筆手續(xù)費為2元+取款金額的0.5%；

異地存款手續(xù)費：按存款金額的0.5%收取手續(xù)費。

異地取款手續(xù)費：按取款金額的0.5%收取手續(xù)費。

太平洋借記卡交通銀行

異地ATM取款：異地本行ATM跨行取款每筆取款金額的0.8%；異地跨行ATM取款每筆手續(xù)費為2元+取款金額的0.8%；

異地存款手續(xù)費：存款金額的萬分之五，最低10元，最高50元

異地取款手續(xù)費：取款金額的1%，最低10元，最高100元

浦發(fā)銀行的東方儲蓄卡2007年以后收費標(biāo)準(zhǔn)：在全國任意一臺浦發(fā)銀行ATM機取款免費！在省內(nèi)（包括本市范圍）任意一臺其它銀行ATM機取款收費標(biāo)準(zhǔn)：1000以內(nèi)每筆2元，1000元以上免費！在省外任意一臺ATM機取款收費標(biāo)準(zhǔn)：千分之五，每筆最低五元，最高五十元！

深發(fā)展銀行卡本行異地取現(xiàn)交易金額的5%，同城跨行取現(xiàn)免費，異地跨行取現(xiàn)交易金額的5%+2元/筆，最低1元/筆

刷卡

無跨行之說，使用銀行卡在POS機上刷卡無論同城異地都不需要支付手續(xù)費的商家承擔(dān)所有手續(xù)費商家需要支付銀行1%的手續(xù)費如果商家以刷卡加收刷卡者手續(xù)費您完全可以拒絕然后打95516中國銀聯(lián)投訴熱線一經(jīng)核實銀聯(lián)會給以商家處罰嚴(yán)重的可以吊銷其POS機

各大銀行收費標(biāo)準(zhǔn)

銀行名稱開戶費年費掛失密碼掛失開辦或補換新卡

建設(shè)銀行 0元 10元 10元 10元 5元/卡

交通銀行 5元 10元 10元不詳 5元/卡

招商銀行 0元 0元 10元不詳 ———

深發(fā)行 10元 0元 5元 5元 5元/卡

浦發(fā)銀行 0元 0元 0元不詳 ———

各大銀行異地存款收費標(biāo)準(zhǔn)

銀行名稱每筆收費最低收費封頂收費

工商銀行百分之一 1元 50元

建設(shè)銀行千分之五 1元 50元

招商銀行千分之五 5元沒有

深發(fā)展千分之一 5元沒有

交通銀行萬分之五 10元 50元

浦發(fā)銀行免費免費免費

使用網(wǎng)上銀行收年費情況

工商銀行：有證書客戶每戶12元

建設(shè)銀行：36元/年

浦東銀行：暫時不收費

深圳發(fā)展銀行：免收費

注：工商銀行理財金賬戶客戶免收

目前，各銀行異地匯款通常都有兩種方式，一種是直接到銀行匯款的柜臺式匯款，一種則是通過網(wǎng)上銀行或電話銀行匯款。

中國工商銀行

手續(xù)費用：工商銀行提供兩種匯款方式，一是靈通卡匯款，手續(xù)費為匯款金額的1％，最低匯款手續(xù)費為1元，最高為50元。二是牡丹卡匯款，沒有匯款的手續(xù)費用。

網(wǎng)上銀行：每筆最低5元，最高為50元。

到賬時間：靈通卡匯款24小時內(nèi)到賬，牡丹卡匯款3～5個工作日到賬。

建設(shè)銀行

手續(xù)費用：最低手續(xù)費1元，最高手續(xù)費為50元。

網(wǎng)上銀行：每筆最低1元，最高不超過30元。

電話銀行：每筆最低1元，最高不超過40元。

到賬時間：分兩種情況，如果匯款的銀行是在聯(lián)網(wǎng)城市，匯款后兩小時即可到賬；否則，需

3～5個工作日才能到賬。

交通銀行

手續(xù)費用：同行之間匯款，收取0．05％手續(xù)費，最低10元，最高50元；跨行匯款收1％的手續(xù)費，最高收取50元。

到賬時間：即時到賬。

招商銀行

手續(xù)費用：分為兩種，一種是快速匯款，最低手續(xù)費5元，超過1000元，按0．5％收取費用，適合l萬元以內(nèi)匯款金額。另一種是電子匯款，最低手續(xù)費10元，匯款手續(xù)費為匯款金額的1％，最高為50元，適合1萬元以上匯款金額。

網(wǎng)上銀行：每筆收費5元，跨行匯款收費10元。

到賬時間：快速匯款即時到賬，電子匯款到賬時間為2～3個工作日。

國內(nèi)銀行匯款比較

目前各銀行匯款通常都有兩種方式，一種是直接到銀行匯款的柜臺式匯款，一種則是通過網(wǎng)上銀行或電話銀行匯款。

招商銀行

手續(xù)費用：分為兩種，一種是快速匯款，最低手續(xù)費5元，超過1000元，按0.5%收取費用。適合1萬元以內(nèi)匯款金額；另一種是電子匯款，最低手續(xù)費10元，匯款手續(xù)為匯款金額的1%，最高封頂手續(xù)費為50元，適合1萬元以上匯款金額。

到款時間：快遞匯款可以實時到賬；電子匯款到賬時間為2-3個工作日。

網(wǎng)上銀行：每筆收費5元?？缧袇R款收費10元。

缺點：如果低于500元的匯款，與其他銀行相比費用最高。通過網(wǎng)上銀行匯款時，如接收方為同行匯款，需要點擊“同行速匯”，否則統(tǒng)一按10元收費。

建設(shè)銀行

手續(xù)費用：最低手續(xù)費1元，最高手續(xù)費為50元。

匯款方式：匯款方必須持有銀行卡。

到款時間：分為兩種情況，如果匯款的銀行是在聯(lián)網(wǎng)城市，匯款后2小時內(nèi)即可到賬；如果匯款的銀行不在聯(lián)網(wǎng)城市，則需要3-5個工作日才能到賬。

網(wǎng)上銀行：每筆最低1元，最高不超過30元。

電話銀行：每筆最低1元，最高不超過40元。

缺點：在建行匯款，匯款方必須持有建行儲蓄卡方可匯款。如果沒有儲蓄卡，需要先花10元手續(xù)費辦理建行龍卡。盡管匯款最快在2個小時內(nèi)即可到賬，但收款方當(dāng)天無法查詢到賬明細。

工商銀行

手續(xù)費用：工商銀行提供兩種轉(zhuǎn)賬方式，一是靈通卡匯款，手續(xù)費為匯款金額的1%，最低匯款手續(xù)費為1元，最高為50元。二是牡丹卡匯款，沒有匯款的手續(xù)費用。

到賬時間：靈通卡匯款為24小時內(nèi)到賬，牡丹卡匯款為3-5個工作日內(nèi)到賬。網(wǎng)上銀行：每筆最低5元，最高為50元。

缺點：工商銀行通常人比較多，大中城市的工商銀行都需要排隊，辦理時間較長。網(wǎng)上銀行周末和節(jié)假日無法匯款。

交通銀行

手續(xù)費用：1000元以內(nèi)收1%的手續(xù)費，1000元以上收10元的手續(xù)費。交通銀行最大的特點是可以自動在匯款中扣手續(xù)費，甚至可以匯款方、收款方分擔(dān)手續(xù)費。

到賬時間：實時到賬。

缺點：網(wǎng)點少。

工行異地存款手續(xù)費，牡丹靈通卡按金額的0.5%收取，最低1元，最高50元。“理財金賬戶”客戶異地存款免費。牡丹信用卡、貸記卡、國際卡不收取。異地取款手續(xù)費，按金額的1%收取，最低1元，最高50元。“理財金賬戶”客戶異地取現(xiàn)手續(xù)費優(yōu)惠50%。目前個人網(wǎng)上銀行年費不收取。

電話銀行年費，各地區(qū)是否收取的情況不同，北京不收取。

工行匯款沒有“靈通卡匯款”和“牡丹卡匯款”的說法。牡丹信用卡、貸記卡異地?zé)o卡存款不收取手續(xù)費，1-2個工作日到賬。

轉(zhuǎn)賬匯款分為：

工行內(nèi)轉(zhuǎn)賬匯款（有收款賬號），正常情況下資金實時到賬。

工行內(nèi)轉(zhuǎn)賬匯款（無收款賬號）：款項會在第二個工作日營業(yè)終了前，匯至匯款人指定的收款網(wǎng)點。

跨行轉(zhuǎn)賬匯款：正常情況下資金當(dāng)日到收款銀行，具體到賬時間取決于收款行系統(tǒng)。轉(zhuǎn)賬匯款費用個人網(wǎng)上銀行與柜面是同一標(biāo)準(zhǔn)：

工行內(nèi)轉(zhuǎn)賬匯款：同城業(yè)務(wù)不收費，異地業(yè)務(wù)按交易金額1%收費，單筆最低收取1元，最高收取50元。理財金賬戶的客戶，手續(xù)費可減免50%。

跨行轉(zhuǎn)賬匯款：本異地跨行轉(zhuǎn)賬匯款手續(xù)費均按交易金額1%收費，單筆最低收取1元，最高收取50元。

1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨并且壓力大)4 we are short of parents’ care(我們?nèi)狈Ω改傅年P(guān)心)5 I used to be poor in English but now I am always able to make full marks.我過去英語很差，但現(xiàn)在我能夠取得滿分

6，crossing road can be dangerous if we are not careful enough.如果我們不足夠小心，過馬路可能危險。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來澆花。電腦可以用來做很多事情。（蘇文注意）

7，watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時間過度看電視會對我們學(xué)習(xí)不利，8，as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年，我常常遇到和你一樣的問題，這里一些建議給你。，as you know, our environment are becoming worse and worse nowadays 正如你所知，如今我們的環(huán)境正變得越來越差。

10．We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯

1，the more I want to memorize the words, the more difficult I find it 十（也可以替換為the harder）

我想記得的單詞越多時，我發(fā)現(xiàn)這個過程更難.2.一些凳子是由木材做的，另一些是塑料做的。所有凳子在中國生產(chǎn)的。

Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興)，my classmates always encourage me and give me a lot of help in study and life.(令我高興的是，我的朋友同學(xué)總是鼓勵我并且在我的學(xué)習(xí)生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級分成6個小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學(xué)校組織手拉手活動呼吁更多學(xué)生幫助孤獨老年人、4，I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長城，她大概是6500長，如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下，購物不是件困難的工作。只要一點鼠標(biāo)去選擇自己喜歡的物品，整個購物過程就完成了。你不需要走出房間，這看起來簡單快速。6．he is more interested in sports than computer games.他對體育的興趣多余電腦游戲節(jié)目 a growing number of students have learned about the shortcomings of going on-line.越來越多的學(xué)生已經(jīng)了解到上網(wǎng)的缺點

8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國與許多節(jié)假日如春節(jié)，中求節(jié)等等including 老師們提醒我們過馬路時要小心

Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉(zhuǎn)折，意思是凡事都有兩面性，A也是不例外（如此。

替換表達：Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優(yōu)點，但它的缺點不可以忽視，（這里用被動語態(tài)起強調(diào)作用）I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學(xué)會了如何交朋友而且學(xué)會了如何與人交流 great changes have taken place in our hometown（china）我的家鄉(xiāng)發(fā)生巨大的變化(詞句用一般現(xiàn)在時也ok 3the life of people is much better than ever before(時態(tài)比較)人民的生活比曾經(jīng)or過去好很多。

4we always waste water resource while millions of people in dry areas are in great need of water（while用法，用于兩者在同一件事情做對比）

我們總是浪費水資源而干旱地區(qū)成千上萬的人卻急需用水。

5there is a need for us to deal with the rubbish in cities and fight against the pollution 對于我們有必要處理城市垃圾,和與污染做斗爭。

6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7．We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達：and this can …..)因為樹可以進化空氣而且改善我們環(huán)境，我們不可以砍樹。這里的better 是動詞詞性。I need to spend more time studying in order to come true my dream 替換：so that , 9 I plan to go swimming instead of going shopping this afternoon。我計劃去釣魚而不是去購物（替換詞匯rather than.）

10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學(xué)生自行翻譯。

第四篇：語料庫語言學(xué)綜合

語料庫語言學(xué)基礎(chǔ)知識

2008-09-11 01:45:34| 分類：學(xué)術(shù)|舉報|字號訂閱

語料庫通常指為語言研究收集的、用電子形式保存的語言材料，由自然出現(xiàn)的書面語或口語的樣本匯集而成，用來代表特定的語言或語言變體。經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實，分析和研究語言系統(tǒng)的規(guī)律。語料庫已經(jīng)成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。

語料庫有多種類型，確定類型的主要依據(jù)是它的研究目的和用途，這一點往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫分成四種類型：（1）異質(zhì)的（Heterogeneous）：沒有特定的語料收集原則，廣泛收集并原樣存儲各種語料；（2）同質(zhì)的（Homogeneous）：只收集同一類內(nèi)容的語料；（3）系統(tǒng)的（Systematic）：根據(jù)預(yù)先確定的原則和比例收集語料，使語料具有平衡性和系統(tǒng)性，能夠代表某一范圍內(nèi)的語言事實；（4）專用的（Specialized）：只收集用于某一特定用途的語料。除此之外，按照語料的語種，語料庫也可以分成單語的（Monolingual）、雙語的（Bilingual）和多語的（Multilingual）。按照語料的采集單位，語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式，還可以分為平行（對齊）語料庫和比較語料庫，前者的語料構(gòu)成譯文關(guān)系，多用于機器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域，后者將表述同樣內(nèi)容的不同語言文本收集到一起，多用于語言對比研究。

語料庫建設(shè)中涉及的主要問題包括：

（1）設(shè)計和規(guī)劃：主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展性等。

（2）語料的采集：主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述，以及各類語料的比例以保持平衡性等。

（3）語料的加工：包括標(biāo)注項目（詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等）標(biāo)記集、標(biāo)注規(guī)范和加工方式。

（4）語料管理系統(tǒng)的建設(shè)：包括數(shù)據(jù)維護（語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理）、語料自動加工（分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等）、用戶功能（查詢、檢索、統(tǒng)計、打印等）。

（5）語料庫的應(yīng)用：針對語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題，研究和開發(fā)處理語料的算法和軟件工具。

我國語料庫的建設(shè)始于80年代，當(dāng)時的主要目標(biāo)是漢語詞匯統(tǒng)計研究。進入90年代以后，語料庫方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用，建立了各種類型的語料庫，研究的內(nèi)容涉及語料庫建設(shè)中的各個問題。90年代末到新世紀(jì)初這幾年是語料庫開發(fā)和應(yīng)用的進一步發(fā)展時期，除了語言信息處理和言語工程領(lǐng)域以外，語料庫方法在語言教學(xué)、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。

語料庫與語言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語料庫方法的時候，在自然語言理解和生成、機器翻譯等研究中，分析語言的主要方法是基于規(guī)則的（Rule-based）。對于用規(guī)則無法表達或不能涵蓋的語言事實，計算機就很難處理。語料庫出現(xiàn)以后，人們利用它對大規(guī)模的自然語言進行調(diào)查和統(tǒng)計，建立統(tǒng)計語言模型，研究和應(yīng)用基于統(tǒng)計的（Statistical-based）語言處理技術(shù)，在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進展。另一方面，語言信息處理技術(shù)的發(fā)展也為語料庫的建設(shè)提供了支持。從字符編碼、文本輸入和整理，語料的自動分詞和標(biāo)注，到語料的統(tǒng)計和檢索，自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。

下面先簡要敘述1998年到2003年中國語料庫建設(shè)的基本情況，然后介紹語料庫的加工、管理和規(guī)范問題，最后談?wù)務(wù)Z料庫方法在語言研究和語言工程等方面的應(yīng)用。由于以前的《中國語言學(xué)年鑒》很少談及語料庫問題，為了盡可能全面地反映我國語料庫研究和應(yīng)用的情況，必要時會將時間上限向前延伸幾年。

二中國語料庫建設(shè)的基本情況

90年代末到新世紀(jì)初這幾年投入建設(shè)或開始使用的語料庫有數(shù)十個之多，不同的應(yīng)用目的使這些語料庫的類型各不相同，對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。

（一）現(xiàn)代漢語通用語料庫

這是一個由國家語言文字工作委員會主持建立、面向全社會應(yīng)用需求的大型通用語料庫，從90年代初開始建設(shè)，計劃規(guī)模7000萬字，主要應(yīng)用目標(biāo)是語言文字信息處理、語言文字規(guī)范和標(biāo)準(zhǔn)的制定、語言文字的學(xué)術(shù)研究、語文教育、以及語言文字的社會應(yīng)用。

這個語料庫收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是1919年至今，主要是1977年至今出版的教材、報紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計原則上，講求通用性、描述性、實用性和抽樣的科學(xué)性。在語料分類方面，以“門類為主，語體為輔”為原則制定三個大類：

第一類：人文與社會科學(xué)類（包括8個次類、30個細類）1．政法類：哲學(xué) 政治宗教法律 2．歷史類：歷史考古民族

3．社會類：社會學(xué) 心理語言文字教育文藝?yán)碚?新聞民俗

4．經(jīng)濟類：工業(yè)經(jīng)濟農(nóng)業(yè)經(jīng)濟政治經(jīng)濟財貿(mào)經(jīng)濟 5．藝術(shù)類：音樂美術(shù) 舞蹈戲劇

6．文學(xué)類：小說散文傳記報告文學(xué) 科幻口語 7．軍體類：軍事體育 8．生活類

第二類：自然科學(xué)類（包括6個次類）1．?dāng)?shù)理類 2．生化類 3．天文地理類 4．海洋氣象類 5．農(nóng)林類 6．醫(yī)藥衛(wèi)生類

第三類：綜合類（包括6個次類，30多個細類）

1．行政公文類：請示報告批復(fù) 命令指示布告紀(jì)要通知等

2．章程法規(guī)類：章程條例細則制度公約辦法法律條文等 3．司法文書類：訴訟辯護詞控告信委托書等 4．商業(yè)文告類：說明廣告調(diào)查報告經(jīng)濟合同等

5．禮儀辭令類：歡迎詞賀電訃告唁電慰問信祝酒詞等 6．實用文書類：請假條檢討申請書請愿書等

在不同類別、不同來源、不同時期的語言材料中，按照不等密度的思路確定合適的語料選取比例，從共時和歷時兩個角度保證入選語料的平衡性，是這個語料庫的特點。譬如，在語言材料的年限方面，選材比例是：

1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語言材料的門類、語體和來源方面，選材比例是：

人文與社會科學(xué)類占59.6%。其中各個次類在本大類中的比例是：

政法 12.7% 歷史 8.4% 社會 14.0% 經(jīng)濟 9.8% 藝術(shù) 6.7% 文學(xué) 44.9% 軍體 2.3% 生活 1.4% 自然科學(xué)類占17.24%。其中各個次類在本大類中的比例是：

數(shù)理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農(nóng)林 22.8% 醫(yī)藥衛(wèi)生 17.7% 綜合類占9.36%。其中各個次類在本大類中的比例是：

各類應(yīng)用文 91.1% 其他 8.9% 報紙類占13.79%。其中各個次類在本大類中的比例是：全國性報刊 25% 省市報刊 75% 這個語料庫在選材過程中收集和記錄語料的有關(guān)描述信息，為每個語料樣本設(shè)立了20個描述項目：總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號（版面號）、版次（初版日期）、印冊數(shù)、總頁數(shù)、開本、選樣方式、樣本起止頁數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡字。用戶可以利用這些語料描述標(biāo)記根據(jù)各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步，第一步先建立核心語料庫（由7000萬字的語料中篩選出2000萬字語料組成）。到90年代末，完成了2000萬字生語料的收錄工作。從2001年開始，對2000萬字核心語料進行分詞和詞性標(biāo)注加工。

（二）《人民日報》標(biāo)注語料庫

《人民日報》標(biāo)注語料庫由北京大學(xué)計算語言學(xué)研究所和日本富士通公司合作，從1999年開始，到2002年完成，原始語料取自1998年全年的《人民日報》，共約2700萬字，到2003年又?jǐn)U充到3500萬字，是我國第一個大型的現(xiàn)代漢語標(biāo)注語料庫。這個語料庫加工的項目有詞語切分和詞性標(biāo)注，還有專有名詞（人名、地名、團體機構(gòu)名稱等）標(biāo)注、語素子類標(biāo)注、動詞、形容詞的特殊用法標(biāo)注和短語型標(biāo)注。下面是一段語料標(biāo)注的示例，對于1998年1月1日第5版第1篇文章的第11段：

我國的國有企業(yè)改革見成效。位于河南的中國一拖集團有限責(zé)任公司面向市場，積極調(diào)整產(chǎn)品結(jié)構(gòu)，加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機生產(chǎn)線。（趙鵬攝）

標(biāo)注后的形式是：

19980101-05-001-011/m 我國/n 的/u 國有/vn 企業(yè)/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責(zé)任/n 公司/n]nt 面向/v 市場/n，/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n，/w 加快/v 技術(shù)/n 改造/vn 和/c 新/a 產(chǎn)品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機/n 生產(chǎn)線/n。/w（/w 趙/nr 鵬/nr 攝/Vg）/w 在每一個切分出來的詞和標(biāo)點符號后面，是該詞語的標(biāo)記。譬如詞性標(biāo)記（n，v，a，u，m，w等），專有名詞標(biāo)記（nr，ns，nz等），語素子類標(biāo)記（Vg等），動詞和形容詞特殊用法標(biāo)記（vn，ad）。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫，在一個加工規(guī)范的指導(dǎo)下標(biāo)注的。

利用《人民日報》標(biāo)注語料庫，人們可以從各個角度考察和分析語言事實，統(tǒng)計各種語言單位出現(xiàn)的頻率，譬如，詞語或詞類的分布、搭配和共現(xiàn)，專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn)，語素字的使用情況，等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比，經(jīng)過標(biāo)注的“熟語料”顯然含有更多的語言學(xué)特征信息，對漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識資源。

《人民日報》標(biāo)注語料庫中一半的語料（1998年上半年）共1300萬字已經(jīng)通過《人民日報》新聞信息中心公開提供許可使用權(quán)。其中一個月的語料（1998年1月）近200萬字在互聯(lián)網(wǎng)上公布，供自由下載。

（三）用于語言教學(xué)和研究的現(xiàn)代漢語語料庫

建立現(xiàn)代漢語語料庫的主要目的之一是對外漢語教學(xué)和現(xiàn)代漢語研究，可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學(xué)的漢語中介語語料庫、現(xiàn)代漢語研究語料庫，后者如中國社會科學(xué)院語言研究所的北京地區(qū)現(xiàn)場即席話語語料庫。

漢語中介語語料庫的建設(shè)目標(biāo)是為對外漢語教學(xué)、中介語研究、偏誤分析和漢語本體研究提供資源，因此它的語料來源很有對外漢語教學(xué)的特點。作者先在北京和其他省市的9所高等院校里，從來自96個國家和地區(qū)的1635位外國留學(xué)生那里收集了成篇成段的漢語作文或練習(xí)材料5774篇，共3528988字。再從中抽取了740人的1731篇語料，共有44218句，1041274字。全部語料都記錄了學(xué)生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學(xué)主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標(biāo)注以及一些專用的語言學(xué)特征標(biāo)注。例如，標(biāo)出了字、詞、句、篇等不同的層次，對語料的非規(guī)范形式（例如：錯字、別字、繁體字、拼音字、非規(guī)范詞等）做出索引標(biāo)記，記錄其對應(yīng)的規(guī)范形式。這個語料庫的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動標(biāo)注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能，分別處理語料庫的建立、管理和維護，以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比，中介語語料庫能夠更好地反映學(xué)生學(xué)習(xí)漢語的情況，幫助教師更加全面地觀察他們的學(xué)習(xí)過程，了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語作為第二語言的教學(xué)中，為教材編寫、課堂教學(xué)、測試等環(huán)節(jié)提供依據(jù)。

現(xiàn)代漢語研究語料庫的建設(shè)目標(biāo)是為語言學(xué)家提供一個研究平臺，由2000萬字的粗語料庫和200萬字經(jīng)過分詞和詞性標(biāo)注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物，有《人民日報》1000萬字，《中國新聞》500萬字，各種書籍250萬字，文學(xué)作品150萬字，準(zhǔn)口語材料（書面形式的對話、獨白）100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規(guī)定的比例由計算機隨機抽取的，有書面語語料160萬字，準(zhǔn)口語語料40萬字，是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標(biāo)注，作者制定了詞語切分的細則和詞性標(biāo)記體系的原則，采用了一個含有112個詞類標(biāo)記的標(biāo)記集，確定了兼類詞的處理方法。這個語料庫的管理系統(tǒng)具有建庫、檢索、瀏覽、統(tǒng)計、輸出等功能，可以按詞或詞類檢索，統(tǒng)計出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長、平均句長等結(jié)果。這個語料庫建成以后，很快應(yīng)用在現(xiàn)代漢語語法、漢語教學(xué)和漢語信息處理的研究中，研究內(nèi)容涉及現(xiàn)代漢語的插入語、漢語句子的主題-主語標(biāo)注、V+N序列實驗分析、詞性標(biāo)注中詞語歸類問題、動賓組合的自動獲取與標(biāo)注，等等。

建設(shè)北京地區(qū)現(xiàn)場即席話語語料庫的目的是，通過收集大量的現(xiàn)場即席話語語料研究現(xiàn)場即席話語的各種動態(tài)機制，以揭示現(xiàn)場即席話語的使用規(guī)律。這個語料庫的研究策略和取樣方法很有特點，首先是嚴(yán)格區(qū)分資源庫和語料庫，資源庫收集符合現(xiàn)場即席話語定義的錄音材料，語料庫收錄按照一定標(biāo)準(zhǔn)從資源庫提取出來的材料；另外在語料采樣前先做摸底性研究，通過研究對現(xiàn)場即席話語的真實情況有所了解，確定取樣域，再定取樣范疇，然后根據(jù)取樣范疇去錄現(xiàn)場典型材料，這是一種層次范疇化的取樣方法。這個語料庫目前正在建設(shè)之中，已經(jīng)取得了近600小時的錄音材料和50多小時的錄象材料。

在用于漢語研究的語料庫中，講究選材均衡，注重語料加工，同時也提供公開服務(wù)的，當(dāng)數(shù)臺灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規(guī)模為500萬個詞，每個句子都依詞斷開，標(biāo)示詞類標(biāo)記，并且配備了檢索系統(tǒng)，在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類，在不同的類別上盡量均衡地采集語料，是這個語料庫的特點之一。文本屬性用來說明文檔的呈現(xiàn)方式、文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處，包括7類，每類下設(shè)若干小類：

文類（文檔的呈現(xiàn)方式）

報導(dǎo)、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄文體（文章的寫作方式）記敘、論說、說明、描寫語式（文檔的呈現(xiàn)方式）

書面語、演講稿、劇本/臺辭、口語談話、會議記錄主題（文章寫作的內(nèi)容）

哲學(xué)、科學(xué)、社會、藝術(shù)、生活、文學(xué)

媒體報紙、一般雜志、學(xué)術(shù)期刊、教科書、工具書、學(xué)術(shù)論著、一般圖書、書信、視聽媒體、其它

作者姓名、性別、國籍、母語

出版出版單位、出版地、出版日期、版次

不同研究目的的語言學(xué)者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料，組成“自訂語料庫”，在“自訂語料庫”的范圍內(nèi)進行語料的檢索和統(tǒng)計。除了通常的按詞語、詞類的檢索和統(tǒng)計以外，這個語料庫的管理系統(tǒng)還提供了一種“進階處理”功能，對檢索出來的數(shù)據(jù)作進一步處理，對處理的結(jié)果還可以再次處理，形成多層的檢索結(jié)果。

（四）面向語言信息處理的現(xiàn)代漢語語料庫

90年代中后期，面向語言信息處理的現(xiàn)代漢語語料庫開始建立并投入應(yīng)用。其中最早開發(fā)的是清華大學(xué)用于研究和開發(fā)漢語自動分詞技術(shù)的現(xiàn)代漢語語料庫，經(jīng)過幾年的積累已達到8億多字生語料。在這個語料庫的支持下，用統(tǒng)計語言模型的方法研究了漢語自動分詞中的理論、算法和技術(shù)，編制了總數(shù)為9萬多個詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國漢語自動分詞技術(shù)的發(fā)展水平，詞表被許多漢語自動分詞系統(tǒng)作為底表使用，是不可缺少的基礎(chǔ)資源。

TH通用語料庫系統(tǒng)是清華大學(xué)建立的另一個現(xiàn)代漢語語料庫。這個語料庫有兩個特點，一是語料庫管理系統(tǒng)根據(jù)不同的加工深度，分四個等級管理語料。第一級是生語料分庫，有4千余萬字；第二級以上都是加工程度不同的熟語料庫，其中第二級存放經(jīng)過自動分詞并由人工校對過的初加工語料500余萬字；第三級存放經(jīng)過詞性標(biāo)注和人工校對的語料約300萬字；第四級是經(jīng)過句子成分標(biāo)注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個特點是在這個語料庫的支持下，進行了漢語信息處理技術(shù)的研究。譬如，采用以謂語為中心的句型成分分析與語料統(tǒng)計相結(jié)合的方法，自動分析漢語的句型，提出了一個“漢語句型頻度表”；在漢語文本中自動標(biāo)注句子成分和句型成分的邊界；根據(jù)指定的句型在語料庫里搜尋句子實例，等等。

HuaYu人工標(biāo)注語料庫是清華大學(xué)和北京語言大學(xué)合作建立的一個現(xiàn)代漢語平衡語料庫。這個語料庫按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度，除了詞語切分和詞性標(biāo)注以外，還根據(jù)語句中動詞的類型和句子的長度進行“語塊”標(biāo)注和“句法樹”標(biāo)注，目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計數(shù)據(jù)提供資源。下面分別是語塊標(biāo)注和句法樹標(biāo)注的示例。

對句子“自古以來，人類就重視檔案的保存和利用，設(shè)置館庫、選派專人進行管理。”進行語塊標(biāo)注以后得到的是一個無嵌套的線性序列，其中S是主語語塊，P是述語語塊，O是賓語語塊： [D 自/p 古/t 以來/f，/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN，/, [P 設(shè)置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書?！边M行句法樹標(biāo)注以后，得到的是一個與樹形結(jié)構(gòu)等價的線性序列：

[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

（五）用于開發(fā)特定語言分析技術(shù)的專用語料庫

這類語料庫是針對漢語信息處理技術(shù)的需要專門建立的。例如山西大學(xué)的專有名詞標(biāo)注語料庫和分詞與詞性標(biāo)注語料庫。

分詞與詞性標(biāo)注語料庫，規(guī)模為500萬字，帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。在這個語料庫的支持下，開發(fā)漢語自動分詞和詞性標(biāo)注軟件，研究自動分詞和詞性標(biāo)注的評測技術(shù)。為了解決漢語自動分詞中的切分歧義問題，還建立了交集型歧義字段庫和組合型歧義字段庫，專門收集這兩種類型的歧義切分實例。前者有7.8萬字，后者收錄了140多條。并且在分詞和詞性標(biāo)注語料庫里作了這兩類切分歧義的標(biāo)注。利用這些語料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象（既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段），發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍，可以達到90%以上。

專有名詞標(biāo)注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標(biāo)注了中國地名的語料280萬字，標(biāo)注了中國人姓名的語料300萬字，標(biāo)注了西文姓名的語料250萬字，標(biāo)注了漢語機構(gòu)名稱的語料50萬字，還有標(biāo)注了網(wǎng)絡(luò)新詞語的語料150萬字。利用這些語料，建立了中國地名用字、用詞庫，姓氏人名庫，姓氏用字頻率表，名字用字頻率表等，用統(tǒng)計語言模型的方法識別專有名詞。

（六）雙語語料庫

基于實例的機器翻譯（Example-based）需要大規(guī)模的雙語平行語料庫來支持。語料庫里的源語和目標(biāo)語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的，語料對齊的單位有句子級的、子句級的、短語級的，也有詞匯級的。機器翻譯系統(tǒng)把要翻譯的句子與語料庫里的源語實例進行對比，分析相似程度，找到最適合的源語實例，再參照與它對齊的目標(biāo)語實例生成譯文。用于這類機器翻譯系統(tǒng)的雙語語料庫必須有一定的規(guī)模，用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關(guān)鍵技術(shù)。

在目前已有的雙語語料庫中，哈爾濱工業(yè)大學(xué)的漢英平行語料庫已經(jīng)直接用來開發(fā)英漢雙向機器翻譯系統(tǒng)。這個語料庫有6萬個漢語和英語的句子，使用多級對齊加工技術(shù)，分別按照句子、短語結(jié)構(gòu)和詞一一對齊。中國科學(xué)院計算技術(shù)研究所的漢英雙語語料庫有20萬個句對，也完成了句子一級的對齊，并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國科學(xué)院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外，還有以語段或短語為單位收集的漢英雙語語料庫，譬如中國科學(xué)院自動化研究所的漢英雙語短語庫，有3~5萬對已對齊的漢語和英語短語。東北大學(xué)的英漢雙語語段庫，用來幫助建立電子版的英漢搭配詞典。

（七）面向漢語史研究的語料庫

面向漢語史研究的語料庫建設(shè)是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作，他們先收集上古漢語的語料，然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標(biāo)注，在該院信息研究所和計算中心的協(xié)助下進行標(biāo)注技術(shù)和檢索技術(shù)的開發(fā)。根據(jù)是否經(jīng)過分詞處理和詞性標(biāo)注，臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類：生語料庫和標(biāo)記語料庫。目前生語料庫收集的語料已涵蓋上古漢語（先秦至西漢）、中古漢語（東漢魏晉南北朝）、近代漢語（唐五代以后）的大部分重要文獻資料，并己陸續(xù)開放使用。在標(biāo)記語料庫方面，上古漢語及近代漢語都已有部分語料完成標(biāo)注工作，也逐步提供網(wǎng)上檢索。2001年底，開放了近代漢語標(biāo)記語料庫ＷＷＷ版供各界使用，首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面，除了常用的功能以外，還可以在顯示詞項及詞類的同時給出例句的出處，便于歷史語法的研究者使用。

多年來中國社會科學(xué)院語言研究所也一直在致力于文獻資料的建設(shè)，搜集整理了近代漢語書面語語料150萬字，中古近代漢語語料約1千萬字，部分語料已作了標(biāo)注。目前已經(jīng)完成了一個小型語料庫，包括：敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻，成為漢語史和語言學(xué)理論研究的重要資源。此外，語言研究所的先秦專書電子文檔有4部文獻，共約120萬字，并且已由古漢語學(xué)者逐篇逐句標(biāo)注了語法信息。

上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語史研究的方向，建立了歷史文獻語料庫。四川大學(xué)的中古漢語語料庫有1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學(xué)的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫，已用于“前四史”語言研究和唐宋詩詞語詞研究。

目前歷史文獻語料庫建設(shè)的特點是依托學(xué)科建設(shè)和研究方向，廣泛收集資料，注重?？本珜?。隨著漢語史研究和語料庫應(yīng)用的發(fā)展，資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享，首先要避免語料的重復(fù)收集，還要采用國際通用的標(biāo)準(zhǔn)處理語料文本，使語料能夠準(zhǔn)確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價值的基礎(chǔ)工作，從收集歷史文獻的電子文檔，到建成一個具有必要的語言學(xué)標(biāo)記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫，語料的加工是不可或缺的一步。

（八）比較語料庫

為了研究漢語在不同地區(qū)的使用情況，香港城市大學(xué)建立了LIVAC共時語料庫（Linguistic Variation in Chinese Speech Communities）。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙，以及電子媒介上的新聞報道。自1995年7月開始，每四天一次，收集這六個地區(qū)的對等書面語文本，每次約兩萬字。內(nèi)容包括新聞、特寫、評論等文章。到2003年上半年，已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月，囊括新舊世紀(jì)交接點前后各五年各地華語社區(qū)有代表性的重要語言數(shù)據(jù)，供漢語的各種共時比較研究使用。

在語料的組織和加工方面，這個語料庫用計算機自動分詞，再經(jīng)人工校對分類，可以依字、詞、句為基礎(chǔ)進行檢索，提供字、詞配搭、分布等數(shù)據(jù)，有統(tǒng)計功能。語言學(xué)家能通過這個語料庫考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語，還可以對具體字或詞的頻率作統(tǒng)計比較，對字詞的差別作計量分析。對研究華人社區(qū)的文化、社會、語言差異也有作用。這個語料庫的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

（九）少數(shù)民族語言語料庫

新疆大學(xué)從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫系統(tǒng)，計劃包括5個部分：語料庫、電子語法信息詞典、規(guī)則庫、統(tǒng)計信息庫和檢索統(tǒng)計軟件包。其中語料庫部分又分成生語料庫（經(jīng)初步整理的原始語料）和加工語料庫（經(jīng)過標(biāo)注和校對的語料）。目前已有生語料800萬詞。另外，新疆大學(xué)也正在以新聞領(lǐng)域的維漢-漢維機器翻譯為目標(biāo)，建設(shè)雙語平行語料庫。內(nèi)蒙古大學(xué)的中世紀(jì)蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現(xiàn)代蒙古語語料庫，研究了蒙古文附加成分的自動切分、復(fù)合詞的自動識別和語料的詞性標(biāo)注，獲得了詞頻統(tǒng)計、音節(jié)統(tǒng)計、詞類統(tǒng)計、附加成分統(tǒng)計等數(shù)據(jù)。西北民族大學(xué)建立了1億3千萬字節(jié)的大型藏文語料庫，用于藏文詞匯頻度和通用度的統(tǒng)計。中國社會科學(xué)院民族學(xué)與人類學(xué)研究所建立了500萬藏語字符的藏語語料庫，進行詞語切分和標(biāo)注的研究。新疆師范大學(xué)也建立了200萬詞的維吾爾語語料庫。

與漢語語料庫相比，少數(shù)民族語料庫的建設(shè)還需要解決一些特殊的問題，譬如拼音文字轉(zhuǎn)寫的標(biāo)準(zhǔn)和規(guī)范，詞語分類體系及其標(biāo)記集等。

到2003年，已建和在建的各種文本語料庫還有很多（包括書面語語料庫和以文本形式表示的口語語料庫），以上提到的只是有代表性的一部分。與文本語料庫相對的，是語音語料庫。語音語料庫不僅記錄語圖、聲學(xué)參數(shù)等語音學(xué)數(shù)據(jù)，還有句法、韻律等各種語言學(xué)信息標(biāo)記和副語言學(xué)信息標(biāo)記，可以在語音識別與合成系統(tǒng)中用來建立語音模型，用于語音研究、語音工程開發(fā)和漢語普通話教學(xué)等領(lǐng)域。語音技術(shù)是當(dāng)前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一，語音語料庫在科研和工程上有很高的使用價值。關(guān)于語音語料庫的詳細情況，請見“語音學(xué)和言語工程研究綜述”。

三語料庫的加工、管理和規(guī)范

（一）語料的加工

一個計算機語料庫的功能主要與三個因素有關(guān)，一是語料庫的規(guī)模，二是語料的分布，三是語料的加工程度。規(guī)模的大小關(guān)系到統(tǒng)計數(shù)據(jù)是否可靠，語料的分布涉及統(tǒng)計結(jié)果的適用范圍，語料加工的深度則決定這個語料庫能為使用者提供什么樣的語言學(xué)信息。

加工語料主要指文本格式處理和文本描述兩項工作，前者是對采集的語料文本進行整理，轉(zhuǎn)成統(tǒng)一的電子文本格式，例如數(shù)據(jù)庫格式、XML文本格式等。后者是描述每一篇語料樣本的屬性或特征，包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的屬性，例如語體、內(nèi)容所屬的領(lǐng)域、作者、寫作時間、來源出處等等，篇體描述是在文本里添加各種語言學(xué)屬性標(biāo)記，對于漢語書面語語料庫來說，常見的是詞語切分標(biāo)記、詞性標(biāo)記、專有名詞標(biāo)記，還有某些語法特征如短語標(biāo)記、子句標(biāo)記，或語義信息標(biāo)記，等等。對漢語書面語語料的加工一般是從詞語切分、詞性標(biāo)注，到語法、語義屬性標(biāo)注，按順序進行。標(biāo)注的信息逐步增多，語料加工的深度也就逐漸增加。人們通常把沒有篇體描述信息的語料叫做生語料。對漢語的生語料只能以字為單位進行檢索和統(tǒng)計。經(jīng)過詞語切分處理的語料，就能以詞為單位進行檢索、統(tǒng)計和定量分析。如果還作了詞性標(biāo)記，那么可以獲得的語言學(xué)信息就更多了。語料的標(biāo)注如果由人來做，當(dāng)然能夠保證準(zhǔn)確性，但是人工標(biāo)注對處理大規(guī)模的語料顯然不夠現(xiàn)實。所以幾乎每一個大規(guī)模語料庫的加工都需要借助自動化的手段，詞語自動切分、詞性自動標(biāo)注等就成為備受關(guān)注的語料加工技術(shù)。

自動分詞是我國最早開始研究的漢語信息處理技術(shù)之一。語料庫的建設(shè)開始以后，自動分詞技術(shù)在語料加工中又得到了應(yīng)用和發(fā)展。自動分詞和詞性自動標(biāo)注一般都需要一個詞典，作為分詞和詞性標(biāo)注的基礎(chǔ)。這個詞典與常用的語文詞典相比，收錄的詞目不大一樣，包括了語言學(xué)家認(rèn)可的詞，以及一些比詞小的單位（如語素字、詞綴等）和一些比詞大的單位（如成語、習(xí)語、簡稱略語等）。詞典中也包括詞類信息和其他語法信息。目前的自動分詞技術(shù)是基于字符串匹配原理的，有正向最大匹配、逆向最大匹配等基本算法。在切分過程中會出現(xiàn)歧義現(xiàn)象，如何處理歧義是自動分詞研究的重點之一，在這方面投入的研究也最多，先后提出了“短語結(jié)構(gòu)法”、“專家系統(tǒng)法”、“隱馬爾科夫模型”、“串頻統(tǒng)計和詞匹配”等辯識歧義的方法。識別未登錄詞是自動分詞研究的第二個重點。未登錄詞指沒有被分詞底表收錄的詞語，包括人名、地名、機構(gòu)名等專有名詞和新出現(xiàn)的詞語。對未登錄詞的識別一般以基于語料庫的統(tǒng)計語言模型方法為主。

詞性自動標(biāo)注通常與自動分詞同時進行，根據(jù)帶有詞類信息的分詞詞典，給切分出來的詞語標(biāo)上初始的詞類標(biāo)記。對于兼類詞，必須在句子里判斷類別。因此需要分析兼類詞語在上下文中的分布特點和語法功能，并用形式化的方式表達出來，作為詞性標(biāo)注系統(tǒng)排除兼類的規(guī)則。近年來，已經(jīng)有幾個自動分詞和詞性自動標(biāo)注系統(tǒng)投入了應(yīng)用，其中北京大學(xué)用自己研制的系統(tǒng)為《人民日報標(biāo)注語料庫》做分詞和詞性標(biāo)注的初加工，北京語言大學(xué)的自動分詞系統(tǒng)也成為其《面向語言教學(xué)研究的漢語語料檢索系統(tǒng)》中的關(guān)鍵技術(shù)。此外，經(jīng)過十幾年的研究和實踐，2001年發(fā)布了收錄9萬多詞語的《信息處理用現(xiàn)代漢語分詞詞表》和《現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。對于1993年制定的國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》的可操作性問題，也進行了積極的討論和實驗，提出了有效的解決方法。關(guān)于自動分詞和詞性自動標(biāo)注的詳細情況，請見“計算語言學(xué)和自然語言信息處理研究綜述”。

經(jīng)過分詞的語料，除了標(biāo)注詞性以外，還可以進一步標(biāo)注其他語言學(xué)屬性，譬如韻律、語調(diào)、短語結(jié)構(gòu)、句法結(jié)構(gòu)、語義關(guān)系等等。句子的語法結(jié)構(gòu)需要有形式化的方式來表達，大多數(shù)語料庫或者采用短語結(jié)構(gòu)樹，或者采用依存語法樹的方式，這樣標(biāo)注過的語料庫就成為短語樹庫或句法樹庫。一般情況下，在詞性標(biāo)注的基礎(chǔ)上再作進一步的語法標(biāo)注加工，多以人工為主，也有關(guān)于自動短語定界和句法信息自動標(biāo)注的研究和實驗。目前已有的漢語短語庫、句法樹庫規(guī)模都不大，至多百萬詞級。

在雙語語料庫的建設(shè)中，除了上述語料加工項目以外，還有一項不可缺少的語料加工任務(wù)：雙語語料對齊。語料對齊分為段落、句子、子句、短語和詞語幾個不同的層次。如果考慮用計算機程序做自動對齊，不同的層次要解決的問題各不相同。每種語言的段落都有可識別的標(biāo)志，因此段落的對齊最容易實現(xiàn)，句子的對齊在印歐語言之間比它們和漢語之間要容易，詞語的對齊需要借助詞典，句子內(nèi)的各種結(jié)構(gòu)要自動對齊則是最難的。目前雙語自動對齊技術(shù)的研究主要是針對句子和句子內(nèi)的結(jié)構(gòu)，采用的方法有基于長度的、基于詞典的，或者是這兩種方法的混合策略。

（二）語料庫管理系統(tǒng)

經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫，還應(yīng)該有一個功能齊備的管理系統(tǒng)，包括數(shù)據(jù)維護（語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理）、語料自動加工（分詞、標(biāo)注、文本分割、合并、語料對齊、標(biāo)記處理等）、用戶服務(wù)功能（查詢、檢索、統(tǒng)計、打印等）。其中數(shù)據(jù)維護部分主要涉及漢字字符處理、文本處理、文件管理等計算機程序設(shè)計技術(shù)。語料自動加工部分的主要內(nèi)容是自動分詞、各種語言學(xué)屬性的標(biāo)注技術(shù)，已經(jīng)在前面專門介紹過了。這里主要談?wù)劽嫦蛴脩舻恼Z料檢索、統(tǒng)計和分析技術(shù)。

語料檢索是一種全文檢索技術(shù)，但是也有自己的特點，僅用普通的全文檢索技術(shù)還不能滿足語料檢索的需要。這是因為，全文信息檢索關(guān)心的是檢索目標(biāo)的意義，不是檢索目標(biāo)的語言表述形式。而面向語言研究的語料檢索則特別注重語言的表述形式，它既需要按照字、字串和詞檢索，也需要把詞語的語言學(xué)屬性作為檢索的目標(biāo)和約束條件，還要求把檢索的結(jié)果或目標(biāo)的出處按照研究的需要排序、輸出。除此之外，還要有字頻、詞頻和特定語言形式出現(xiàn)頻率的統(tǒng)計功能。

對漢語生語料的檢索和統(tǒng)計是以字或字串為單位進行的。這一類檢索系統(tǒng)主要以單字索引和字符串匹配為關(guān)鍵技術(shù)，由于把詞語當(dāng)作字串來檢索，所以檢索結(jié)果中經(jīng)常出現(xiàn)“非詞”的問題。例如要查找“出警”，檢索結(jié)果中除了“迅速出警”、“拒絕出警”、“出警次數(shù)”等實例以外，“發(fā)出警告”、“放出警犬”等也混在其中。為了解決這些問題，常常需要為字符串匹配的檢索表達式另外設(shè)置限制條件。這些限制條件大多是個性的，只能排除一部分“非詞”的實例。要想從根本上解決這個問題，就必須對語料作詞語切分。經(jīng)過詞語切分處理的熟語料，能以詞為單位進行檢索、統(tǒng)計和定量分析。但是熟語料庫的加工代價很高，而且對于語料的詞語切分和詞性標(biāo)注，目前還沒有既成熟又便于操作的規(guī)范，所以近年來，面向生語料庫的檢索技術(shù)一直在廣泛應(yīng)用，并且在用戶功能方面不斷發(fā)展。譬如，可以對用戶給出的任何生語料快速生成索引；可以使用具有復(fù)合邏輯關(guān)系的檢索表達式；可以按照漢字、拼音、筆畫對檢索結(jié)果的上下文自動排序；可以提供檢出實例的來源、出處；可以按字頻統(tǒng)計的數(shù)據(jù)排序；檢索結(jié)果和統(tǒng)計結(jié)果既可以按文本形式輸出，也可以按數(shù)據(jù)庫形式輸出；還可以通過網(wǎng)絡(luò)支持多用戶遠程檢索。

對于經(jīng)過詞語切分處理和詞性標(biāo)注的熟語料庫，除了所有生語料的檢索功能以外，語料檢索系統(tǒng)還可以把詞語或詞性作為檢索的關(guān)鍵字或限制條件，得到關(guān)于這些語言學(xué)屬性的檢索和統(tǒng)計結(jié)果，并按各種排序和輸出形式的提供給用戶。語言學(xué)屬性來自語言學(xué)家對漢語的研究，研究過程中有各種觀點和認(rèn)識，從詞的定義到詞類的確定，一直還沒有統(tǒng)一的意見。另一方面，人們檢索語料時的目的也各不相同，有的關(guān)心詞匯問題，有的關(guān)心語法現(xiàn)象，還有的目標(biāo)是漢語信息處理的應(yīng)用問題。因此對于熟語料庫檢索來說，一個好的檢索系統(tǒng)應(yīng)該能夠包容各種不同的語言學(xué)觀點，可以用于不同的檢索目的。

為了做到這一點，通常采用的辦法是，把用于語料庫自動分詞的底表和附著于底表的詞性、構(gòu)詞等屬性都看作語言學(xué)屬性表，使這個屬性表與檢索系統(tǒng)的程序相互獨立，檢索系統(tǒng)只把屬性標(biāo)記作為抽象的字符串處理，而把建立屬性表的工作交給用戶。以北京語言大學(xué)的《面向語言教學(xué)研究的漢語語料檢索系統(tǒng)》為例，它的自動分詞詞表、詞屬性集和每個詞的屬性標(biāo)記都由用戶提供，提供的方式是把詞目和它的屬性標(biāo)記登記在數(shù)據(jù)庫里。檢索系統(tǒng)使用用戶提供的這個屬性表對生語料自動分詞，并生成索引，供給用戶檢索。檢索系統(tǒng)對屬性表沒有任何限制，規(guī)?？纱罂尚。碇械脑~目也可以跟通常認(rèn)為的詞沒有關(guān)系，屬性可以是語法的，也可以是構(gòu)詞的、語義的、語音的，等等。這樣用戶就能根據(jù)自己的需要檢索和研究各種字串在語料中的表現(xiàn)。

把語料加工技術(shù)集成在檢索系統(tǒng)里面，是語料庫檢索系統(tǒng)的另一個特點。語料加工技術(shù)一般指詞語自動切分和詞性自動標(biāo)注。在北京語言大學(xué)的語料檢索系統(tǒng)中，未登錄詞的自動識別技術(shù)比較有特點。它可以識別各種數(shù)字串、中西人名、中西地名、機構(gòu)名、后綴短語等，并為它們建立索引，供用戶檢索和統(tǒng)計。

（三）語料庫的規(guī)范問題

語料庫的規(guī)范問題主要是對語料加工而言的。漢語語料庫首先遇到的規(guī)范問題是詞語切分。我國90年代初發(fā)布了國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》（標(biāo)準(zhǔn)號為GB/T13715-92）。這個規(guī)范基本上采用《暫擬漢語教學(xué)語法系統(tǒng)》中的觀點，把詞定義為“最小的獨立運用的語言單位”。針對漢語語素、詞和詞組界限不夠清晰的問題，還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語信息處理使用的具有確定的語義或語法功能的基本單位”，并且用“結(jié)合緊密、使用穩(wěn)定”的原則作為判斷分詞單位的標(biāo)準(zhǔn)。這樣做的目的是避免關(guān)于如何界定詞的爭論。但是“結(jié)合緊密、使用穩(wěn)定”的原則缺少可操作性，對于自動分詞研究中的具體問題常常難有定論。于是就有了根據(jù)規(guī)范制定一個詞表，用“規(guī)范+詞表”的辦法指導(dǎo)分詞的建議。這樣在90年代中期和末期，分別提出了收詞43570條的《信息處理用現(xiàn)代漢語常用詞表》和收詞9萬多條的《信息處理用現(xiàn)代漢語分詞詞表》。其中后者是在8億字的大規(guī)模語料庫支持下，采用“串頻”、“互信息”、“相關(guān)度”等計算統(tǒng)計方法，依據(jù)定量的數(shù)據(jù)分析結(jié)果辨識“分詞單位”的。與此同時，語言學(xué)家也參與了制定這個詞表的工作，他們提出的各種語言學(xué)規(guī)則，從定性分析的角度與統(tǒng)計數(shù)據(jù)相互作用，最后經(jīng)過人工審定，確定了92843個詞目，其中一級常用詞56606個，二級常用詞36237個，成為目前許多自動分詞系統(tǒng)使用的詞表。

90年代中期，臺灣的計算語言學(xué)會也提出了一個《資訊處理用中文分詞規(guī)范》。這個規(guī)范有三條基本原則，一是分詞單位必須符合語言學(xué)理論的要求；二是在信息處理上切實可行；三是能夠確保真實文本處理的一致性。它把分詞規(guī)范分成信、達、雅三個不同的等級，“信”級是基本資料交換的標(biāo)準(zhǔn)，“達”級是機器翻譯、情報檢索等自然語言處理的標(biāo)準(zhǔn)，“雅”級則是分詞的最好結(jié)果。這樣可以根據(jù)不同的應(yīng)用目的做難易程度不同的分詞處理。

詞語切分以后，下一個規(guī)范問題就是詞性標(biāo)注。經(jīng)過十多年的詞性標(biāo)注研究和實踐，教育部語言文字應(yīng)用研究所于2001年提出了《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》。這個規(guī)范吸收了語言學(xué)家的研究成果，也兼顧了已有的各個用于語言信息處理的詞類系統(tǒng)，制定了標(biāo)記現(xiàn)代漢語書面語詞類的符號集，使各種漢語信息處理應(yīng)用系統(tǒng)能夠盡量使用統(tǒng)一的詞類標(biāo)記，有助于信息交換和資源共享。

標(biāo)注短語和句子結(jié)構(gòu)是語料庫進一步深加工的內(nèi)容，雖然目前尚處于起步階段，但已經(jīng)在標(biāo)注的同時考慮了規(guī)范的問題。清華大學(xué)提出的《漢語句子的句法樹標(biāo)注規(guī)范》，主要包括句法標(biāo)記集的內(nèi)容描述、句法樹的劃分規(guī)定、歧義結(jié)構(gòu)的處理、結(jié)構(gòu)分析的方向性等問題。上海師范大學(xué)根據(jù)自己制定的《漢語文本短語結(jié)構(gòu)人工標(biāo)注規(guī)范》，對100萬字的1997年《讀者文摘》進行了分詞、詞性標(biāo)注和人工標(biāo)注短語的試驗。哈爾濱工業(yè)大學(xué)采用包含23個短語符號的標(biāo)記集合，開發(fā)了一個8000個句子的漢語樹庫。清華大學(xué)還建立了一個基于語義依存關(guān)系的語料庫，也涉及到標(biāo)注體系的選擇和標(biāo)注關(guān)系集的確定。這些工作規(guī)模都不大，在規(guī)范方面還處于各自為政的狀態(tài)。隨著語料的進一步深入加工，統(tǒng)一規(guī)范將成為不可避免的問題。

北京大學(xué)的《人民日報》標(biāo)注語料庫是目前規(guī)模最大的漢語基本標(biāo)注語料庫。在它的開發(fā)過程中，各種加工規(guī)范起了關(guān)鍵的作用。在這些加工規(guī)范中，有詞語的切分規(guī)范，主要規(guī)定把句子的漢字串形式切分為詞語序列的原則；有現(xiàn)代漢語詞類及標(biāo)記集規(guī)范，規(guī)定切分出來的詞語、短語、標(biāo)點符號的類別和標(biāo)識符號；有切分和標(biāo)注相結(jié)合的規(guī)范，規(guī)定語素構(gòu)成合成詞的方式（重疊、附加和復(fù)合）；有標(biāo)注規(guī)范，規(guī)定詞性標(biāo)注與詞庫的關(guān)系，主要解決如何在上下文環(huán)境里確定兼類詞的詞性；還有收詞7萬余條的詞庫《現(xiàn)代漢語語法信息詞典》。加工大規(guī)模的語料是一項浩大的語言工程。語料標(biāo)注的準(zhǔn)確性和一致性需要靠完善、合理的詞庫和嚴(yán)謹(jǐn)、實用的加工規(guī)范來保證。《人民日報》標(biāo)注語料庫的加工規(guī)范和《現(xiàn)代漢語語法信息詞典》是語言學(xué)家和信息處理專家合作，在漢語語法研究的理論和方法指導(dǎo)下，根據(jù)漢語信息處理的實際需要制定和開發(fā)的。在標(biāo)注大規(guī)模語料的實踐中，又得到了驗證和完善。

除了語料加工以外，語料庫還應(yīng)該在語料的采集和存儲格式上有所規(guī)范。對于平衡語料庫來說，采集規(guī)范主要是為了保證語料的平衡性，而類別分布和時間分布是語料平衡的兩大要素。每個語料庫都要對語料進行分類，分類的原則各不相同。有的根據(jù)內(nèi)容涉及的主題分類，有的根據(jù)語體分類。在眾多平衡語料庫當(dāng)中，臺灣中央研究院的現(xiàn)代漢語平衡語料庫的分類標(biāo)準(zhǔn)很值得注意。這個語料庫的研制者認(rèn)為，用傳統(tǒng)的文體單一特征來界定平衡語料庫不足以反映影響整個語言全貌的內(nèi)在因素。因此他們采用的是多重分類原則：把所有語料都標(biāo)上五個不同特征的值：(1)文類(2)文體(3)語式(4)主題(5)媒體。利用以主題為主的五個特征的多重分類來進行語料庫的平衡。這樣做還使研究者能夠任選其中幾個特征的組合，定義自己的次語料庫（sub-corpora），也可以在次語料庫間作比較研究。另外，多重分類原則也有利于以后平衡語料庫的更新。語料存儲格式的規(guī)范一般指采用統(tǒng)一的編碼規(guī)范為電子文本作標(biāo)記，目前可擴充置標(biāo)語言XML被廣泛地用作語料庫標(biāo)注的元語言，存儲格式的標(biāo)準(zhǔn)化有助于語料的交換和共享。

四語料庫在語言研究中的的應(yīng)用

在語言研究中，語料庫方法是一種經(jīng)驗的方法，它能提供大量的自然語言材料，有助于研究者根據(jù)語言實際得出客觀的結(jié)論，這種結(jié)論同時也是可觀測和可驗證的。在計算機技術(shù)的支持下，語料庫方法對語言研究的許多領(lǐng)域產(chǎn)生了越來越多的影響。各種為不同目的而建立的語料庫可以應(yīng)用在詞匯、語法、語義、語用、語體研究，社會語言學(xué)研究，口語研究，詞典編纂，語言教學(xué)以及自然語言處理、人工智能、機器翻譯、言語識別與合成等領(lǐng)域。我國在語料庫的應(yīng)用上還處于起步階段，在計算語言學(xué)和語言信息處理領(lǐng)域，語料庫主要用來為統(tǒng)計語言模型提供語言特征信息和概率數(shù)據(jù)，在語言研究的其他領(lǐng)域，多使用語料的檢索和頻率統(tǒng)計結(jié)果。

語料庫與自然語言信息處理有著相輔相成的關(guān)系，大規(guī)模的語料庫是用統(tǒng)計語言模型方法處理自然語言的基礎(chǔ)資源。然而統(tǒng)計語言模型本身并不關(guān)心其建模對象的語言學(xué)信息，它關(guān)心的只是一串符號的同現(xiàn)概率。譬如N元語法模型，它只關(guān)心句子中各種單元（比如字、詞、短語等）近距離連接關(guān)系的概率分布，而對于許多復(fù)雜的語言現(xiàn)象，它就無能為力了。在統(tǒng)計語言建模技術(shù)最先得到成功應(yīng)用的自動語音識別領(lǐng)域，語料庫的開發(fā)和建設(shè)受到格外的重視，標(biāo)注語料庫成為不可缺少的系統(tǒng)資源，就是因為，要想改進N元語法的建模技術(shù)，必須利用語料庫引入更多的語言特征信息和統(tǒng)計語言數(shù)據(jù)。同樣，在書面語語言信息處理領(lǐng)域里，語料庫提供的語言知識也越來越多地用在統(tǒng)計語言模型方法中。除了詞語自動切分、詞性自動標(biāo)注、雙語語料對齊等語料加工技術(shù)以外，人們還在語料庫的支持下，建立有關(guān)語法、語義的語言知識庫，開發(fā)信息抽取系統(tǒng)、信息檢索系統(tǒng)、文本分類和過濾系統(tǒng)，并且把基于統(tǒng)計或?qū)嵗姆治黾夹g(shù)集成到機器翻譯系統(tǒng)里面。

近年來在語料庫的支持下，從信息處理的角度研究漢語詞匯、語法和語義問題的報告也日漸增多。這些研究包括：根據(jù)逐詞索引作漢語詞義的調(diào)查；對詞語搭配進行計量分析；利用量詞--名詞的搭配數(shù)據(jù)研究漢語名詞分類問題；進行現(xiàn)代漢語句型的統(tǒng)計和研究；做短語自動識別（例如基本名詞短語、動賓結(jié)構(gòu)）和自動句法分析的試驗；研究在句子里為詞語排除歧義的算法；分析和統(tǒng)計漢語詞語重疊結(jié)構(gòu)的深層結(jié)構(gòu)類型及產(chǎn)生方式；等等。

對于詞匯學(xué)、語法學(xué)、語言理論、歷史語言學(xué)等研究來說，語料庫的作用目前大多還是通過語料檢索和頻率統(tǒng)計，幫助人們觀察和把握語言事實，分析和研究語言的規(guī)律。語料庫方法的發(fā)展會使這種僅起輔助作用的手段逐步變成必備的應(yīng)用資源和工具。利用語料庫，人們可以把指定的語法現(xiàn)象加以量化，并且檢測和驗證語言理論、規(guī)則或假設(shè)。

在少數(shù)民族語言和方言調(diào)查研究方面，比較有代表性的工作是“藏緬語語料庫及比較研究的計量描寫”。它建立了我國境內(nèi)藏緬語族五大語支82個語言點16萬詞條的詞匯語音數(shù)據(jù)庫，對藏語方言的音節(jié)、音位、聲母、韻母、聲詞、詞素、構(gòu)詞能力和語音結(jié)構(gòu)等10余項特征作了分布和對比分析。對藏語15個方言點作了語音對應(yīng)關(guān)系和音系對比關(guān)系的量化描述，并且在這個基礎(chǔ)上做出具有歷時和共時比較研究意義的相關(guān)分析，得出了語言分類的相關(guān)矩陣和聚類分析圖表。

在應(yīng)用語言學(xué)領(lǐng)域，詞典編纂和語言教學(xué)同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中，不同程度地使用語料庫或電子文檔收集詞語數(shù)據(jù)，用于收詞、釋義、例句、屬性標(biāo)注等。南京大學(xué)近年來開發(fā)了NULEXID語料庫暨雙語詞典編纂系統(tǒng)，涉及英漢兩種語言，在《新時代英漢大詞典》的編纂過程中起了重要作用。從詞典編纂的整體情況看，我們還缺少充分的語料資源和有效的分析工具，很多有意義的事情還做不了。譬如，分析語料中顯現(xiàn)的詞語搭配現(xiàn)象，利用語料庫進行詞語意義辨析，在動態(tài)的語料庫中輔助提取新詞語，等等。把語料庫用于語言教學(xué)的一個例子是上海交通大學(xué)的JDEST英語語料庫，利用這個語料庫，通過語料比較、統(tǒng)計、篩選等方法為中國大學(xué)英語教學(xué)提供通用詞匯和技術(shù)詞匯的應(yīng)用信息，為確定大學(xué)英語教學(xué)大綱的詞表提供了可靠的量化依據(jù)。這個語料庫也在英語語言研究中發(fā)揮了作用，支持基于語料庫的英語語法的頻率特征、語料庫驅(qū)動的詞語搭配等項研究。2003年，中國學(xué)習(xí)者英語語料庫由上海外語教育出版社正式發(fā)行。這個語料庫是一個100多萬詞的書面英語語料庫，涵蓋我國中學(xué)生、大學(xué)英語4級和6級、英語專業(yè)低年級和高年級的學(xué)習(xí)內(nèi)容，并對所有的語料作了語法標(biāo)注和言語失誤標(biāo)注。根據(jù)這個語料庫得到了詞頻排列表、拼寫失誤表、詞目表、詞頻分布表、語法標(biāo)注頻數(shù)表、言語失誤表等，還把這些數(shù)據(jù)與一些英語本族語語料庫（如BROWN，LOB，F(xiàn)ROWN，F(xiàn)LOB）進行了某些比較。這個語料庫為詞典編纂、教材編寫和語言測試提供了必要的資源。目前上海交通大學(xué)正在建設(shè)大學(xué)英語學(xué)習(xí)者口語英語語料庫。

在幾年來語料庫建設(shè)和應(yīng)用的基礎(chǔ)上，2003年國家“973”計劃開始支持中文語言資源聯(lián)盟（Chinese Linguistic Data Consortium，簡稱ChineseLDC）的建立。ChineseLDC是吸收國內(nèi)高等院校、科研機構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的、通用的中文語言信息知識庫。ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語言資源，包括詞典、語料庫、數(shù)據(jù)、工具等。在建立和收集語言資源的基礎(chǔ)上，分發(fā)資源，促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范，推薦給用戶，并且針對中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評測機制，為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。

幾年來在計算語言學(xué)和語言信息處理領(lǐng)域的學(xué)術(shù)會議上，語料庫的建設(shè)和應(yīng)用一直是重要論題之一。討論的重點集中在基于語料庫的語言分析方法，以及語料的標(biāo)注、管理和規(guī)范等問題上。語言學(xué)家更多關(guān)心的是語料庫的規(guī)劃和建設(shè)，語料庫方法在語言研究和教學(xué)中的應(yīng)用。近年來語言學(xué)界也召開有關(guān)語料庫的專門學(xué)術(shù)會議，譬如2001年由中國社會科學(xué)院語言研究所主辦、在清華大學(xué)召開的語料庫語言學(xué)與計算語言學(xué)研究與實踐研討會（主要討論了語料庫的建設(shè)和應(yīng)用、語言信息處理等問題）；2003年由上海交通大學(xué)等單位主辦、在上海交通大學(xué)召開的語料庫語言學(xué)國際研討會（會議主題是語料庫研究與外語教學(xué)）。

第五篇：語料庫研究綜述

語料庫研究與應(yīng)用綜述

目錄一概述

二中國語料庫建設(shè)的基本情況三語料庫的加工、管理和規(guī)范四語料庫在語言研究中的的應(yīng)用五參考文獻

語料庫研究與應(yīng)用綜述

一概述

語料庫建設(shè)中涉及的主要問題包括：

（1）設(shè)計和規(guī)劃：主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展性等。

（2）語料的采集：主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述，以及各類語料的比例以保持平衡性等。

（3）語料的加工：包括標(biāo)注項目（詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等）標(biāo)記集、標(biāo)注規(guī)范和加工方式。

（5）語料庫的應(yīng)用：針對語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題，研究和開發(fā)處理語料的算法和軟件工具。

二中國語料庫建設(shè)的基本情況

（一）現(xiàn)代漢語通用語料庫

第一類：人文與社會科學(xué)類（包括8個次類、30個細類）

1．政法類：哲學(xué)政治宗教法律

2．歷史類：歷史考古民族

3．社會類：社會學(xué)心理語言文字教育文藝?yán)碚撔侣劽袼?/p>

4．經(jīng)濟類：工業(yè)經(jīng)濟農(nóng)業(yè)經(jīng)濟政治經(jīng)濟財貿(mào)經(jīng)濟

5．藝術(shù)類：音樂美術(shù)舞蹈戲劇

6．文學(xué)類：小說散文傳記報告文學(xué)科幻口語

7．軍體類：軍事體育

8．生活類

第二類：自然科學(xué)類（包括6個次類）

1．?dāng)?shù)理類

2．生化類

3．天文地理類

4．海洋氣象類

5．農(nóng)林類

6．醫(yī)藥衛(wèi)生類

第三類：綜合類（包括6個次類，30多個細類）

1．行政公文類：請示報告批復(fù)命令指示布告紀(jì)要通知等

2．章程法規(guī)類：章程條例細則制度公約辦法法律條文等

3．司法文書類：訴訟辯護詞控告信委托書等

4．商業(yè)文告類：說明廣告調(diào)查報告經(jīng)濟合同等

5．禮儀辭令類：歡迎詞賀電訃告唁電慰問信祝酒詞等

6．實用文書類：請假條檢討申請書請愿書等在不同類別、不同來源、不同時期的語言材料中，按照不等密度的思路確定合適的語料選取比例，從共時和歷時兩個角度保證入選語料的平衡性，是這個語料庫的特點。譬如，在語言材料的年限方面，選材比例是：

1919年– 1925年

1926年– 1949年

15%

1950年– 1965年

25%

1966年– 1976年

1977年以后

50%

在語言材料的門類、語體和來源方面，選材比例是：

人文與社會科學(xué)類占59.6%。其中各個次類在本大類中的比例是：

政法

12.7%

歷史

8.4%

社會

14.0%

經(jīng)濟

9.8%

藝術(shù)

6.7%

文學(xué)

44.9%

軍體

2.3%

生活

1.4%

自然科學(xué)類占17.24%。其中各個次類在本大類中的比例是：

數(shù)理

17.2%

生化

19.1%

天文地理

14.1%

海洋氣象

9.1%

農(nóng)林

22.8%

醫(yī)藥衛(wèi)生

17.7%

綜合類占9.36%。其中各個次類在本大類中的比例是：

各類應(yīng)用文

91.1%

其他

8.9%

報紙類占13.79%。其中各個次類在本大類中的比例是：

全國性報刊

25%

省市報刊

75%

這個語料庫在選材過程中收集和記錄語料的有關(guān)描述信息，為每個語料樣本設(shè)立了20個描述項目：總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號（版面號）、版次（初版日期）、印冊數(shù)、總頁數(shù)、開本、選樣方式、樣本起止頁數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)、繁簡字。用戶可以利用這些語料描述標(biāo)記根據(jù)各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步，第一步先建立核心語料庫（由7000萬字的語料中篩選出2000萬字語料組成）。到90年代末，完成了2000萬字生語料的收錄工作。從2001年開始，對2000萬字核心語料進行分詞和詞性標(biāo)注加工。

（二）《人民日報》標(biāo)注語料庫

標(biāo)注后的形式是：

在每一個切分出來的詞和標(biāo)點符號后面，是該詞語的標(biāo)記。譬如詞性標(biāo)記（n，v，a，u，m，w等），專有名詞標(biāo)記（nr，ns，nz等），語素子類標(biāo)記（Vg等），動詞和形容詞特殊用法標(biāo)記（vn，ad）。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫，在一個加工規(guī)范的指導(dǎo)下標(biāo)注的。

（三）用于語言教學(xué)和研究的現(xiàn)代漢語語料庫

漢語中介語語料庫的建設(shè)目標(biāo)是為對外漢語教學(xué)、中介語研究、偏誤分析和漢語本體研究提供資源，因此它的語料來源很有對外漢語教學(xué)的特點。作者先在北京和其他省市的9 所高等院校里，從來自96個國家和地區(qū)的1635位外國留學(xué)生那里收集了成篇成段的漢語作文或練習(xí)材料5774篇，共3528988字。再從中抽取了 740人的1731篇語料，共有44218句，1041274字。全部語料都記錄了學(xué)生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學(xué)主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標(biāo)注以及一些專用的語言學(xué)特征標(biāo)注。例如，標(biāo)出了字、詞、句、篇等不同的層次，對語料的非規(guī)范形式（例如：錯字、別字、繁體字、拼音字、非規(guī)范詞等）做出索引標(biāo)記，記錄其對應(yīng)的規(guī)范形式。這個語料庫的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動標(biāo)注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能，分別處理語料庫的建立、管理和維護，以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比，中介語語料庫能夠更好地反映學(xué)生學(xué)習(xí)漢語的情況，幫助教師更加全面地觀察他們的學(xué)習(xí)過程，了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語作為第二語言的教學(xué)中，為教材編寫、課堂教學(xué)、測試等環(huán)節(jié)提供依據(jù)。

文類（文檔的呈現(xiàn)方式）

報導(dǎo)、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄文體（文章的寫作方式）

記敘、論說、說明、描寫

語式（文檔的呈現(xiàn)方式）

書面語、演講稿、劇本/臺辭、口語談話、會議記錄

主題（文章寫作的內(nèi)容）

哲學(xué)、科學(xué)、社會、藝術(shù)、生活、文學(xué)

媒體報紙、一般雜志、學(xué)術(shù)期刊、教科書、工具書、學(xué)術(shù)論著、一般圖書、書信、視聽媒體、其它

作者姓名、性別、國籍、母語

出版出版單位、出版地、出版日期、版次

（四）面向語言信息處理的現(xiàn)代漢語語料庫

對句子“自古以來，人類就重視檔案的保存和利用，設(shè)置館庫、選派專人進行管理。”進行語塊標(biāo)注以后得到的是一個無嵌套的線性序列，其中S是主語語塊，P是述語語塊，O是賓語語塊：

[D 自/p 古/t 以來/f，/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN，/, [P 設(shè)置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書?！边M行句法樹標(biāo)注以后，得到的是一個與樹形結(jié)構(gòu)等價的線性序列：

[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

（五）用于開發(fā)特定語言分析技術(shù)的專用語料庫

這類語料庫是針對漢語信息處理技術(shù)的需要專門建立的。例如山西大學(xué)的專有名詞標(biāo)注語料庫和分詞與詞性標(biāo)注語料庫。

（六）雙語語料庫

（七）面向漢語史研究的語料庫

（八）比較語料庫

（九）少數(shù)民族語言語料庫

欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

國內(nèi)語料庫建設(shè)一覽表

第一篇：國內(nèi)語料庫建設(shè)一覽表

第二篇：國內(nèi)各銀行收費情況一覽表

第三篇：初中英語作文語料庫

第四篇：語料庫語言學(xué)綜合

第五篇：語料庫研究綜述

相關(guān)范文推薦

工會規(guī)范化建設(shè)一覽表

最新國內(nèi)鋼廠高爐檢修情況一覽表20130301

語料庫的應(yīng)用(最終)

國內(nèi)僅存的著名不收費中學(xué)數(shù)學(xué)期刊一覽表

2017年高等學(xué)校接受國內(nèi)訪問學(xué)者培養(yǎng)費標(biāo)準(zhǔn)和住宿情況一覽表

雅思寫作語料庫--網(wǎng)絡(luò)游戲的利弊

辦理規(guī)劃建設(shè)業(yè)務(wù)所需資料一覽表

佛山市建設(shè)工程報建收費一覽表