第一篇:自然語言處理的應(yīng)用及發(fā)展趨勢
自然語言處理的應(yīng)用及發(fā)展趨勢
摘要
本文主要闡述了自然語言處理的研究內(nèi)容,以及對目前相關(guān)領(lǐng)域的應(yīng)用加以討論。自然語言處理的研究內(nèi)容主要有四大塊[1-2]:語言學(xué)方向、數(shù)據(jù)處理方向、人工智能和認(rèn)知科學(xué)方向、語言工程方向。最后對自然語言處理的未來發(fā)展趨勢做簡單的介紹。
關(guān)鍵詞 自然語言處理 應(yīng)用 發(fā)展趨勢
一.自然語言處理的研究內(nèi)容
自然語言處理的范圍涉及眾多方面,如語音的自動識別與合成,機器翻譯,自然語言理解,人機對話,信息檢索,文本分類,自動文摘,等等。我們認(rèn)為,這些部門可以歸納為如下四個大的方向:(1)語言學(xué)方向
本方向是把自然語言處理作為語言學(xué)的分時來研究,它之研究語言及語言處理與計算相關(guān)的方面,而不管其在計算機上的具體實現(xiàn)。這個方向最重要的研究領(lǐng)域是語法形式化理論和數(shù)學(xué)理論。(2)數(shù)據(jù)處理方向
是把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語言數(shù)據(jù)處理的學(xué)科來研究。這一方向早起的研究有屬于數(shù)據(jù)庫的建設(shè)、各種機器可讀的電子詞典的開發(fā),近些年來則有大規(guī)模的語料庫的涌現(xiàn)。(3)人工智能和認(rèn)知科學(xué)方向
在這個方向 中,自然語言處理被作為在計算機上實現(xiàn)自然語言能力的學(xué)科來研究,探索自然語言理解的只能機制和認(rèn)知機制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切。(4)語言工程方向
主要是把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究,這一方向的研究一般稱為“人類語言技術(shù)”或者“語言工程”。二.自然語言處理的應(yīng)用
以上所提及的自然語言處理的四大研究方向基本上涵蓋了當(dāng)今自然語言處理研究的內(nèi)容,更加細(xì)致的說,自然語言處理可以進一步細(xì)化為以下13項研究內(nèi)容,也即為自然語言處理的應(yīng)用方向,這13個應(yīng)用方向分別是[3]:口語輸入、書面語輸入、語言分析和理解、語言生成、口語輸出技術(shù)、話語分析與對話、文獻自動處理、多語問題的計算機處理、多模態(tài)的計算機處理、信息傳輸與信息存儲、自然語言處理中的數(shù)學(xué)方法、語言資源、自然語言處理系統(tǒng)的評測。
這13項內(nèi)容都涉及語言學(xué)。這些研究都要對語言進行形式化的描述, 建立合適的算法, 并在計算機上實現(xiàn)這些算法, 因此, 要涉及數(shù)學(xué)、計算機科學(xué)和邏輯學(xué)[4]??谡Z輸入、書面語輸入、口語輸出、信息傳輸與信息存儲都需要電子工程的技術(shù)。由自然語言的應(yīng)用領(lǐng)域更加進一步說明,自然語言處理都是一個多邊緣的交叉學(xué)科。由于它的對象是語言, 因此, 它基本上是一個語言學(xué)科, 但它還涉及眾多的學(xué)科, 特別是計算機科學(xué)和數(shù)學(xué)。三.自然語言處理研究的發(fā)展趨勢
21世紀(jì)以來, 由于國際互聯(lián)網(wǎng)的普及, 自然語言的計算機處理成為了從互聯(lián)網(wǎng)上獲取知識的重要手段, 生活在信息網(wǎng)絡(luò)時代的現(xiàn)代人, 幾乎都要與互聯(lián)網(wǎng)打交道, 都要或多或少地使用自然語言處理的研究成果來獲取或挖掘在廣闊無邊的互聯(lián)網(wǎng)上的各種知識和信息, 因此, 世界各國都非常重視有關(guān)的研究, 投入了大量的人力、物力和財力[5]。
自然語言處理研究的歷史雖不很長,但就目前已有的成果足以顯示它的重要性和應(yīng)用前景。在美、英、日、法等發(fā)達(dá)國家,自然語言處理如今不僅作為人工智能的核心課題來研究.而且也作為新一代計算機的核心課題來研究。從知識產(chǎn)業(yè)的角度來看.自然語言處理的軟件也占重要地位,專家系統(tǒng),數(shù)據(jù)庫、知識庫.計算機輔助設(shè)計系統(tǒng)(CAD)、計算機輔助教學(xué)系統(tǒng)(CAl)、計算機輔助決策系統(tǒng),辦公室自動化管理系統(tǒng)、智能機器人等,無一不需要用自然語言做人一機界面。從長遠(yuǎn)看.具有篇章理解能力的自然語言理解系統(tǒng)可用于機器自動翻譯、情報檢索、自動標(biāo)引,自動文摘.自動寫故事小說等領(lǐng)域,具有廣闊的應(yīng)用領(lǐng)域和令人鼓舞的應(yīng)用前景。
當(dāng)前國外自然語言處理研究有三個顯著的特點[6]:第一, 隨著語料庫建設(shè)和語料庫語言學(xué)的崛起, 大規(guī)模真實文本的處理成為自然語言處理的主要戰(zhàn)略目標(biāo)。第二, 自然語言處理中越來越多地使用機器自動學(xué)習(xí)的方法來獲取語言知識。第三, 自然語言處理中越來越多地使用統(tǒng)計數(shù)學(xué)方法來分析語言數(shù)據(jù)。目前,我國的自然語言處理研究雖然已經(jīng)取得不少成績, 但是與國際水平相比, 差距還很大。我國的自然語言處理研究, 無論在理論上還是在應(yīng)用系統(tǒng)的開發(fā)上, 基本上還沒有重大的創(chuàng)新與值得稱道的突破。我們的研究基本上還是跟蹤性的研究, 很少有創(chuàng)造性的研究, 當(dāng)然更談不上具有原創(chuàng)思想的研究了。因此, 我們不能夜郎自大, 不能坐井觀天,我們只有努力學(xué)習(xí)國外的先進成果, 趕上并超過國際先進水平, 使我國的自然語言處理在國際先進行列中占有一席之地,掌握國際先進的成果與技術(shù)用于國家和社會的進一步發(fā)展。
參考文獻: [1] 李堂秋,《自然語言處理》講義,廈門大學(xué)計算機科學(xué)系.[2] 辛日華.計算機自然語言處理.呼倫貝爾學(xué)院學(xué)報,2003,11(1)[3] 白碩,《計算語言學(xué)》講義,中國科學(xué)院計算技術(shù)研究所.[4] 詹衛(wèi)東,《計算語言學(xué)概論》講義,北京大學(xué)中文系.[5] 馮志偉.自然語言處理的學(xué)科地位.解放軍外國語學(xué)院學(xué)報,2005,28(3)[6] 馮志偉.自然語言處理的歷史與現(xiàn)狀,2008.
第二篇:自然語言處理
自然語言處理(Natural Language Processing簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科。在這此領(lǐng)域中探討如何處理及運用自然語言;自然語言認(rèn)知則是指讓電腦“懂”人類的語言。
自然語言生成系統(tǒng)把計算機數(shù)據(jù)轉(zhuǎn)化為自然語言。自然語言理解系統(tǒng)把自然語言轉(zhuǎn)化為計算機程序更易于處理的形式。
理論上,NLP是一種很吸引人的人機交互方式。早期的語言處理系統(tǒng)如SHRDLU,當(dāng)它們處于一個有限的“積木世界”,運用有限的詞匯表會話時,工作得相當(dāng)好。這使得研究員們對此系統(tǒng)相當(dāng)樂觀,然而,當(dāng)把這個系統(tǒng)拓展到充滿了現(xiàn)實世界的含糊與不確定性的環(huán)境中時,他們很快喪失了信心。
由于理解(understanding)自然語言,需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認(rèn)知,同時也被視為一個人工智能完備(AI-complete)的問題。同時,在自然語言處理中,“理解”的定義也變成一個主要的問題。
自然語言處理研究的難點 單詞的邊界界定
在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。詞義的消歧
許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。句法的模糊性 自然語言的文法通常是模棱兩可的,針對一個句子通??赡軙饰觯≒arse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前后文的資訊才能在其中選擇一棵最為適合的剖析樹。有瑕疵的或不規(guī)范的輸入
例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識別(OCR)的錯誤。語言行為與計劃
句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應(yīng)當(dāng)是把鹽遞過去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設(shè),對于提問“這門課程去年有多少學(xué)生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。
第三篇:自然語言處理常用模型方法總結(jié)
自然語言處理常用模型使用方法總結(jié)
一、N元模型
思想:
如果用變量W代表一個文本中順序排列的n個詞,即W = W1W2…Wn,則統(tǒng)計語言模型的任務(wù)是給出任意詞序列W 在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不難看出,為了預(yù)測詞Wn的出現(xiàn)概率,必須已知它前面所有詞的出現(xiàn)概率。從計算上來看,這太復(fù)雜了。如果任意一個詞Wi的出現(xiàn)概率只同它前面的N-1個詞有關(guān),問題就可以得到很大的簡化。這時的語言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…實際使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認(rèn)為任意詞Wi的出現(xiàn)概率只同它緊接的前面的兩個詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。統(tǒng)計語言模型有點像天氣預(yù)報的方法。用來估計概率參數(shù)的大規(guī)模語料庫好比是一個地區(qū)歷年積累起來的氣象紀(jì)錄,而用三元模型來做天氣預(yù)報,就像是根據(jù)前兩天的天氣情況來預(yù)測今天的天氣。天氣預(yù)報當(dāng)然不可能百分之百正確。這也算是概率統(tǒng)計方法的一個特點吧。(摘自黃昌寧論文《中文信息處理的主流技術(shù)是什么?》)
條件: 該模型基于這樣一種假設(shè),第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
問題:
雖然我們知道元模型中, n越大約束力越強,但由于計算機容量和速度的限制及數(shù)據(jù)的稀疏,很難進行大n的統(tǒng)計。
二、馬爾可夫模型以及隱馬爾可夫模型
思想:
馬爾可夫模型實際上是個有限狀態(tài)機,兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài)不可見,我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會拋出個觀測值;當(dāng)我們觀察到觀測序列后,要找到最佳的狀態(tài)序列。隱馬爾科夫模型是一種用參數(shù)表示的用于描述隨機過程統(tǒng)計特性的概率模型,是一個雙重隨機過程,由兩個部分組成:馬爾科夫鏈和一般隨機過程。其中馬爾科夫鏈用來描述狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。一般隨機過程用來描述狀態(tài)與觀察序列之間的關(guān)系,用觀察值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機進行狀態(tài)轉(zhuǎn)移并輸出符號的有限狀態(tài)自動機,它通過定義觀察序列和狀態(tài)序列的聯(lián)合概率對隨機生成過程進行建模。每一個觀察序列可以看成是由一個狀態(tài)轉(zhuǎn)移序列生成,狀態(tài)轉(zhuǎn)移過程是依據(jù)初始狀態(tài)概率分布隨機選擇一個初始狀態(tài)開始,輸出一個觀察值后再根據(jù)狀態(tài)轉(zhuǎn)移概率矩陣隨機轉(zhuǎn)移到下一狀態(tài),直到到達(dá)某一預(yù)先指定的結(jié)束狀態(tài)為止,在每一個狀態(tài)將根據(jù)輸出概率矩陣隨機輸出一個觀察序列的元素。
一個 HMM有 5個組成部分,通常記為一個五元組{S,K, π,A,B},有時簡寫為一個三元組{π ,A,B},其中:①S是模型的狀態(tài)集,模型共有 N個狀態(tài),記為 S={s1,s2, ?,sN};②K是模型中狀態(tài)輸出符號的集合,符號數(shù)為 M,符號集記為K={k1,k2,?,kM};③是初始狀態(tài)概率分布,記為 ={ 1, 2,?, N},其中 i是狀態(tài) Si作為初始狀態(tài)的概率;④A是狀態(tài)轉(zhuǎn)移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中 aij是從狀態(tài) Si轉(zhuǎn)移到狀態(tài) Sj的概率;⑤B是符號輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中 bik是狀態(tài) Si輸出 Vk的概率。要用HMM解決實際問題,首先需要解決如下 3個基本問題:①給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何高效率地計算概率P(O|λ),也就是在給定模型的情況下觀察序列O的概率;②給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何快速地選擇在一定意義下“最優(yōu)”的狀態(tài)序列Q=q1q2?qT,使得該狀態(tài)序列“最好地解釋”觀察序列;③給定一個觀察序列 O=O1O2?OT,以及可能的模型空間,如何來估計模型參數(shù),也就是說,如何調(diào)節(jié)模型{π,A,B}的參數(shù),使得 P(O|λ)最大。
問題:
隱馬模型中存在兩個假設(shè):輸出獨立性假設(shè)和馬爾可夫性假設(shè)。其中,輸出獨立性假設(shè)要求序列數(shù)據(jù)嚴(yán)格相互獨立才能保證推導(dǎo)的正確性,而事實上大多數(shù)序列數(shù)據(jù)不能被表示 2 成一系列獨立事件。
三、最大熵模型
最大熵原理原本是熱力學(xué)中一個非常重要的原理,后來被廣泛應(yīng)用于自然語言處理方面。其基本原理很簡單:對所有的已知事實建模,對未知不做任何假設(shè)。也就是建模時選擇這樣一個統(tǒng)計概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標(biāo)注或者其他自然語言處理任務(wù)看作一個隨機過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時熵值最大。
求解最大熵模型,可以采用拉格朗日乘數(shù)法,其計算公式為:
p?y?x??1??exp???ifi(x,y)?Z?(x)?i?
??Z?(x)??exp???ifi(x,y)?y?i?為歸一化因子 ,?i是對應(yīng)特征的權(quán)重,fi表示其中,一個特征。每個特征對詞性選擇的影響大小由特征權(quán)重學(xué)習(xí)算法自動得到。
?i決定,而這些權(quán)值可由GIS或IIS
四、支持向量機
原理:
支持向量機的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況, 通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。
支持向量機的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險最小化原理,構(gòu)造一個目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來, 通常分為兩類情況來討論,:(1)線性可分;(2)線性不可分。
線性可分情況
在線性可分的情況下,就會存在一個超平面使得訓(xùn)練樣本完全分開,該超平面可描述為: w ·x + b = 0(1)其中,“·”是點積, w 是n 維向量, b 為偏移量。
最優(yōu)超平面是使得每一類數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的這樣的平面.3 最優(yōu)超平面可以通過解下面的二次優(yōu)化問題來獲得: 滿足約束條件: , i = 1 ,2 ,3 ,......, n.(3)
在特征數(shù)目特別大的情況,可以將此二次規(guī)劃問題轉(zhuǎn)化為其對偶問題:
(4)
(5)(6 滿足約束條件:
這里
(7)
是Lagrange 乘子,是最優(yōu)超平面的法向量,是最優(yōu)超平面的偏移量,在這類優(yōu)化問題的求解與分析中, KKT條件將起到很重要的作用,在(7)式中,其解必須滿足:
從式(5)可知,那些
(8)
= 0 的樣本對分類沒有任何作用,只有那些
> 0 的樣本才對分類起作用,這些樣本稱為支持向量,故最終的分類函數(shù)為:
根據(jù)f(x)的符號來確定X 的歸屬。線性不可分的情況
(9)對于線性不可分的情況,可以把樣本X 映射到一個高維特征空間H,并在此空間中運用原空間的函 數(shù)來實現(xiàn)內(nèi)積運算,這樣將非線性問題轉(zhuǎn)換成另一空間的線性問題來獲得一個樣本的歸屬.根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿足Mercer 條件,它就對應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實現(xiàn)這種線性不可分的分類問題.此時的目標(biāo)函數(shù)為:
0)
(1 4 其分類函數(shù)為:(11)
內(nèi)積核函數(shù) :
目前有三類用的較多的內(nèi)積核函數(shù):第一類是
(12)
我們所能得到的是p階多項式分類器,第二類是徑向基函數(shù)(RBF),也稱作高斯核函數(shù):
第三類是Sigmoid函數(shù)
特點:
概括地說,支持向量機就是首先通過內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到另一個高維空間,在這個空間中求最優(yōu)分類面。SVM分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點的線性組合,每個中間節(jié)點對應(yīng)一個輸入樣本與一個支持向量的內(nèi)積,因此也叫做支持向量網(wǎng)絡(luò)。
SVM方法的特點:
① 非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;② 對特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心;③ 支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。
SVM 是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題。
SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種 “魯棒”性主要體現(xiàn)在: ①增、刪非支持向量樣本對模型沒有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應(yīng)用中,SVM 方法對核的選取不敏感
五、條件隨機場
原理:
條件隨機場(CRFs)是一種基于統(tǒng)計的序列標(biāo)記識別模型,由John Lafferty等人在2001年首次提出。它是一種無向圖模型,對于指定的節(jié)點輸入值,它能夠計算指定的節(jié)點輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RFs中常見的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點順序鏈接而成。一個線性鏈與一個有限狀態(tài)機相對應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問題。在多數(shù)情況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進行標(biāo)注的數(shù)據(jù)序列,y=(y1,y2,…,yn)表示對應(yīng)的結(jié)果序列。例如對于中文詞性標(biāo)注任務(wù),x可以表示一個中文句子x=(上海,浦東,開發(fā),與,法制,建設(shè),同步),y則表示該句子中每個詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。
對于(X,Y),C由局部特征向量f和對應(yīng)的權(quán)重向量λ確定。對于輸入數(shù)據(jù)序列x和標(biāo)注結(jié)果序列y,條件隨機場C的全局特征表示為
F?y,x???f?y,x,i?i ⑴
其中i遍歷輸入數(shù)據(jù)序列的所有位置,f(y,x,i)表示在i位置時各個特征組成的特征向量。于是,CRFs定義的條件概率分布為
p?(Y,X)?其中 exp????F?Y,X???Z??X?
⑵
Z??X???exp????F?y,x???y ⑶
給定一個輸入數(shù)據(jù)序列X,標(biāo)注的目標(biāo)就是找出其對應(yīng)的最可能的標(biāo)注結(jié)果序列了,即
y?argmaxp??y|x?y ⑷
由于Zλ(X)不依賴于y,因此有
y?argmaxp??y|x??argmax??F?y,x?yy ⑸
CRFs模型的參數(shù)估計通常采用L—BFGS算法實現(xiàn),CRFs解碼過程,也就是求解未知串標(biāo)注的過程,需要搜索計算該串上的一個最大聯(lián)合概率,解碼過程采用Viterbi算法來完成。
CRFs具有很強的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過僅使用一個指數(shù)模型作為在給定觀測序列條件下整個標(biāo)記序列的聯(lián)合概率,使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問題。這些特點,使得CRFs從理論上講,非常適合中文詞性標(biāo)注?!?/p>
總結(jié)
首先,CRF,HMM(隱馬模型)都常用來做序列標(biāo)注的建模,像詞性標(biāo)注,True casing。但隱馬模型一個最大的缺點就是由于其輸出獨立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇,而另外一種稱為最大熵隱馬模型則解決了這一問題,可以任意的選擇特征,但由于其在每一節(jié)點都要進行歸一化,所以只能找到局部的最優(yōu)值,同時也帶來了標(biāo)記偏見的問題(label bias),即凡是訓(xùn)練語料中未出現(xiàn)的情況全都忽略掉,而條件隨機場則很好的解決了這一問題,他并不在每一個節(jié)點進行歸一化,而是所有特征進行全局歸一化,因此可以求得全局的最優(yōu)值。目前,條件隨機場的訓(xùn)練和解碼的開源工具還只支持鏈?zhǔn)降男蛄校瑥?fù)雜的尚不支持,而且訓(xùn)練時間很長,但效果還可以。最大熵隱馬模型的局限性在于其利用訓(xùn)練的局部模型去做全局預(yù)測。其最優(yōu)預(yù)測序列只是通過viterbi算法將局部的最大熵模型結(jié)合而成的。條件隨機場,隱馬模型,最大熵隱馬模型這三個模型都可以用來做序列標(biāo)注模型。但是其各自有自身的特點,HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計共現(xiàn)概率。而最大熵隱馬模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計時統(tǒng)計的是條件概率。最大熵隱馬模型容易陷入局部最優(yōu),是因為最大熵隱馬模型只在局部做歸一化,而CRF模型中,統(tǒng)計了全局概率,在 做歸一化時,考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置的問題。
第四篇:《自然語言理解》課程設(shè)計
自然語言理解課程設(shè)計報告 姓名
組員
所在學(xué)院
專業(yè)年級
報告提交時間
聯(lián)系電話
電子信箱
趙子豪黃承功趙子豪2011級電子信息工程*** zzh0526ac@163.com
課題分析
機器翻譯(machine translation),又稱為自動翻譯,是利用計算機把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,一般指自然語言之間句子和全文的翻譯。它是自然語言處理(Natural Language Processing)的一個分支,與計算語言學(xué)(Computational Linguistics)、自然語言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。
機器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計算機科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合于計算機進行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式化和代碼化,計算機科學(xué)家給機器翻譯提供軟件手段和硬件設(shè)備,并進行程序設(shè)計。缺少上述任何一方面,機器翻譯就不能實現(xiàn),機器翻譯效果的好壞,也完全取決于這3個方面的共同努力。
機器翻譯系統(tǒng)可以分為多種類型:基于規(guī)則的機器翻譯系統(tǒng),基于語料庫的機器翻譯系統(tǒng),基于實例的機器翻譯系統(tǒng),多引擎機器翻譯系統(tǒng),語音機器翻譯系統(tǒng)。隨著因特網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的語言障礙越來越嚴(yán)重,為了克服網(wǎng)絡(luò)交流中的語言障礙,還出現(xiàn)了一些專門面向網(wǎng)絡(luò)的機器翻譯系統(tǒng)。國內(nèi)外研究進展 已經(jīng)取得的進步:
?近十幾年來,機器翻譯取得了巨大的進步
?統(tǒng)計機器翻譯取得巨大成功,從基于詞的模型發(fā)展
到了基于短語的模型和基于句法的模型
?機器翻譯的統(tǒng)計方法和規(guī)則方法走向融合?機器翻譯系統(tǒng)開發(fā)效率大為提高:數(shù)年-->數(shù)周?應(yīng)用范圍大大拓展:Google翻譯支持幾十種語言
?翻譯質(zhì)量也有了明顯上升,已經(jīng)成為日常工具
依然面臨的困難:
?翻譯質(zhì)量仍然不夠理想(嬰兒期)
?需要大規(guī)模訓(xùn)練語料庫:數(shù)據(jù)稀疏問題
?需要與應(yīng)用場合相近的語料:領(lǐng)域適應(yīng)性
?語言形態(tài)的復(fù)雜性還沒有好的處理辦法
?語言之間差異性很大時翻譯質(zhì)量不理想
各系統(tǒng)主要技術(shù)要點
Systran:基于規(guī)則的機器翻譯系統(tǒng)
美國的SYSTRAN系統(tǒng):美國在喬治敦大學(xué)機器翻譯系統(tǒng)的基礎(chǔ)上,進一步開發(fā)了大型的機器翻譯系統(tǒng)SYSTRAN,已達(dá)到實用水平。例如,提供給美國空軍的SYSTRAN系統(tǒng),詞典有16.8萬個詞干形式和I3.6萬個詞組,可進行俄英機器翻譯,每小時可翻譯15萬詞;提供給美國拉特塞克(Latsec)公司的SYSTRAN系統(tǒng),可進行俄英、英俄、德英、漢法、漢英機器翻譯,每小時可
譯30萬—35萬個詞。SYSTRAN是目前應(yīng)用最為廣泛、所開發(fā)的語種最為豐富的一個實用化機器翻譯系統(tǒng)。
AT&T公司的語音機器翻譯系統(tǒng)
AT&T公司的阿爾薩瓦基(AlshawaKi,1998)等開發(fā)的語音翻譯系統(tǒng)由語音識別、機器翻譯、語音合成三部分組成。他們在機器翻譯部分采用的算法非常獨特,這實際上是一個基于平行概率語法的機器翻譯系統(tǒng)。
Verbmobil系統(tǒng)
Verbmobil系統(tǒng)與我們所熟悉的文本翻譯系統(tǒng)的不同之處主要體現(xiàn)在: —語音處理:要進行語音識別和語音合成。該系統(tǒng)的目標(biāo)很高,實現(xiàn)了GSM語音條件下的自動翻譯,除了一開始撥打Verbmobil語音服務(wù)電話以外,整個系統(tǒng)的服務(wù)可完全用GSM電話通過語音方式實現(xiàn),無需任何按鍵操作;系統(tǒng)具有語音自適應(yīng)能力,一開始使用與說話者無關(guān)的語音識別模塊,通過一段時間對話后,自動適應(yīng)說話者的口音,提高識別正確率;
—處理自然的語音:要考慮現(xiàn)實口語中的各種復(fù)雜現(xiàn)象,如停頓、重復(fù)、修正、漏詞等等;要建立對話模型,理解句子的語義,并考慮上下文進行翻譯,甚至要猜測說話者的意圖
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能進行英日和日英的雙向翻譯,除翻譯之外,還可進行查詞典、例句檢索、英文主頁寫作、英文電子郵件寫作等工作,翻譯時對于英日文化差異而形成的語文中的細(xì)微色彩的不同比較注意,基本詞典9萬詞,價格9800日元。
雅信CAT-2.5和東方快車3000
雅信CAT-2.5以詞為單位進行切分,東方快車3000以詞組為單位,兩種軟件都帶有專業(yè)詞庫,并綜合了近年來計算機語言學(xué)的一些成果,如引入了復(fù)雜特征集等,對于賓語從句,定語從句翻譯也注意了譯文的詞序的重新排列。然而,國內(nèi)的翻譯軟件似乎基本上都采用上下文無關(guān)語法,其優(yōu)點是編澤程序過程用時短,縮短了開發(fā)周期,見效較快。這種語法20世紀(jì)60年代曾在國外機譯研究中被廣泛采用,但它的不足之處在上述兩種軟件中也有所體現(xiàn)。
各系統(tǒng)性能比較分析
Google和Systran翻譯比較
Google翻譯均較Systran的得分高,在連貫性上Google翻譯也均較Systran的得分高,說明Google翻譯的譯文質(zhì)量較高。在新聞、商業(yè)文本和小說類型上,兩個翻譯系統(tǒng)所存在的差異較小。在小說文本中,兩個翻譯系統(tǒng)均取得了最高的分?jǐn)?shù),而體育新聞的翻譯則得分最低。在體育文章上,Google翻譯比Systran得分又相對高一些。在完整性和連貫性上,完整性的得分也比連貫性要高。兩種系統(tǒng)在小說上得分差異最小,在體育上得分差異最大。
對Google和Systran翻譯的四種類型文本譯文的評估結(jié)果,Google翻譯在所有的四種文本類型上都比Systran的表現(xiàn)更好??傮w來看,Google譯文的得分要比Systran的高,平均分相差0.1265,其中商業(yè)文本差距最大,小說差距最小。從不同類型文本的得分來看,小說得分最高,體育報道類得分最低;兩種系統(tǒng)得分相比,在小說上得分差異最小,在體育上得分差異最大。
將人工評估結(jié)果與BLEU的進行對比分析,發(fā)現(xiàn)它們對兩個翻譯系統(tǒng)譯文質(zhì)量評價具有一致性。表現(xiàn)在:均認(rèn)為Google翻譯譯文要比Sys-tran譯文質(zhì)量高;均認(rèn)為小說的譯文質(zhì)量最高,體育報道的譯文質(zhì)量最差;均認(rèn)為系統(tǒng)之間小說類上得分差異最小,在體育上得分差異最大。這種現(xiàn)象的產(chǎn)生原因是BLEU的評估基于N-gram(大詞匯連續(xù)語音識別中常用的一種語言模型,國際上處于主流地位的一種分詞方法,它按照固定單詞數(shù)進行分詞,單詞數(shù)目(N)越大,準(zhǔn)確性就越高)對標(biāo)準(zhǔn)譯文和原文比對,句子的意思完全不同仍可獲得較高的分?jǐn)?shù)。
AT&T公司的語音機器翻譯系統(tǒng)
這種方法的主要特點是:
1.訓(xùn)練可以全自動進行,效率很高,由一個雙語句子對齊的語料庫可以很快訓(xùn)練出一個機器翻譯系統(tǒng);
2.不使用任何人為定義的語言學(xué)標(biāo)一記(如詞性、短語類、語義類
等等),無需任何語言學(xué)知識;
3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點比IBM的統(tǒng)計語言模型更好。
這種方法比較適合于語音翻譯這種領(lǐng)域較受限、詞匯集較小的場合,對一于大規(guī)模的文本翻譯并不合適。,但這種做法對我們開拓思路還是非常有借鑒意義的。
Verbmobil系統(tǒng)
多種基準(zhǔn)的測試以及大規(guī)模端對端評價實驗令人信服地表明,Verbmobil的最終版本系統(tǒng)中達(dá)到了所有的預(yù)定目標(biāo),有些目標(biāo)甚至被超越了。在大規(guī)模翻譯實驗中,正確翻譯率達(dá)到大約80%在真實用戶的端對端測試中,90%的對話任務(wù)獲得成功。
TRASLATION ADAPTORⅡ
—詞典容量大而不失其準(zhǔn):由于網(wǎng)絡(luò)上英語涉及面廣,詞匯十分豐富,網(wǎng)絡(luò)翻譯系統(tǒng)的詞典容量都很大,至少可以幫助人們查詢不認(rèn)識的生詞,弄清生詞的準(zhǔn)確含義;
—翻譯速度快而不失其要:便于在網(wǎng)上快速瀏覽并查找所需要的信息,了解網(wǎng)上信息的梗概要略,譯文具有可讀性。
—譯文質(zhì)量粗而不失其信:譯文能傳達(dá)英文原文的意思,以“信”為首先的追求目標(biāo),而不要求做到譯文的“達(dá)”和“雅”。
—翻譯方式多而不失其巧:既可以使用Web瀏覽器將英語原文下載到PC機上進行翻譯,也可以在網(wǎng)絡(luò)上直接控制進行翻譯,一也可以使用poxy代理服務(wù)器代表客戶機傳送服務(wù)請求,通過翻譯軟件在Web瀏覽器上把英語直接翻譯為日語,還可以僅只查詞典,翻譯方式多樣而巧妙,以適應(yīng)不同用戶的要求。
—文本格式嚴(yán)而不失其便:譯文盡量保持英語原文的“超文本”特點,滿足HTML超文本置標(biāo)語言的要求,便于用戶在網(wǎng)絡(luò)中暢游。
未來的研究展望
半個世紀(jì)以來,機器翻譯研究雖幾經(jīng)曲折但終究已經(jīng)得到了普遍的承認(rèn),其應(yīng)用也已愈益廣泛。特別令人鼓舞的是無論是國外還是國內(nèi)現(xiàn)在已有那么
多的商品化系統(tǒng)進入市場,尤其是PC機譯產(chǎn)品。同時隨著PC的普及以及為滿足瀏覽因特網(wǎng)的需求,機譯產(chǎn)品進入千家萬戶的趨勢已開始顯露。
機器翻譯的展望世界機器翻譯研究已走過了50多年的曲折歷程,目前一些翻譯軟件產(chǎn)品如“龍方雅信CAT”等基本上已達(dá)到了實用水平。隨著全球網(wǎng)絡(luò)化和經(jīng)濟全球化的發(fā)展,機器翻譯在農(nóng)業(yè)及其他領(lǐng)域的應(yīng)用前景會越來越廣闊。對于機器翻譯研究者來說,如何進一步提高機器翻譯系統(tǒng)的翻譯質(zhì)量是機器翻譯研究的核心,也是他們始終追求的目標(biāo)和責(zé)任,需要計算機、語言學(xué)、心理學(xué)、邏輯學(xué)、數(shù)學(xué)、人工智能等多學(xué)科的綜合研究成果。技術(shù)方面,預(yù)計在雙語/多語語料庫多級加工、統(tǒng)計方法和機器學(xué)習(xí)方法、轉(zhuǎn)換方法、語義和知識表示等幾方面將得到研究進展。應(yīng)用方面,在Internet環(huán)境下的應(yīng)用、個人計算方面的應(yīng)用、領(lǐng)域受限的子語言應(yīng)用、翻譯工作站和翻譯輔助工具等幾方面將得到進一步的開發(fā)應(yīng)用。對于農(nóng)業(yè)數(shù)字圖書館,以上機器翻譯技術(shù)的發(fā)展將整體提高它的多語種農(nóng)業(yè)信息的提供能力,從而更好地為農(nóng)業(yè)數(shù)字圖書館的用戶提供服務(wù)??梢韵嘈?,隨著機器翻譯研究和計算機技術(shù)的不斷深入發(fā)展,終將有一天,世界上不同語種國家的人們可以借助機器翻譯產(chǎn)品達(dá)到在各種場合自然無障礙的交流。
參考文獻
1.《機器翻譯研究》-馮志偉著2004
2.《機器翻譯技術(shù)的進展與展望》劉群、王海峰、王惠臨、宗成慶、趙鐵軍、史曉東、朱靖波、陳家俊、張民2011-12
3.《機器翻譯研究的展望》董振東
4.《中國機器翻譯研究的機遇與挑戰(zhàn):第八屆全國機器翻譯研討會總結(jié)與展望》杜金華;張萌;宗成慶;孫樂
5.《Systran和Google翻譯系統(tǒng)英譯漢質(zhì)量評價—以四類文本翻譯為例》廖夢麟(海南醫(yī)學(xué)院外語部,海南??冢担罚保保梗梗?/p>
6.百度百科“機器翻譯”
7.《外語翻譯文化第3輯》-屠國元主編2003
8.《外語翻譯文化第3輯》-屠國元主編2003 P211
第五篇:光電子的發(fā)展趨勢及應(yīng)用
用光
電 子
技 術(shù) 發(fā) 展
態(tài) 勢 及 應(yīng)
光電子技術(shù)發(fā)展態(tài)勢及應(yīng)用
1.光電子學(xué)的出現(xiàn)和發(fā)展
光學(xué)的發(fā)展歷程古老而又漫長,電子學(xué)的發(fā)展則相對較短。光子學(xué)和光子技術(shù)可以認(rèn)為是從1960年激光器誕生才開始出現(xiàn)的一門新型科學(xué)與技術(shù)。電子學(xué)和電子技術(shù)是20世紀(jì)發(fā)展起來的科學(xué)技術(shù),現(xiàn)已處于高度發(fā)展的水平,廣泛的應(yīng)用于社會各個領(lǐng)域,并且已滲透到日常生活之中,目前正由微電子學(xué)與技術(shù)向納米電子學(xué)與技術(shù)、分子電子學(xué)與技術(shù)發(fā)展。光電子學(xué)作為這兩個學(xué)科的交叉點是一門新興的學(xué)科。關(guān)于光的電磁性質(zhì)及其在介質(zhì)中的行為,早在19世紀(jì)就已經(jīng)用麥克斯韋(Maxwell)的經(jīng)典電磁理論進行了研究,關(guān)于光的吸收和輻射,在1017年愛因斯坦(Einstein)就建立了系統(tǒng)的理論。但是直到20世紀(jì)60年代之前,光學(xué)和電子學(xué)仍然是兩門獨立的學(xué)科。
1960年世界上第一臺激光器研制成功,這標(biāo)志著光學(xué)的發(fā)展進入了一個新階段。隨后在對激光器和激光應(yīng)用的廣泛研究中,電子學(xué)發(fā)揮了重要的作用,光學(xué)和電子學(xué)的研究有了廣泛的交叉,形成了激光物理、非線性光學(xué)、波導(dǎo)光學(xué)等新學(xué)科。70年代以來,由于半導(dǎo)體激光器和光纖技術(shù)的重要突破,導(dǎo)致了以光纖傳感、光纖傳輸、光盤信息存儲與顯示、光計算以及光信息處理等技術(shù)的蓬勃發(fā)展,從深度和廣度上促進了光學(xué)和電子學(xué)及其他相應(yīng)學(xué)科(數(shù)學(xué)、物理、材料等學(xué)科)之間的相互滲透,形成了一個邊沿的研究領(lǐng)域。為此需要引進一個名詞來覆蓋這一非常廣泛的應(yīng)用研究領(lǐng)域,學(xué)術(shù)界曾經(jīng)使用的名詞有電光學(xué)(Electo-optics)、光電子學(xué)(Optoelectronics)、量子電子學(xué)(Quanumelectronics)、光波技術(shù)(LightWaveTechnology)、光子學(xué)(Photonics)等【1】。隨著時間的推移,現(xiàn)在用的較多的名詞是“光電子學(xué)(Optoelectronics)”和“光子學(xué)(Photonics)”。光電子學(xué)沿用電子學(xué)的有關(guān)理論,主要研究有光參與的電子器件和系統(tǒng)。光子學(xué)是把光子作為信息的載體和能量的載體來研究,包括光的產(chǎn)生、傳輸、調(diào)制、放大、頻率轉(zhuǎn)換和檢測等。事實上,光電子學(xué)和光子學(xué)其本質(zhì)是一致的,只不過其強調(diào)的重點不一樣,光電子學(xué)強調(diào)電子的作用,光子學(xué)強調(diào)光子的作用。
2.光電子技術(shù)的應(yīng)用
光電子學(xué)一經(jīng)出現(xiàn)就引起了人們的廣泛關(guān)注,反過來又進一步促進了光電子學(xué)及光電子技術(shù)的發(fā)展。光電子技術(shù)包括光的產(chǎn)生、傳輸、調(diào)制、放大、頻率轉(zhuǎn)換和檢測以及光信息處理等。光電子技術(shù)應(yīng)用涉及范圍極其廣泛,包括天文、地理、物理、化學(xué)、計量、生物、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)、軍事等各個領(lǐng)域。目前其應(yīng)用已進入到家庭。
2.1辦公現(xiàn)代化設(shè)備的應(yīng)用
辦公現(xiàn)代化設(shè)備主要是隨計算機迅速普及而發(fā)展起來的高技術(shù)產(chǎn)業(yè), 各國廠商正在競爭中不斷開發(fā)新一代產(chǎn)品。美日的蘋果、兄弟、惠普、佳能、富士通、數(shù)據(jù)產(chǎn)品、國際商用機器等30余家廠商的主攻產(chǎn)品是激光打印機,推出了幾十種高中低檔產(chǎn)品。激光打印機兼負(fù)現(xiàn)代文書和管理文件打印、輕印刷系統(tǒng)和臺式出版系統(tǒng)的排版任務(wù), 配合計算機的一部分功能, 是各國眾多公司競相發(fā)展的熱門產(chǎn)品之一。隨著微機日益普及, 我國對作為重要外圍設(shè)備之一的激光打印機需求量正迅速增長。目前國內(nèi)市場的激光打印機均為進口或國內(nèi)組裝產(chǎn)品, 尚無國產(chǎn)。2.2 材料加工的發(fā)展
在工業(yè)先進國家, 激光加工的地位很高,衡量一個國家工業(yè)生產(chǎn)效率及其在發(fā)達(dá)國家中的位置, 很大程度上取決于其工業(yè)用激光器的制造及其引入生產(chǎn)的進度。激光焊接、打孔、切割、微加工等多方面工業(yè)應(yīng)用, 效益同樣非??捎^。這些方面在國外加工中占據(jù)主要地位, 由于國內(nèi)材料加工業(yè)的技術(shù)改造資金來源受體制影響有極大困難, 因而沒有形成有影響的產(chǎn)業(yè), 只有通過體制改革發(fā)展我國的激光材料加工業(yè)。
2.3 激光醫(yī)學(xué)應(yīng)用
激光在醫(yī)學(xué)中的應(yīng)用是眾所共知的具有最好社會效益和經(jīng)濟效益的熱門應(yīng)用。國外激光醫(yī)療器械朝著眼科治療、顯微手術(shù)、微血管吻合、血管阻塞疏通等高精細(xì)手術(shù)裝置發(fā)展, 而國內(nèi)生產(chǎn)單位仍固守體表治療、激光針灸和穴位治療、氣功信息治療等具有中醫(yī)特色的簡易激光器械生產(chǎn), 高精細(xì)手術(shù)用的激光器械, 或因銷售情況不佳, 或因技術(shù)條件不足, 或因資金較為困難, 沒有產(chǎn)品上市, 市場只好拱手讓給美日廠商,國內(nèi)的激光醫(yī)療器械市場極大的。
2.4 通信、存儲領(lǐng)域中的應(yīng)用
光電子技術(shù)在這類熱點應(yīng)用中潛力很大, 如通信、存儲、條碼掃描、質(zhì)量檢驗、全息照相、激光刻蝕和繪畫、娛樂設(shè)備等, 都充當(dāng)了重要角色。激光和光電子在其它消費類應(yīng)用中的份額, 在世界市場上也呈逐年增長的趨勢。
2.5 礦井安全中的應(yīng)用
隨著光電技術(shù), 尤其是光電子器件的發(fā)展, 紅外型傳感器用于各種危險場合氣體成分的檢測已逐漸成為現(xiàn)實。紅外線瓦斯傳感器工作穩(wěn)定, 可滿足不同地點、不同精度的要求, 并且易維護, 使用壽命長, 適應(yīng)性強。光纖傳感器具有一些常規(guī)傳感器無可比擬的優(yōu)點, 如靈敏度高, 響應(yīng)速度快, 動態(tài)范圍大,防電磁干擾, 超高絕緣, 無源性, 防燃防爆, 適于遠(yuǎn)距離遙測, 體積小, 可靈活柔性撓曲等, 很適于在惡劣和危險環(huán)境中應(yīng)用, 因而得到廣泛重視。分布式光纖傳感利用光導(dǎo)纖維具有的傳輸雙重特性,實現(xiàn)對待測場光纖分布的多點甚至連續(xù)點測量,以達(dá)到取代多臺獨立點傳感器的目的。
3.光電子技術(shù)研究的幾個方向和熱點
光電子技術(shù)不斷地向前發(fā)展,特別是近年來,出現(xiàn)了很多新的發(fā)展趨勢和研究熱點。
3.1各種新型激光器的研究 激光器是光電子技術(shù)的核心,正是激光器的問世與發(fā)展促使了光電子學(xué)的興起與發(fā)展。在光電子技術(shù)的發(fā)展中,激光器也得到了迅速的發(fā)展。近年來各種新型激光器的不斷涌現(xiàn),又為光電子學(xué)和光電子技術(shù)的進一步發(fā)展注入了新的活力。半導(dǎo)體激光器又稱為二極管激光器,廣泛地應(yīng)用于各個領(lǐng)域,尤其是與計算機、通信技術(shù)和軍事技術(shù)應(yīng)用緊密結(jié)合,因此其技術(shù)和市場一直呈高速增長的趨勢【2】,半導(dǎo)體激光器已經(jīng)成為激光器的主流。量子阱超晶格人工改性新結(jié)構(gòu)、新材料的出現(xiàn)及能帶工程的成功應(yīng)用推動了光電子器件和半導(dǎo)體激光器的發(fā)展,半導(dǎo)體激光器的研究向?qū)拵挕⒋蠊β?、短波長以及中遠(yuǎn)紅外波長發(fā)展。隨著半導(dǎo)體激光器的發(fā)展,全固化固體激光器將以更優(yōu)異的性能取代傳統(tǒng)泵浦方式的固體激光器,成為固體激光器發(fā)展的主流。其他激光器如原子激光器的研究等也取得了進展。
3.2 硅基光電子技術(shù)的研究 我們知道,硅和鍺是微電子學(xué)中最重要的基質(zhì)材料,在硅材料上發(fā)展起來的集成電路已對電子計算機、通信和自動控制等信息技術(shù)起了關(guān)鍵的作用。隨著信息技術(shù)的日益發(fā)展,對信息的傳遞速度、存儲能力、處理能力提出了更高的要求。但是硅集成電路受到尺寸和硅質(zhì)材料中電子運動速度的限制,很難滿足發(fā)展的要求。如果能在硅芯片中引入光電子技術(shù),用光波代替電子作為信息載體,則可大大地提高信息傳輸速度和處理能力。由于硅和鍺都是間接帶隙材料,電子不能直接由導(dǎo)帶底躍遷到價帶頂發(fā)出光子,為了滿足動量守恒定律,它只能通過發(fā)射或吸收一個聲子,間接躍遷到價帶頂。這是一種多體效應(yīng),躍遷幾率很小【3】,因此硅和鍺都是發(fā)光效率低的材料。為了克服硅材料發(fā)光效率低的問題,實現(xiàn)在一塊硅片上集成電子器件和發(fā)光器件,也為了發(fā)展硅基光電子技術(shù),國外研究人員進行了不懈的努力,為了提高硅(或鍺)的發(fā)光效率,提出和研究了多種硅基發(fā)光材料,如摻鉺硅、多孔硅、納米硅、硅基異質(zhì)外延、超晶格和量子阱材料等,并取得了一定的成果。Kimerling等人【4】采用標(biāo)準(zhǔn)的集成電路工藝,在SOI(Si-on-insulator)上將側(cè)面光發(fā)射的摻鉺硅發(fā)光管與硅波導(dǎo)集成在一起。Ksybeskov等人【5】和Hirschman等人【6】采用硅微電子制備工藝將雙極晶體管和多孔硅發(fā)光管集成在一個硅片上。另據(jù)報道,英國的一個科研小組最近研究出了一種在室溫下能發(fā)光的全硅的發(fā)光二極管(LED)。我們相信,將來有可能出現(xiàn)一種全硅的激光器。硅基光電子技術(shù)正向集成化發(fā)展。一旦實現(xiàn)了全硅光電集成,將對光電子技術(shù)其他方面的發(fā)展具有重要的意義。
3.3 有機聚合物光電子材料的研究 隨著材料科學(xué)的發(fā)展,有機聚合物材料的日趨成熟,聚合物光電子學(xué)日益為人們所重視。據(jù)1993年I BM公司的Almaden研究中心報道,他們使用聚合物電光調(diào)制器和832nm半導(dǎo)體激光器實現(xiàn)了6個模擬電視信號的同時傳輸和接收,第一次在模擬信號傳輸中使用聚合物調(diào)制器并獲得較高的信噪比。由于有機聚合物的合成、加工、器件制備方面相對容易、價格低廉,而且它們有相對低的介電常數(shù),因而有更高的調(diào)制頻率和較低的驅(qū)動功率,并且容易與半導(dǎo)體器件和光纖傳輸集成,具有響應(yīng)性能快、非線性光學(xué)系數(shù)大等優(yōu)點,引起了人們的廣泛興趣。聚合物熱光開關(guān)的工作原理是這樣的:當(dāng)DC或A C電流通過薄金屬層時,加熱引起的聚合物的線性膨脹,使得聚合物的折射率降低。與電光開關(guān)的情況相比,熱光調(diào)制引起的折射率要大得多,最高可以達(dá)到0.01?,F(xiàn)在AKZONOBEL公司已經(jīng)批量生產(chǎn)聚合物熱光開關(guān)【7】。人們開展了聚合物超快全光開關(guān)的研究,并取得了一定進展。聚合物電光調(diào)制器在CATV、高比特網(wǎng)絡(luò)、相陣列系統(tǒng)和計算機平行互聯(lián)等方面的研究也取得了很大的進展。聚合物光電子材料的應(yīng)用前景十分誘人。
3.4光互連、光計算技術(shù)的研究 在因特網(wǎng)迅速發(fā)展的今天,信息快速入網(wǎng)和出網(wǎng)的分派能力決定系統(tǒng)所傳輸?shù)木薮笮畔⒘磕軐崟r利用的有效性。相對于光信息傳輸器件來說,光信息交換互連技術(shù)器件的發(fā)展不如光信息傳輸?shù)陌l(fā)展快【8】,因此有必要加強對光交換技術(shù)的研究。光互連技術(shù)的內(nèi)容主要包括光交換網(wǎng)絡(luò)和電子計算機的光互連,這是在信息光學(xué)中最有廣泛應(yīng)用前景的研究領(lǐng)域。在光交換網(wǎng)絡(luò)的光互連中,還應(yīng)多研究在集成光學(xué)中的光波導(dǎo)交換開關(guān)、自由空間光學(xué)中的多級交換網(wǎng)絡(luò)。在電子計算機的光互連中,還應(yīng)多研究芯片間的自由空間和波導(dǎo)光互連,插件板之間的自由空間和波導(dǎo)光互連,多處理器之間的自由空間或光纖互連及并行計算機的光學(xué)總成等。以數(shù)值計算為目的的光計算研究分為專用性的光計算系統(tǒng)和通用性的光計算系統(tǒng)兩大領(lǐng)域,數(shù)值的光學(xué)處理又分為模擬量編碼和數(shù)字量編碼兩種。專用性計算系統(tǒng)主要包括以光學(xué)矩陣運算為主導(dǎo)的光學(xué)代數(shù)運算器通用的光計算系統(tǒng)的算法和體系,主要借助于已有的并行計算機的算法和體系。在光互連和光計算領(lǐng)域的研究方面,國外的研究人員已經(jīng)開始研究在路由器中用全光學(xué)矩陣開關(guān)來取代原有的電開關(guān),并在光計算方面也取得了進展。
3.5大容量光存儲的研究
現(xiàn)代化信息社會對大容量、快速存取時間的存儲系統(tǒng)有著日益增長的要求。傳統(tǒng)使用的存儲采用磁盤技術(shù),這一技術(shù)發(fā)展相當(dāng)成熟,磁盤的存儲容量大(可以達(dá)到幾十G)、存取時間短(0.1ms)、存儲時間長并且可擦寫。但是它遇到兩方面的困難:一是尺寸限制,二是信噪比難以提高。傳統(tǒng)的磁盤存儲方法由于其存儲素元難以進一步縮小,很難提高其存儲容量了。而光盤作為存儲介質(zhì)和光子技術(shù)的使用,是大幅度提高存儲容量的出路。光盤的存儲量決定于記錄介質(zhì)寫入位尺寸和寫讀斑的大小。采用短波長的半導(dǎo)體激光器,可以大幅度降低介質(zhì)光斑的大小,提高存儲容量。目前選用波長為780nm和640nm的激光器,采用復(fù)膜技術(shù)及雙光頭讀寫技術(shù),已使存儲容量達(dá)到數(shù)G b范圍。為進一步提高存儲容量,一方面使用更短波長的激光器并進行光斑壓縮;另一方面,也可通過改變存儲介質(zhì)和存儲方法來提高存儲量。與此同時,發(fā)展新型的集成激光器面陣和高密度半導(dǎo)體低維結(jié)構(gòu)高速空間光調(diào)制器也將促進高密度存儲技術(shù)的發(fā)展。今年4月23日至25日在美國召開的“光學(xué)數(shù)據(jù)存儲2001年會”上,日本的東芝、三菱電子、NEC等三家大公司同時報道了光盤單面存儲密度為25~32GB的實驗結(jié)果。近場光學(xué)存儲,以超衍射分辨為特征,從根本上克服了點存儲的密度極限限制,無疑是光盤存儲的重要發(fā)展方向。其技術(shù)難點集中在近場距離的控制上,通過適當(dāng)?shù)募夹g(shù)手段,保持頭盤間距能夠限制在近場范圍之內(nèi),近場存儲就有望成為下一代盤式存儲的主要技術(shù)手段【9】。
3.6生物醫(yī)學(xué)中的光電子技術(shù)
生命科學(xué)是當(dāng)今世界科技發(fā)展的最大熱點之一,也是光電子技術(shù)的一個重要應(yīng)用領(lǐng)。近年來,生物醫(yī)學(xué)中的光電子技術(shù)研究十分活躍,發(fā)展十分迅速,它將開拓生命科學(xué)的一個新領(lǐng)域。目前,生物醫(yī)學(xué)中的光電子技術(shù)研究的主要內(nèi)容包括兩個方面:一是生物系統(tǒng)中產(chǎn)生的光子及其反映的生命過程,以及這種光子在生物學(xué)研究、醫(yī)學(xué)診斷、農(nóng)業(yè)、環(huán)境、甚至食品品質(zhì)檢查方面的重要應(yīng)用,利用光電子技術(shù)對生物系統(tǒng)進行檢測、治療、加工與改造等。二是醫(yī)學(xué)光電子學(xué)基礎(chǔ)和技術(shù),包括組織光學(xué)、醫(yī)學(xué)光譜技術(shù)、醫(yī)學(xué)成像技術(shù)、新穎的激光診斷和激光醫(yī)療技術(shù)及其作用機理的研究。
參考文獻
【1】殷一賢。關(guān)于光電子學(xué)與光子學(xué)【J】。激光雜志19 98,1 9(1):12 0?!?】陳維德。21世紀(jì)的光學(xué)和光電子學(xué)講座(第二講):硅基發(fā)光材料和器件研究 【J】。物理,2000,2 8(12):74 1-745。
【4】Kimerling LC,Kolenbrander KD,MichelJetal。SolidStatePhys,19 97,5 0:3 33341?!? 】Keil N,Yao H,ZawadzkiC。Integrated Photonics Research【Z】。1998 Technical DigestSeries,Canada :Vactoria。353-355。
【8】吳榮漢。21世紀(jì)的光學(xué)和光電子學(xué)講座(第三講):信息網(wǎng)絡(luò)與半導(dǎo)體光電子學(xué)【J】。物理,2000,29(1):45-49?!?】孫利群,章恩耀,王佳等。基于近場光學(xué)超衍射分辨力的高密度光存儲【J】。光電子·激光,2001,12(6):646-652。