九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

機器翻譯IIMachineTranslationII.ppt

上傳人:max****ui 文檔編號:14790521 上傳時間:2020-07-30 格式:PPT 頁數(shù):64 大?。?73.50KB
收藏 版權(quán)申訴 舉報 下載
機器翻譯IIMachineTranslationII.ppt_第1頁
第1頁 / 共64頁
機器翻譯IIMachineTranslationII.ppt_第2頁
第2頁 / 共64頁
機器翻譯IIMachineTranslationII.ppt_第3頁
第3頁 / 共64頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《機器翻譯IIMachineTranslationII.ppt》由會員分享,可在線閱讀,更多相關(guān)《機器翻譯IIMachineTranslationII.ppt(64頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、機器翻譯IIMachine Translation II,張宇 哈爾濱工業(yè)大學計算機科學與技術(shù)學院 ,2020年7月30日10時9分,語言信息處理--機器翻譯II,2,大綱,基于翻譯記憶的機器翻譯方法 基于模板(模式)的機器翻譯方法 雙語語料庫對齊技術(shù) 句子對齊 詞語對齊 機器翻譯的評價,2020年7月30日10時9分,語言信息處理--機器翻譯II,3,翻譯記憶方法1,翻譯記憶方法(Translation Memory)是基于實例方法的特例; 也可以把基于實例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經(jīng)翻譯過的句子保存起來 翻譯新句子時,直接到語料庫中去查找 如果發(fā)現(xiàn)相同的句

2、子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,2020年7月30日10時9分,語言信息處理--機器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應(yīng)用于計算機輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點 翻譯質(zhì)量有保證 隨著使用時間匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯,例如公司的產(chǎn)品說明書的新版本翻譯 與語言無關(guān),適用于各種語言對 缺點是匹配成功率不高,特別是剛開始使用時,2020年7月30日10時9分,語言信息處理--機器翻譯II,5,翻譯記憶方法3,計算機輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號稱占有國際CAT市場的70% Mic

3、rosoft、Siemens、SAP等國際大公司和一些著名的國際組織都是其用戶 雅信CAT 適合中國人的習慣 產(chǎn)品已比較成熟 國際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數(shù)據(jù)交換:LISA制定了TMX(Translation Memory eXchange)標準。,2020年7月30日10時9分,語言信息處理--機器翻譯II,6,翻譯記憶方法4,完整的計算機輔助翻譯軟件除了包括翻譯記憶功能以外,還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語庫管理功能 語料庫的句子對齊(歷史資料的重復(fù)利用) 項目管理

4、: 翻譯任務(wù)的分解與合并 翻譯工作量的估計 數(shù)據(jù)共享和數(shù)據(jù)交換,2020年7月30日10時9分,語言信息處理--機器翻譯II,7,翻譯記憶方法5,2020年7月30日10時9分,語言信息處理--機器翻譯II,8,基于模板(模式)的機器翻譯方法1,基于模板(Template)或者模式(Pattern)的機器翻譯方法通常也被看做基于實例的機器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過于抽象,容易出錯 翻譯實例:顆粒度小,不易出錯,但過于具體,匹配可能性小 翻譯模板(模式):介于

5、二者之間,是一種比較合適的知識表示形式 一般而言,單語模板(或模式)是一個常量和變量組成的字符串,翻譯模板(或模式)是兩個對應(yīng)的單語模板(或模式),兩個模板之間的變量存在意義對應(yīng)關(guān)系,2020年7月30日10時9分,語言信息處理--機器翻譯II,9,基于模板(模式)的機器翻譯方法2,模板舉例: 這個X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問題 對模板中變量的約束 模板抽取 模板的沖突消解,2020年7月30日10時9分,語言信息處理--機器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-

6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 給出了翻譯模式的一種形式化定義,并給出了相應(yīng)的翻譯算法以及算法復(fù)雜性的理論證明,2020年7月30日10時9分,語言信息處理--機器翻譯II,11,Pattern-Based CFG for MT 2,每個翻譯模板由一個源語言上下文無關(guān)規(guī)則和一個目標語言上下文無關(guān)規(guī)則(這兩個規(guī)則稱為翻譯模板的骨架),以及對這兩個規(guī)則的中心詞約束和鏈接約束構(gòu)成; 中心詞約束:對于上下文無關(guān)語法規(guī)則中右部(子結(jié)點)的每個非

7、終結(jié)符,可以指定其中心詞;對于規(guī)則左部(父結(jié)點)的非終結(jié)符,可以直接指定其中心詞,也可以通過使用相同的序號規(guī)定其中心詞等于其右部的某個非終結(jié)符的中心詞; 鏈接約束:源語言骨架和目標語言骨架的非終結(jié)符子結(jié)點通過使用相同的序號建立對應(yīng)關(guān)系,具有對應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2020年7月30日10時9分,語言信息處理--機器翻譯II,12,Pattern-Based CFG for MT 3,2020年7月30日10時9分,語言信息處理--機器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過程分為三步: 使用源語言CFG骨架分析輸入句子s 應(yīng)用源語言到目標語言的CFG

8、骨架的鏈接約束,生成一個譯文CFG推導(dǎo)序列 根據(jù)譯文CFG推導(dǎo)序列產(chǎn)生譯文 模板排序的啟發(fā)式原則: 對于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒有中心詞約束的模板; 對于同一跨度上的兩個結(jié)點,比較其對應(yīng)的模板的源文CFG骨架,非終結(jié)符少的模板優(yōu)先于非終結(jié)符多的模板; 中心詞約束被滿足的結(jié)點優(yōu)先于中心詞約束不被滿足的結(jié)點; 對于一個輸入串而言,分析步驟越短(推導(dǎo)序列越短)越優(yōu)先。,2020年7月30日10時9分,語言信息處理--機器翻譯II,14,Pattern-Based CFG for MT 4,模板庫的獲?。杭僭O(shè)T是一組翻譯模板,B是雙語語料庫,是一對互為翻譯的句子 如果T能夠

9、翻譯句子s為t,那么do nothing; 如果T將s譯為t(不等于t),那么: 如果T中存在的推導(dǎo)Q,但這個推導(dǎo)不是最優(yōu)解,那么給Q中的模板進行實例化; 如果不存在這種推導(dǎo),那么加入適當?shù)哪0?,使得推?dǎo)成立; 如果根本無法翻譯s(分析失敗),那么將直接加入到模板庫中。,2020年7月30日10時9分,語言信息處理--機器翻譯II,15,模板的自動提取,利用一對實例進行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation http://www.lti.cs.cmu.edu/Res

10、earch/GEBMT/ 利用兩對實例進行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健,基于實例的機器翻譯的泛化方法研究,中科院計算所碩士論文,2001,2020年7月30日10時9分,語言信息處理--機器翻譯II,16,通過泛化實例得到翻譯模板,已有實例: Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國特里爾城。 泛化:

11、was born in in 于出生在 對齊 ,2020年7月30日10時9分,語言信息處理--機器翻譯II,17,通過比較實例得到翻譯模板,已有兩對翻譯實例: 我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側(cè)單語句子分別比較,得到: 我給#X 一#Y #Z I give #W a #U. 查找變量的對應(yīng)關(guān)系: #X #W #Y #Z #U,2020年7月30日10時9分,語言信息處理--機器翻譯II,18,實例庫的匹配1,實例匹配的目的是將輸入句子分解成語料庫中實例片斷的組合,這是基于實例的機器翻譯的關(guān)鍵問題之一,實例匹配

12、的各種方法有很大的差異,還沒有那種做法顯示出明顯的優(yōu)勢; 實例庫匹配的效率問題:由于實例庫規(guī)模較大,通常需要建立倒排索引; 實例庫匹配的其他問題: 實例片斷的分解: 實例片斷的組合:,2020年7月30日10時9分,語言信息處理--機器翻譯II,19,實例庫的匹配2,實例片斷的分解 實例庫中的句子往往太長,直接匹配成功率太低,為了提高實例的重用性,需要將實例庫中的句子分解為片斷 幾種通常的做法: 按標點符號分解 任意分解 通過組塊分析進行分解,2020年7月30日10時9分,語言信息處理--機器翻譯II,20,實例庫的匹配3,實例片斷的組合 一個被翻譯的句子,往往可以通過各種不同的實例片斷進行

13、組合,如何選擇一個最好的組合? 簡單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點像漢語詞語切分問題,2020年7月30日10時9分,語言信息處理--機器翻譯II,21,片斷譯文的選擇,由于語料庫中一個片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問題; 常用的方法: 根據(jù)片斷上下文進行排歧; 根據(jù)譯文的語言模型選擇概率最大的譯文片斷組合,2020年7月30日10時9分,語言信息處理--機器翻譯II,22,實例庫的對齊,實例庫又稱雙語語料庫(Bilingual Corpus)或平行語料庫(Parallel Corpus) 雙語語料庫對齊的級別 篇章對齊 段落對齊 句子對齊 詞

14、語對齊 短語塊對齊 句法結(jié)構(gòu)對齊 基于實例的機器翻譯中實例庫必須至少做到句子級別的對齊,2020年7月30日10時9分,語言信息處理--機器翻譯II,23,不同對齊級別的差異,段落對齊和句子對齊 要求保持順序(允許局部順序的調(diào)整) 只有一個層次 詞語對齊和短語塊對齊 不要求保持順序 只有一個層次 句法結(jié)構(gòu)對齊 不要求保持順序 多層次對齊,2020年7月30日10時9分,語言信息處理--機器翻譯II,24,句子對齊1,2020年7月30日10時9分,語言信息處理--機器翻譯II,25,句子對齊2,2020年7月30日10時9分,語言信息處理--機器翻譯II,26,基于長度的句子對齊1,基本思想:

15、源語言和目標語言的句子長度存在一定的比例關(guān)系 用兩個因素來估計一個句珠的概率 源語言和目標語言中句子的長度 源語言和目標語言中的句子數(shù)(對齊模式),2020年7月30日10時9分,語言信息處理--機器翻譯II,27,基于長度的句子對齊2,根據(jù)統(tǒng)計,隨機變量X=lTi/lSi服從正態(tài)分布,2020年7月30日10時9分,語言信息處理--機器翻譯II,28,基于長度的句子對齊3,設(shè)通過語料庫統(tǒng)計得到X的期望為c,方差為v2,那么隨機變量將服從0,1正態(tài)分布: 根據(jù)正態(tài)分布公式可以計算出(直接查表):,2020年7月30日10時9分,語言信息處理--機器翻譯II,29,基于長度的句子對齊4,對齊模式

16、的概率P(mS,mT)可以通過對語料庫的統(tǒng)計得到。 下面是Gale & Church根據(jù)UBS語料庫的統(tǒng)計結(jié)果:,2020年7月30日10時9分,語言信息處理--機器翻譯II,30,基于長度的句子對齊5,最優(yōu)路徑的搜索:采用動態(tài)規(guī)劃算法 定義P(i,j)=P(s1si,t1tj) 最優(yōu)對齊為P(m,n)所對應(yīng)的路徑,2020年7月30日10時9分,語言信息處理--機器翻譯II,31,基于長度的句子對齊6,優(yōu)點 不依賴于具體的語言; 速度快; 效果好 缺點 由于沒有考慮詞語信息,有時會產(chǎn)生一些明顯的錯誤 討論 長度計算可以采用詞數(shù)或者字節(jié)數(shù),沒有明顯的優(yōu)劣之分,2020年7月30日10時9分,

17、語言信息處理--機器翻譯II,32,基于詞的句子對齊1,基本思想:互為翻譯的句子對中,含有互為翻譯的詞語對的概率,大大高于隨機的句子對 用兩個因素來估計一個句珠的概率 源語言和目標語言中互譯詞語的個數(shù) 源語言和目標語言中的句子數(shù)(對齊模式),2020年7月30日10時9分,語言信息處理--機器翻譯II,33,基于詞的句子對齊2,優(yōu)點 可以充分利用詞語互譯信息,提高正確率 缺點 單獨使用時,正確率有時低于基于長度的方法(取決于詞典的規(guī)模質(zhì)量等) 時空開銷大 討論 對于同源的語言(英語和法語,漢語和日語)可以利用詞語同源信息而不使用詞典,2020年7月30日10時9分,語言信息處理--機器翻譯II

18、,34,句子對齊小結(jié),句子對齊的語料庫是基于語料庫的機器翻譯的基礎(chǔ); 綜合采用基于長度的方法和基于詞匯的方法可以取得較好的效果; 句子對齊可以取得很高的正確率,已經(jīng)達到實用水平。,2020年7月30日10時9分,語言信息處理--機器翻譯II,35,詞語對齊1,特點: 保序性不再滿足 對齊模式復(fù)雜:一對多、多對一、多對多都非常普遍,2020年7月30日10時9分,語言信息處理--機器翻譯II,36,詞語對齊2,困難: 翻譯歧義:一個詞出現(xiàn)兩個以上的譯詞 雙語詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個以上相同的詞 漢語詞語切分問題 虛詞問題:虛詞的翻譯非常靈活,或沒有對譯詞 意譯問題:根本

19、找不到對譯的詞,2020年7月30日10時9分,語言信息處理--機器翻譯II,37,詞語對齊3,一般而言,一個單詞對齊的模型可以表述為兩個模型的乘積: 詞語相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下:,2020年7月30日10時9分,語言信息處理--機器翻譯II,38,詞語相似度模型1,翻譯概率:IBM Model 1 T-Score: Nc:語料庫中單詞c出現(xiàn)的詞數(shù) Ne:語料庫中單詞e出現(xiàn)的詞數(shù) Nec:語料庫中單詞e和單詞c互譯的詞數(shù),2020年7月30日10時9分,語言信息處理--機器翻譯II,3

20、9,詞語相似度模型2,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個集合,則這兩個集合的戴斯系數(shù)可以通過如下公式計算 把漢語詞理解為漢字的集合,戴斯系數(shù)就是兩個詞中相同的漢字占兩個詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計算漢語詞相似度時有較好的效果 計算漢語詞c和英語詞e的相似度: 先用英語詞e查英漢詞典,得到所有的漢語對譯詞; 計算所有對譯詞和c的戴斯系數(shù),取其中的最大值。,2020年7月30日10時9分,語言信息處理--機器翻譯II,40,詞語相似度模型3,互信息(mutual information) 通過兩個事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他

21、們聯(lián)合出現(xiàn)的概率為p(X,Y),這兩個事件之間共同的互信息量定義為: 當兩個事件相互獨立時,互信息量為0; 當兩個事件傾向于同時出現(xiàn)時,互信息量為正; 當兩個事件傾向于互相排斥時,互信息量為負; 利用互信息作詞語相似度計算效果較差。,2020年7月30日10時9分,語言信息處理--機器翻譯II,41,詞語相似度模型4,2方法:利用聯(lián)立表(contingency table) 2方法的效果比較好,2020年7月30日10時9分,語言信息處理--機器翻譯II,42,詞語相似度模型5,對數(shù)似然比( Log Likelihood Ratio,LLR ) 對數(shù)似然比在使用中比較有效,在訓練語料庫規(guī)

22、模較小時尤為明顯,2020年7月30日10時9分,語言信息處理--機器翻譯II,43,詞語相似度模型6,概念相似度 利用某種形式的義類詞典(Thesaurus),計算兩個詞語對應(yīng)的概念之間的相似度 其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個結(jié)點之間的距離來計算是一個可條件的參數(shù),2020年7月30日10時9分,語言信息處理--機器翻譯II,44,詞語相似度模型7,同義詞詞林的概念層次體系 虛線用于標識某上層結(jié)點到下層結(jié)點的路徑,2020年7月30日10時9分,語言信息處理--機器翻譯II,45,位置扭曲模型1,絕對扭曲模型:IBM Model 2 l:源語言句子長度

23、 m:目標語言句子長度 i:源語言詞語位置 j:目標語言詞語位置,2020年7月30日10時9分,語言信息處理--機器翻譯II,46,位置扭曲模型2,相對偏移模型,2020年7月30日10時9分,語言信息處理--機器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型 將每個對齊看作狀態(tài),對齊位置之間的轉(zhuǎn)移是狀態(tài)的轉(zhuǎn)移,該對齊處的單詞對作為輸出。這樣就可以將對齊問題映射到HMM上,2020年7月30日10時9分,語言信息處理--機器翻譯II,48,詞語對齊小結(jié),詞語對齊比句子對齊困難得多; 詞語對齊主要使用一個詞語相似度模型和一個位置扭曲模型; 詞語對齊的副產(chǎn)品:雙語詞典抽取

24、貪心算法:每次抽取可能性最高的詞對; 詞語抽取和詞語對齊反復(fù)迭代 可以抽取多詞單元(n元組),2020年7月30日10時9分,語言信息處理--機器翻譯II,49,機器翻譯評價1,最早的機器翻譯評價:ALPAC報告 機器翻譯評價的常用指標 忠實度(Adequacy):譯文在多大程度上傳遞了源文的內(nèi)容; 流利度(Fluency):譯文是否符合目標語言的語法和表達習慣; 信息度(Informative):用戶可以從譯文中獲得信息的程度(通過選擇題評分) 絕對評價和相對評價,2020年7月30日10時9分,語言信息處理--機器翻譯II,50,機器翻譯評價2,人工評價 準確 成本極高 不能反復(fù)使用 自動

25、評價 準確率低 成本低 可以反復(fù)使用,2020年7月30日10時9分,語言信息處理--機器翻譯II,51,機器翻譯評價3,機器翻譯的評價一直是機器翻譯研究領(lǐng)域中一個備受關(guān)注的問題; 機器翻譯的自動評價越來越引起重視 “評測驅(qū)動”成為自然語言處理研究的一個主要動力 大規(guī)模語料庫的出現(xiàn)、各種機器翻譯算法的提出,使得開發(fā)過程中頻繁的評測成為必需 開發(fā)過程中頻繁的評測只能通過采用自動評測方法,2020年7月30日10時9分,語言信息處理--機器翻譯II,52,機器翻譯的自動評測,完全匹配方法 與參考譯文完全相同的譯文才被認為是正確的 顯然該標準過于嚴格,不適用 編輯距離方法 基于測試點的方法 基于N元

26、語法的方法,2020年7月30日10時9分,語言信息處理--機器翻譯II,53,基于編輯距離的機器翻譯評測1,編輯距離定義: 從候選譯文到參考譯文,所需要進行的插入、刪除、替換操作的次數(shù) 舉例說明: 源文:She is a star with the theatre company. 機器譯文:她是與劇院公司的一顆星。 參考譯文:她是劇團的明星。 編輯距離:6 插入:與 公司 一顆 替換:劇團劇院 明星星,2020年7月30日10時9分,語言信息處理--機器翻譯II,54,基于編輯距離的機器翻譯評測2,單詞錯誤率:編輯距離除以參考譯文中單詞數(shù) 這個指標是從語音識別中借鑒過來的。 由于語音識別的

27、結(jié)果語序是不可變的,而機器翻譯的結(jié)果語序是可變的,顯然這個指標存在一定的缺陷。 與位置無關(guān)的單詞錯誤率:計算編輯距離時,不考慮插入、刪除、替換操作的順序 也就是說,候選譯文與參考譯文相比,多出或不夠的詞進行刪除或插入操作,其余不同的詞進行替換操作。 這個指標與單詞錯誤率相比,允許語序的變化,不過又過于靈活。,2020年7月30日10時9分,語言信息處理--機器翻譯II,55,基于測試點的機器翻譯評測1,俞士汶等,機器翻譯譯文質(zhì)量自動評估系統(tǒng),中國中文信息學會1991年論文集,pp. 314319 基本思想 對于每一個句子,孤立測試點,簡化測試目標(模擬人類標準化考試的辦法) 對于每一個句子,采

28、用一種TDL語言描述的BNF去與譯文匹配,匹配成功則正確,否則錯誤 大批量出題,全面評價機器翻譯譯文質(zhì)量,2020年7月30日10時9分,語言信息處理--機器翻譯II,56,基于測試點的機器翻譯評測2,測試點分組: 單詞、詞組、詞法、語法(初、中、高級) 測試點示例: 源文:I am a student. 測試:譯文中出現(xiàn)“學生/大學生”為正確 源文:I bought a table with three dollars. 測試:“買”出現(xiàn)在“美元”之后為正確 源文:I bought a table with three legs. 測試:“買”出現(xiàn)在“腿”之前為正確,2020年7月30日10

29、時9分,語言信息處理--機器翻譯II,57,基于測試點的機器翻譯評測3,優(yōu)點: 全自動 實驗證明,評價結(jié)果是可信的 可以按照人類專家的要求進行單項評測 缺點 題庫的構(gòu)造需要具有專門知識的專家,并且成本較高,2020年7月30日10時9分,語言信息處理--機器翻譯II,58,基于N元語法的機器翻譯評測1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W010

30、9-022) September 17, 2001 基本思想 用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計算匹配的N元組個數(shù)與候選譯文的N元組總個數(shù)的比例 允許一個源文有多個參考譯文,綜合評分,2020年7月30日10時9分,語言信息處理--機器翻譯II,59,基于N元語法的機器翻譯評測2,源文:黨指揮槍是我黨的行動指南。 候選譯文: It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops foreve

31、r hearing the activity guidebook that party direct 參考譯文: It is a guide to action that ensures that the military will forever heed party commands It is the guiding principle which guarantees the military forces always being under the command of the party It is the practical guide for the army to heed

32、 the directions of the party,2020年7月30日10時9分,語言信息處理--機器翻譯II,60,基于N元語法的機器翻譯評測3,兩個改進: 對于候選譯文中某個n元接續(xù)組出現(xiàn)的次數(shù),如果比參考譯文中出現(xiàn)的最大次數(shù)還多,要把多出的次數(shù)“剪掉”(不作為正確的匹配)。 為了避免“召回率”過低的問題,BLEU的評價標準又對比參考譯文更短的句子設(shè)計了“懲罰因子”。,2020年7月30日10時9分,語言信息處理--機器翻譯II,61,基于N元語法的機器翻譯評測4,BLEU的總體評價公式如下: 其中,pn是出現(xiàn)在參考譯文中的n元詞語接續(xù)組占候選譯文中n元詞語接續(xù)組總數(shù)的比例,wn

33、 1/N,N為最大的n元語法階數(shù)(實際取4)。 其中c為候選譯文中單詞的個數(shù),r為參考譯文中與c最接近的譯文單詞個數(shù)。,2020年7月30日10時9分,語言信息處理--機器翻譯II,62,基于N元語法的機器翻譯評測5,其中S1、S2、S3分別是三個不同的機器翻譯系統(tǒng)提供的譯文,H1和H2是兩個人類翻譯者提供的譯文。藍線是BLEU系統(tǒng)評測的結(jié)果,紅線是只懂目標語言的人類專家提供的評測結(jié)果,綠線是同時懂源語言和目標語言的人類專家提供的評測結(jié)果。,2020年7月30日10時9分,語言信息處理--機器翻譯II,63,基于N元語法的機器翻譯評測6,這種方法比較好地模擬了人對機器翻譯結(jié)果的評價 對于低質(zhì)量譯文比高質(zhì)量譯文的評價跟準確; 評價結(jié)果與只懂目標語言的人的評價結(jié)果更接近(相對于懂雙語的人而言) 優(yōu)點 全自動 可以提供多種參考譯文綜合考慮,結(jié)果更全面 容易構(gòu)造測試集,不需要專門知識,2020年7月30日10時9分,語言信息處理--機器翻譯II,64,復(fù)習思考題,利用圣經(jīng)雙語語料庫實現(xiàn)一個詞語對齊系統(tǒng),并從中抽取出一部包含多詞單元的雙語詞典。,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!