機(jī)器翻譯IIMachineTranslationII.ppt
《機(jī)器翻譯IIMachineTranslationII.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器翻譯IIMachineTranslationII.ppt(64頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、機(jī)器翻譯IIMachine Translation II,張宇 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 ,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,2,大綱,基于翻譯記憶的機(jī)器翻譯方法 基于模板(模式)的機(jī)器翻譯方法 雙語語料庫對齊技術(shù) 句子對齊 詞語對齊 機(jī)器翻譯的評價(jià),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,3,翻譯記憶方法1,翻譯記憶方法(Translation Memory)是基于實(shí)例方法的特例; 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經(jīng)翻譯過的句子保存起來 翻譯新句子時(shí),直接到語料庫中去查找 如果發(fā)現(xiàn)相同的句
2、子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯,例如公司的產(chǎn)品說明書的新版本翻譯 與語言無關(guān),適用于各種語言對 缺點(diǎn)是匹配成功率不高,特別是剛開始使用時(shí),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,5,翻譯記憶方法3,計(jì)算機(jī)輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)稱占有國際CAT市場的70% Mic
3、rosoft、Siemens、SAP等國際大公司和一些著名的國際組織都是其用戶 雅信CAT 適合中國人的習(xí)慣 產(chǎn)品已比較成熟 國際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數(shù)據(jù)交換:LISA制定了TMX(Translation Memory eXchange)標(biāo)準(zhǔn)。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,6,翻譯記憶方法4,完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功能以外,還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語庫管理功能 語料庫的句子對齊(歷史資料的重復(fù)利用) 項(xiàng)目管理
4、: 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,7,翻譯記憶方法5,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,8,基于模板(模式)的機(jī)器翻譯方法1,基于模板(Template)或者模式(Pattern)的機(jī)器翻譯方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識(shí)表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過于抽象,容易出錯(cuò) 翻譯實(shí)例:顆粒度小,不易出錯(cuò),但過于具體,匹配可能性小 翻譯模板(模式):介于
5、二者之間,是一種比較合適的知識(shí)表示形式 一般而言,單語模板(或模式)是一個(gè)常量和變量組成的字符串,翻譯模板(或模式)是兩個(gè)對應(yīng)的單語模板(或模式),兩個(gè)模板之間的變量存在意義對應(yīng)關(guān)系,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,9,基于模板(模式)的機(jī)器翻譯方法2,模板舉例: 這個(gè)X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問題 對模板中變量的約束 模板抽取 模板的沖突消解,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-
6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 給出了翻譯模式的一種形式化定義,并給出了相應(yīng)的翻譯算法以及算法復(fù)雜性的理論證明,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,11,Pattern-Based CFG for MT 2,每個(gè)翻譯模板由一個(gè)源語言上下文無關(guān)規(guī)則和一個(gè)目標(biāo)語言上下文無關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成; 中心詞約束:對于上下文無關(guān)語法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非
7、終結(jié)符,可以指定其中心詞;對于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞; 鏈接約束:源語言骨架和目標(biāo)語言骨架的非終結(jié)符子結(jié)點(diǎn)通過使用相同的序號(hào)建立對應(yīng)關(guān)系,具有對應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,12,Pattern-Based CFG for MT 3,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過程分為三步: 使用源語言CFG骨架分析輸入句子s 應(yīng)用源語言到目標(biāo)語言的CFG
8、骨架的鏈接約束,生成一個(gè)譯文CFG推導(dǎo)序列 根據(jù)譯文CFG推導(dǎo)序列產(chǎn)生譯文 模板排序的啟發(fā)式原則: 對于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒有中心詞約束的模板; 對于同一跨度上的兩個(gè)結(jié)點(diǎn),比較其對應(yīng)的模板的源文CFG骨架,非終結(jié)符少的模板優(yōu)先于非終結(jié)符多的模板; 中心詞約束被滿足的結(jié)點(diǎn)優(yōu)先于中心詞約束不被滿足的結(jié)點(diǎn); 對于一個(gè)輸入串而言,分析步驟越短(推導(dǎo)序列越短)越優(yōu)先。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,14,Pattern-Based CFG for MT 4,模板庫的獲?。杭僭O(shè)T是一組翻譯模板,B是雙語語料庫,是一對互為翻譯的句子 如果T能夠
9、翻譯句子s為t,那么do nothing; 如果T將s譯為t(不等于t),那么: 如果T中存在的推導(dǎo)Q,但這個(gè)推導(dǎo)不是最優(yōu)解,那么給Q中的模板進(jìn)行實(shí)例化; 如果不存在這種推導(dǎo),那么加入適當(dāng)?shù)哪0?,使得推?dǎo)成立; 如果根本無法翻譯s(分析失?。?,那么將直接加入到模板庫中。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,15,模板的自動(dòng)提取,利用一對實(shí)例進(jìn)行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation http://www.lti.cs.cmu.edu/Res
10、earch/GEBMT/ 利用兩對實(shí)例進(jìn)行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健,基于實(shí)例的機(jī)器翻譯的泛化方法研究,中科院計(jì)算所碩士論文,2001,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,16,通過泛化實(shí)例得到翻譯模板,已有實(shí)例: Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國特里爾城。 泛化:
11、was born in in 于出生在 對齊 ,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,17,通過比較實(shí)例得到翻譯模板,已有兩對翻譯實(shí)例: 我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側(cè)單語句子分別比較,得到: 我給#X 一#Y #Z I give #W a #U. 查找變量的對應(yīng)關(guān)系: #X #W #Y #Z #U,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,18,實(shí)例庫的匹配1,實(shí)例匹配的目的是將輸入句子分解成語料庫中實(shí)例片斷的組合,這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵問題之一,實(shí)例匹配
12、的各種方法有很大的差異,還沒有那種做法顯示出明顯的優(yōu)勢; 實(shí)例庫匹配的效率問題:由于實(shí)例庫規(guī)模較大,通常需要建立倒排索引; 實(shí)例庫匹配的其他問題: 實(shí)例片斷的分解: 實(shí)例片斷的組合:,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,19,實(shí)例庫的匹配2,實(shí)例片斷的分解 實(shí)例庫中的句子往往太長,直接匹配成功率太低,為了提高實(shí)例的重用性,需要將實(shí)例庫中的句子分解為片斷 幾種通常的做法: 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過組塊分析進(jìn)行分解,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,20,實(shí)例庫的匹配3,實(shí)例片斷的組合 一個(gè)被翻譯的句子,往往可以通過各種不同的實(shí)例片斷進(jìn)行
13、組合,如何選擇一個(gè)最好的組合? 簡單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點(diǎn)像漢語詞語切分問題,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,21,片斷譯文的選擇,由于語料庫中一個(gè)片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問題; 常用的方法: 根據(jù)片斷上下文進(jìn)行排歧; 根據(jù)譯文的語言模型選擇概率最大的譯文片斷組合,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,22,實(shí)例庫的對齊,實(shí)例庫又稱雙語語料庫(Bilingual Corpus)或平行語料庫(Parallel Corpus) 雙語語料庫對齊的級別 篇章對齊 段落對齊 句子對齊 詞
14、語對齊 短語塊對齊 句法結(jié)構(gòu)對齊 基于實(shí)例的機(jī)器翻譯中實(shí)例庫必須至少做到句子級別的對齊,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,23,不同對齊級別的差異,段落對齊和句子對齊 要求保持順序(允許局部順序的調(diào)整) 只有一個(gè)層次 詞語對齊和短語塊對齊 不要求保持順序 只有一個(gè)層次 句法結(jié)構(gòu)對齊 不要求保持順序 多層次對齊,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,24,句子對齊1,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,25,句子對齊2,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,26,基于長度的句子對齊1,基本思想:
15、源語言和目標(biāo)語言的句子長度存在一定的比例關(guān)系 用兩個(gè)因素來估計(jì)一個(gè)句珠的概率 源語言和目標(biāo)語言中句子的長度 源語言和目標(biāo)語言中的句子數(shù)(對齊模式),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,27,基于長度的句子對齊2,根據(jù)統(tǒng)計(jì),隨機(jī)變量X=lTi/lSi服從正態(tài)分布,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,28,基于長度的句子對齊3,設(shè)通過語料庫統(tǒng)計(jì)得到X的期望為c,方差為v2,那么隨機(jī)變量將服從0,1正態(tài)分布: 根據(jù)正態(tài)分布公式可以計(jì)算出(直接查表):,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,29,基于長度的句子對齊4,對齊模式
16、的概率P(mS,mT)可以通過對語料庫的統(tǒng)計(jì)得到。 下面是Gale & Church根據(jù)UBS語料庫的統(tǒng)計(jì)結(jié)果:,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,30,基于長度的句子對齊5,最優(yōu)路徑的搜索:采用動(dòng)態(tài)規(guī)劃算法 定義P(i,j)=P(s1si,t1tj) 最優(yōu)對齊為P(m,n)所對應(yīng)的路徑,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,31,基于長度的句子對齊6,優(yōu)點(diǎn) 不依賴于具體的語言; 速度快; 效果好 缺點(diǎn) 由于沒有考慮詞語信息,有時(shí)會(huì)產(chǎn)生一些明顯的錯(cuò)誤 討論 長度計(jì)算可以采用詞數(shù)或者字節(jié)數(shù),沒有明顯的優(yōu)劣之分,2020年7月30日10時(shí)9分,
17、語言信息處理--機(jī)器翻譯II,32,基于詞的句子對齊1,基本思想:互為翻譯的句子對中,含有互為翻譯的詞語對的概率,大大高于隨機(jī)的句子對 用兩個(gè)因素來估計(jì)一個(gè)句珠的概率 源語言和目標(biāo)語言中互譯詞語的個(gè)數(shù) 源語言和目標(biāo)語言中的句子數(shù)(對齊模式),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,33,基于詞的句子對齊2,優(yōu)點(diǎn) 可以充分利用詞語互譯信息,提高正確率 缺點(diǎn) 單獨(dú)使用時(shí),正確率有時(shí)低于基于長度的方法(取決于詞典的規(guī)模質(zhì)量等) 時(shí)空開銷大 討論 對于同源的語言(英語和法語,漢語和日語)可以利用詞語同源信息而不使用詞典,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II
18、,34,句子對齊小結(jié),句子對齊的語料庫是基于語料庫的機(jī)器翻譯的基礎(chǔ); 綜合采用基于長度的方法和基于詞匯的方法可以取得較好的效果; 句子對齊可以取得很高的正確率,已經(jīng)達(dá)到實(shí)用水平。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,35,詞語對齊1,特點(diǎn): 保序性不再滿足 對齊模式復(fù)雜:一對多、多對一、多對多都非常普遍,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,36,詞語對齊2,困難: 翻譯歧義:一個(gè)詞出現(xiàn)兩個(gè)以上的譯詞 雙語詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個(gè)以上相同的詞 漢語詞語切分問題 虛詞問題:虛詞的翻譯非常靈活,或沒有對譯詞 意譯問題:根本
19、找不到對譯的詞,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,37,詞語對齊3,一般而言,一個(gè)單詞對齊的模型可以表述為兩個(gè)模型的乘積: 詞語相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下:,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,38,詞語相似度模型1,翻譯概率:IBM Model 1 T-Score: Nc:語料庫中單詞c出現(xiàn)的詞數(shù) Ne:語料庫中單詞e出現(xiàn)的詞數(shù) Nec:語料庫中單詞e和單詞c互譯的詞數(shù),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,3
20、9,詞語相似度模型2,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個(gè)集合,則這兩個(gè)集合的戴斯系數(shù)可以通過如下公式計(jì)算 把漢語詞理解為漢字的集合,戴斯系數(shù)就是兩個(gè)詞中相同的漢字占兩個(gè)詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計(jì)算漢語詞相似度時(shí)有較好的效果 計(jì)算漢語詞c和英語詞e的相似度: 先用英語詞e查英漢詞典,得到所有的漢語對譯詞; 計(jì)算所有對譯詞和c的戴斯系數(shù),取其中的最大值。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,40,詞語相似度模型3,互信息(mutual information) 通過兩個(gè)事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他
21、們聯(lián)合出現(xiàn)的概率為p(X,Y),這兩個(gè)事件之間共同的互信息量定義為: 當(dāng)兩個(gè)事件相互獨(dú)立時(shí),互信息量為0; 當(dāng)兩個(gè)事件傾向于同時(shí)出現(xiàn)時(shí),互信息量為正; 當(dāng)兩個(gè)事件傾向于互相排斥時(shí),互信息量為負(fù); 利用互信息作詞語相似度計(jì)算效果較差。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,41,詞語相似度模型4,2方法:利用聯(lián)立表(contingency table) 2方法的效果比較好,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,42,詞語相似度模型5,對數(shù)似然比( Log Likelihood Ratio,LLR ) 對數(shù)似然比在使用中比較有效,在訓(xùn)練語料庫規(guī)
22、模較小時(shí)尤為明顯,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,43,詞語相似度模型6,概念相似度 利用某種形式的義類詞典(Thesaurus),計(jì)算兩個(gè)詞語對應(yīng)的概念之間的相似度 其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個(gè)結(jié)點(diǎn)之間的距離來計(jì)算是一個(gè)可條件的參數(shù),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,44,詞語相似度模型7,同義詞詞林的概念層次體系 虛線用于標(biāo)識(shí)某上層結(jié)點(diǎn)到下層結(jié)點(diǎn)的路徑,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,45,位置扭曲模型1,絕對扭曲模型:IBM Model 2 l:源語言句子長度
23、 m:目標(biāo)語言句子長度 i:源語言詞語位置 j:目標(biāo)語言詞語位置,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,46,位置扭曲模型2,相對偏移模型,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型 將每個(gè)對齊看作狀態(tài),對齊位置之間的轉(zhuǎn)移是狀態(tài)的轉(zhuǎn)移,該對齊處的單詞對作為輸出。這樣就可以將對齊問題映射到HMM上,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,48,詞語對齊小結(jié),詞語對齊比句子對齊困難得多; 詞語對齊主要使用一個(gè)詞語相似度模型和一個(gè)位置扭曲模型; 詞語對齊的副產(chǎn)品:雙語詞典抽取
24、貪心算法:每次抽取可能性最高的詞對; 詞語抽取和詞語對齊反復(fù)迭代 可以抽取多詞單元(n元組),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,49,機(jī)器翻譯評價(jià)1,最早的機(jī)器翻譯評價(jià):ALPAC報(bào)告 機(jī)器翻譯評價(jià)的常用指標(biāo) 忠實(shí)度(Adequacy):譯文在多大程度上傳遞了源文的內(nèi)容; 流利度(Fluency):譯文是否符合目標(biāo)語言的語法和表達(dá)習(xí)慣; 信息度(Informative):用戶可以從譯文中獲得信息的程度(通過選擇題評分) 絕對評價(jià)和相對評價(jià),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,50,機(jī)器翻譯評價(jià)2,人工評價(jià) 準(zhǔn)確 成本極高 不能反復(fù)使用 自動(dòng)
25、評價(jià) 準(zhǔn)確率低 成本低 可以反復(fù)使用,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,51,機(jī)器翻譯評價(jià)3,機(jī)器翻譯的評價(jià)一直是機(jī)器翻譯研究領(lǐng)域中一個(gè)備受關(guān)注的問題; 機(jī)器翻譯的自動(dòng)評價(jià)越來越引起重視 “評測驅(qū)動(dòng)”成為自然語言處理研究的一個(gè)主要?jiǎng)恿?大規(guī)模語料庫的出現(xiàn)、各種機(jī)器翻譯算法的提出,使得開發(fā)過程中頻繁的評測成為必需 開發(fā)過程中頻繁的評測只能通過采用自動(dòng)評測方法,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,52,機(jī)器翻譯的自動(dòng)評測,完全匹配方法 與參考譯文完全相同的譯文才被認(rèn)為是正確的 顯然該標(biāo)準(zhǔn)過于嚴(yán)格,不適用 編輯距離方法 基于測試點(diǎn)的方法 基于N元
26、語法的方法,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,53,基于編輯距離的機(jī)器翻譯評測1,編輯距離定義: 從候選譯文到參考譯文,所需要進(jìn)行的插入、刪除、替換操作的次數(shù) 舉例說明: 源文:She is a star with the theatre company. 機(jī)器譯文:她是與劇院公司的一顆星。 參考譯文:她是劇團(tuán)的明星。 編輯距離:6 插入:與 公司 一顆 替換:劇團(tuán)劇院 明星星,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,54,基于編輯距離的機(jī)器翻譯評測2,單詞錯(cuò)誤率:編輯距離除以參考譯文中單詞數(shù) 這個(gè)指標(biāo)是從語音識(shí)別中借鑒過來的。 由于語音識(shí)別的
27、結(jié)果語序是不可變的,而機(jī)器翻譯的結(jié)果語序是可變的,顯然這個(gè)指標(biāo)存在一定的缺陷。 與位置無關(guān)的單詞錯(cuò)誤率:計(jì)算編輯距離時(shí),不考慮插入、刪除、替換操作的順序 也就是說,候選譯文與參考譯文相比,多出或不夠的詞進(jìn)行刪除或插入操作,其余不同的詞進(jìn)行替換操作。 這個(gè)指標(biāo)與單詞錯(cuò)誤率相比,允許語序的變化,不過又過于靈活。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,55,基于測試點(diǎn)的機(jī)器翻譯評測1,俞士汶等,機(jī)器翻譯譯文質(zhì)量自動(dòng)評估系統(tǒng),中國中文信息學(xué)會(huì)1991年論文集,pp. 314319 基本思想 對于每一個(gè)句子,孤立測試點(diǎn),簡化測試目標(biāo)(模擬人類標(biāo)準(zhǔn)化考試的辦法) 對于每一個(gè)句子,采
28、用一種TDL語言描述的BNF去與譯文匹配,匹配成功則正確,否則錯(cuò)誤 大批量出題,全面評價(jià)機(jī)器翻譯譯文質(zhì)量,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,56,基于測試點(diǎn)的機(jī)器翻譯評測2,測試點(diǎn)分組: 單詞、詞組、詞法、語法(初、中、高級) 測試點(diǎn)示例: 源文:I am a student. 測試:譯文中出現(xiàn)“學(xué)生/大學(xué)生”為正確 源文:I bought a table with three dollars. 測試:“買”出現(xiàn)在“美元”之后為正確 源文:I bought a table with three legs. 測試:“買”出現(xiàn)在“腿”之前為正確,2020年7月30日10
29、時(shí)9分,語言信息處理--機(jī)器翻譯II,57,基于測試點(diǎn)的機(jī)器翻譯評測3,優(yōu)點(diǎn): 全自動(dòng) 實(shí)驗(yàn)證明,評價(jià)結(jié)果是可信的 可以按照人類專家的要求進(jìn)行單項(xiàng)評測 缺點(diǎn) 題庫的構(gòu)造需要具有專門知識(shí)的專家,并且成本較高,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,58,基于N元語法的機(jī)器翻譯評測1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W010
30、9-022) September 17, 2001 基本思想 用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計(jì)算匹配的N元組個(gè)數(shù)與候選譯文的N元組總個(gè)數(shù)的比例 允許一個(gè)源文有多個(gè)參考譯文,綜合評分,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,59,基于N元語法的機(jī)器翻譯評測2,源文:黨指揮槍是我黨的行動(dòng)指南。 候選譯文: It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops foreve
31、r hearing the activity guidebook that party direct 參考譯文: It is a guide to action that ensures that the military will forever heed party commands It is the guiding principle which guarantees the military forces always being under the command of the party It is the practical guide for the army to heed
32、 the directions of the party,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,60,基于N元語法的機(jī)器翻譯評測3,兩個(gè)改進(jìn): 對于候選譯文中某個(gè)n元接續(xù)組出現(xiàn)的次數(shù),如果比參考譯文中出現(xiàn)的最大次數(shù)還多,要把多出的次數(shù)“剪掉”(不作為正確的匹配)。 為了避免“召回率”過低的問題,BLEU的評價(jià)標(biāo)準(zhǔn)又對比參考譯文更短的句子設(shè)計(jì)了“懲罰因子”。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,61,基于N元語法的機(jī)器翻譯評測4,BLEU的總體評價(jià)公式如下: 其中,pn是出現(xiàn)在參考譯文中的n元詞語接續(xù)組占候選譯文中n元詞語接續(xù)組總數(shù)的比例,wn
33、 1/N,N為最大的n元語法階數(shù)(實(shí)際取4)。 其中c為候選譯文中單詞的個(gè)數(shù),r為參考譯文中與c最接近的譯文單詞個(gè)數(shù)。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,62,基于N元語法的機(jī)器翻譯評測5,其中S1、S2、S3分別是三個(gè)不同的機(jī)器翻譯系統(tǒng)提供的譯文,H1和H2是兩個(gè)人類翻譯者提供的譯文。藍(lán)線是BLEU系統(tǒng)評測的結(jié)果,紅線是只懂目標(biāo)語言的人類專家提供的評測結(jié)果,綠線是同時(shí)懂源語言和目標(biāo)語言的人類專家提供的評測結(jié)果。,2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,63,基于N元語法的機(jī)器翻譯評測6,這種方法比較好地模擬了人對機(jī)器翻譯結(jié)果的評價(jià) 對于低質(zhì)量譯文比高質(zhì)量譯文的評價(jià)跟準(zhǔn)確; 評價(jià)結(jié)果與只懂目標(biāo)語言的人的評價(jià)結(jié)果更接近(相對于懂雙語的人而言) 優(yōu)點(diǎn) 全自動(dòng) 可以提供多種參考譯文綜合考慮,結(jié)果更全面 容易構(gòu)造測試集,不需要專門知識(shí),2020年7月30日10時(shí)9分,語言信息處理--機(jī)器翻譯II,64,復(fù)習(xí)思考題,利用圣經(jīng)雙語語料庫實(shí)現(xiàn)一個(gè)詞語對齊系統(tǒng),并從中抽取出一部包含多詞單元的雙語詞典。,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 6.煤礦安全生產(chǎn)科普知識(shí)競賽題含答案
- 2.煤礦爆破工技能鑒定試題含答案
- 3.爆破工培訓(xùn)考試試題含答案
- 2.煤礦安全監(jiān)察人員模擬考試題庫試卷含答案
- 3.金屬非金屬礦山安全管理人員(地下礦山)安全生產(chǎn)模擬考試題庫試卷含答案
- 4.煤礦特種作業(yè)人員井下電鉗工模擬考試題庫試卷含答案
- 1 煤礦安全生產(chǎn)及管理知識(shí)測試題庫及答案
- 2 各種煤礦安全考試試題含答案
- 1 煤礦安全檢查考試題
- 1 井下放炮員練習(xí)題含答案
- 2煤礦安全監(jiān)測工種技術(shù)比武題庫含解析
- 1 礦山應(yīng)急救援安全知識(shí)競賽試題
- 1 礦井泵工考試練習(xí)題含答案
- 2煤礦爆破工考試復(fù)習(xí)題含答案
- 1 各種煤礦安全考試試題含答案