ISCAS機(jī)器翻譯和系統(tǒng)融合評測系統(tǒng).ppt
《ISCAS機(jī)器翻譯和系統(tǒng)融合評測系統(tǒng).ppt》由會員分享,可在線閱讀,更多相關(guān)《ISCAS機(jī)器翻譯和系統(tǒng)融合評測系統(tǒng).ppt(15頁珍藏版)》請在裝配圖網(wǎng)上搜索。
ISCAS機(jī)器翻譯和系統(tǒng)融合評測系統(tǒng) 張大鯤孫樂中國科學(xué)院軟件研究所dakun04 2 大綱 漢英新聞領(lǐng)域翻譯評測概述系統(tǒng)流程預(yù)處理和后處理測試結(jié)果系統(tǒng)融合評測 3 概述 訓(xùn)練語料受限的漢英機(jī)器翻譯基于短語的統(tǒng)計機(jī)器翻譯系統(tǒng)4元語言模型3元大小寫敏感語言模型進(jìn)行大小寫還原利用規(guī)則對數(shù)字進(jìn)行處理 4 系統(tǒng)流程 全部小寫化 GIZA 雙向詞對齊 短語抽取5個概率 4元語言模型 3元大小寫敏感語言模型 數(shù)詞翻譯替換 翻譯輸出 數(shù)詞識別與替換 Beam搜索解碼 預(yù)處理 后處理 訓(xùn)練 平行語料 5 特征 短語翻譯概率詞匯化概率反向短語翻譯概率反向詞匯化概率短語懲罰概率 2 718 詞語懲罰 目標(biāo)語言句子長度 目標(biāo)語言模型 4元 6 預(yù)處理和后處理 中文語料中的英文和英文語料全部小寫中文全角字符轉(zhuǎn)換為半角 ABC123StanfordChineseWordSegmenter分詞數(shù)字單獨處理 7 訓(xùn)練語料 短語數(shù)量 1600萬 8 開發(fā)集調(diào)整參數(shù) WP 詞語懲罰PT 翻譯模型概率 包括詞匯化概率和短語懲罰 DW 調(diào)序的權(quán)重LW 語言模型權(quán)重ML 最大的短語長度LD 調(diào)序的限制范圍MS 棧大小TL 允許的最多翻譯候選項 489句4個參考答案BLEU 0 1039 9 測試結(jié)果 10 系統(tǒng)融合 主要方法 Rostietal 2007 句子級融合重評分 輸出最好的句子短語級融合構(gòu)造新的短語表 計算概率 重新解碼詞級融合詞對齊 形成詞圖 最優(yōu)路徑 11 系統(tǒng)融合 12 重評分 統(tǒng)計在候選翻譯中出現(xiàn)的所有n gram個數(shù)計算每個句子中命中的個數(shù) n 7 權(quán)重 利用開發(fā)集訓(xùn)練 13 測試 使用提供的10個單位提交的17個系統(tǒng)的翻譯結(jié)果 沒有使用系統(tǒng)U14的結(jié)果 14 總結(jié) 漢英新聞領(lǐng)域翻譯評測訓(xùn)練語料受限基于短語的翻譯系統(tǒng)4元語言模型利用規(guī)則對數(shù)字進(jìn)行處理系統(tǒng)融合評測句子級的融合方法利用n gram進(jìn)行重評分 15 謝謝 Thanks- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- ISCAS 機(jī)器翻譯 系統(tǒng) 融合 評測
鏈接地址:http://www.szxfmmzy.com/p-6356774.html