統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展.ppt
《統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展.ppt(24頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展 杜金華 Outline Overview SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing Syntax basedSMT長(zhǎng)句分析 骨干關(guān)聯(lián)分析中文BaseNP的研究中文命名實(shí)體總結(jié)與致謝 BaselineSystem ForNISTMT 06Evaluation Phrase basedTranslationwithVariableTemplateSubstitutionwordaligncorpus usingGIZA andOch srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog linearmodeltocombinemodelcomponentsbeamsearchdecoder SystemComponents reorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf ephrasetranslationmodele fwordtranslationmodelf ewordtranslationmodele f Examples VariableTemplateSubstitution對(duì)數(shù)字 時(shí)間 人名 地名進(jìn)行雙語(yǔ)替換如 我的房間號(hào)是301 我的房間號(hào)是 digit Myroomnumberis301 Myroomnumberis DIGIT 短語(yǔ)模板 抽取短語(yǔ)長(zhǎng)度f(wàn)rom LOCATIONto LOCATION1 47961e 002您將在 timep離開(kāi) location you llleave LOCATIONat TIMEP3 30669e 002 RecentImprovements 更新了漢語(yǔ)分詞與命名實(shí)體識(shí)別模塊 降低了因此而引入的噪音改進(jìn)了短語(yǔ)抽取與概率計(jì)算模塊4 Gramlanguagemodel最小錯(cuò)誤率參數(shù)訓(xùn)練根據(jù)AshishVenugopal的matlab版本改寫后處理模塊近期計(jì)劃針對(duì)NISTMT 06任務(wù)使用改進(jìn)的系統(tǒng)進(jìn)行一次評(píng)測(cè)試驗(yàn) 目前研究方向 Parsing Syntax basedSMT長(zhǎng)句分析 骨干關(guān)聯(lián)分析中文BaseNP的研究中文命名實(shí)體 Parsing Syntax basedSMT 基于中文句法分析器的研究實(shí)現(xiàn)了基于頭驅(qū)動(dòng)的句法分析器基于骨架依存概念的翻譯基于英文句法分析器的研究利用英文Parser構(gòu)造syntax basedSMT系統(tǒng)基于句法分析的SMTTree to StringString to Tree 基于骨架依存概念的翻譯 骨架依存概念刻畫了樹(shù)上各個(gè)結(jié)點(diǎn)之間的關(guān)系 一般主要是中心詞與它相鄰結(jié)點(diǎn)的支配與被支配關(guān)系 基于依存樹(shù)的句法分析能為機(jī)器翻譯提供有用的結(jié)構(gòu)信息 骨架依存樹(shù) 目標(biāo)是 僅分析出句子的整體句法結(jié)構(gòu) 整體句法結(jié)構(gòu)用該句的中心詞及其直接支配成分來(lái)表示 骨架依存樹(shù)考慮語(yǔ)句的整體結(jié)構(gòu)信息和詞匯語(yǔ)義信息的同時(shí) 避免對(duì)語(yǔ)句進(jìn)行復(fù)雜的分析 基于骨架依存樹(shù)的翻譯 我們的設(shè)想基本思想是一種分層次的翻譯模型 由骨架映射 短語(yǔ)翻譯 詞翻譯的逐層細(xì)化的過(guò)程 我們已經(jīng)能夠進(jìn)行短語(yǔ)及詞一級(jí)的翻譯 現(xiàn)在問(wèn)題的關(guān)鍵是如何找到子句的骨架 并利用骨架變換來(lái)描述兩種語(yǔ)言的結(jié)構(gòu)變換 將骨架變換形式化為轉(zhuǎn)換規(guī)則 lexicalandnon lexical 并統(tǒng)一到概率的框架下 長(zhǎng)句分析 骨干 Skeleton 關(guān)聯(lián)分析 長(zhǎng)句分析目前仍無(wú)有效的方法對(duì)長(zhǎng)句進(jìn)行Parsing或者翻譯目前對(duì)長(zhǎng)句的處理只是研究如何將其切分NIST語(yǔ)料中FBIS中的長(zhǎng)句特點(diǎn)并列成分多修飾語(yǔ)過(guò)多語(yǔ)言結(jié)構(gòu)層次多插入語(yǔ) Examples 我們堅(jiān)信 有馬列主義 毛澤東思想和鄧小平理論的指引 有以江澤民同志為核心的黨中央的正確領(lǐng)導(dǎo) 有全軍官兵的團(tuán)結(jié)奮斗 有全國(guó)各族人民的大力支持 我們的目標(biāo)一定能夠達(dá)到 大亞灣核電站總經(jīng)理劉錫才說(shuō) 這是高起點(diǎn)起步的結(jié)果 是中央英明決策 決定全面引進(jìn)先進(jìn)而成熟的百萬(wàn)千瓦級(jí)大型商業(yè)核電技術(shù)和設(shè)備 并按國(guó)際標(biāo)準(zhǔn)建造和管理的結(jié)果 是公司員工堅(jiān)持創(chuàng)新 追求卓越 趕超世界先進(jìn)水平長(zhǎng)期努力的結(jié)果 美國(guó)新聞署的一份材料承認(rèn) 美國(guó)在其大部分歷史上未能確保許多公民 尤其是非洲裔美國(guó)人 土著美國(guó)人和所有婦女 的基本人權(quán) 骨干關(guān)聯(lián)分析 骨干關(guān)聯(lián)分析研究目標(biāo) 以長(zhǎng)句分析為切入點(diǎn) 對(duì)句子骨干關(guān)聯(lián)結(jié)構(gòu)進(jìn)行分析 以服務(wù)于統(tǒng)計(jì)機(jī)器翻譯研究任務(wù) 句子骨干識(shí)別及之間結(jié)構(gòu)關(guān)聯(lián)分析雙語(yǔ)骨干映射關(guān)系基于骨干分析的翻譯 骨干關(guān)聯(lián)分析 骨干 Skeleton 的定義句子骨干在句法結(jié)構(gòu)上首先是一個(gè)句子成分 可以是并列關(guān)系 從屬關(guān)系或者其他屬性描述關(guān)系 其在意義表示上具有相對(duì)獨(dú)立性 骨干內(nèi)部具有相對(duì)完整的句法結(jié)構(gòu) 隱式或顯式 其次 句子的不同骨干是由不同的特征集合進(jìn)行區(qū)分 特征的選擇能夠識(shí)別骨干的邊界雙語(yǔ)骨干關(guān)聯(lián)結(jié)構(gòu)映射建立雙語(yǔ)骨干對(duì)應(yīng)關(guān)系 為翻譯過(guò)程中目標(biāo)語(yǔ)言重排序服務(wù) 基于骨干關(guān)聯(lián)分析的翻譯 中文BaseNP BaseNP識(shí)別的作用自然語(yǔ)言處理的基本任務(wù)之一BaseNP比單個(gè)詞語(yǔ)含有更豐富的語(yǔ)言信息 歧義少 與整句parsing相比較 工作量小 更具實(shí)際應(yīng)用價(jià)值 其他自然語(yǔ)言研究的基礎(chǔ)例 信息檢索系統(tǒng) 機(jī)器翻譯 其他短語(yǔ)識(shí)別 基于文本的生物信息獲取 biology 等等 什么是BaseNP 基本名詞短語(yǔ) basenounphrase baseNP 簡(jiǎn)單的 非嵌套的名詞短語(yǔ) 不含有其他的子項(xiàng)短語(yǔ) ZhaoJun HuangChangning 1998 給出了BaseNP的嚴(yán)格形式化定義BaseNP的嚴(yán)格形式化定義BaseNP BaseNP BaseNPBaseNP BaseNP 名詞 名動(dòng)詞BaseNP 限定性定詞 BaseNP 名詞限定性定詞 形容詞 區(qū)別詞 動(dòng)詞 名詞 處所詞 數(shù)量詞 外文字串 ZhaoTiejunetal 2001 進(jìn)一步對(duì)漢語(yǔ)基本短語(yǔ)進(jìn)行了研究 提出了7種形式的漢語(yǔ)基本短語(yǔ) 中文baseNP訓(xùn)練測(cè)試集的建立 在PennChineseTreebank5 0和英文baseNP語(yǔ)料庫(kù)建立方法基礎(chǔ)上 加入了針對(duì)中文的詞性和句法特征 建立較為完善的大規(guī)模baseNP訓(xùn)練測(cè)試語(yǔ)料 約50萬(wàn)中文詞 中文BaseNP 中文BaseNP識(shí)別的的算法采用兩級(jí)分類器第一級(jí) 采用TBL和CRF兩個(gè)分類器第二級(jí) 采用SVM分類器算法流程 試驗(yàn)結(jié)果 中文命名實(shí)體 基于WFST WeightedFiniteStateTransducer 框架的命名實(shí)體識(shí)別與翻譯Finite Statemodels FSM and inparticular WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing Thisincludesinparticularmachinetranslation largevocabularycontinuousspeechrecognitionandspeechsynthesis AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor learned fromtrainingdatausingcorpus basedtechniques Comparedtomoretraditionalknowledge basedapproaches thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge basedtechniques DifferentknowledgesourcescanhenceberepresentedviaFSMs thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway ThismakestheFSMframeworkanadequateoneforlanguageprocessing 數(shù)字時(shí)間的自動(dòng)識(shí)別 采用WFST weightedfinitestatetransducer 識(shí)別關(guān)鍵要解決兩個(gè)問(wèn)題 通過(guò)一些有效的數(shù)字時(shí)間短語(yǔ)建立狀態(tài)機(jī)給定一個(gè)有限狀態(tài)機(jī)后 數(shù)字時(shí)間字串的匹配算法下一步將人名 地名和機(jī)構(gòu)名融入WFST框架 總結(jié)與致謝 對(duì)在研方向?qū)⒗^續(xù)深入的研究 并不斷進(jìn)行創(chuàng)新研究密切關(guān)注國(guó)內(nèi)外統(tǒng)計(jì)機(jī)器翻譯的發(fā)展趨勢(shì) 調(diào)整研究策略希望能進(jìn)一步加強(qiáng)交流與討論 謝謝- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計(jì) 機(jī)器翻譯 研究進(jìn)展
鏈接地址:http://www.szxfmmzy.com/p-6002475.html