統(tǒng)計機器翻譯簡明教程.ppt
《統(tǒng)計機器翻譯簡明教程.ppt》由會員分享,可在線閱讀,更多相關《統(tǒng)計機器翻譯簡明教程.ppt(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
統(tǒng)計機器翻譯簡明教程兼談相關工具的使用,何中軍2007年11月,提綱,系統(tǒng)結構前處理詞語對齊短語抽取解碼后處理參數(shù)訓練評測,詞語對齊,,,,,,,訓練語料庫,訓練語料庫為雙語語料庫格式不固定,可以是文本格式,xml格式等等要求必須句子對齊,back,語料預處理,目的:將各種格式不同的生語料進行加工,形成格式統(tǒng)一的語料庫,以便進行詞語對齊步驟:漢語分詞工具:ICTCLAS漢語全半角轉(zhuǎn)換功能:將A3區(qū)的全角字符轉(zhuǎn)換為半角字符程序:A2B命令行:A2Binputoutput英語分詞工具:Brill英語首字母小寫還原功能:將英語語料庫中的句首字母進行大小寫轉(zhuǎn)換。如果首單詞在語料庫中出現(xiàn)的次數(shù)小寫多于大寫,則將首字母變?yōu)樾?。程序:Truecase命令行:Truecaseinputoutput,處理后訓練語料庫,雙語語料庫,,漢語切詞,高新技術產(chǎn)品出口37.6億美元。,,全半角轉(zhuǎn)換,高新技術產(chǎn)品出口37.6億美元。,,英語切詞,TheexportofHigh-techProductsReached3.76billionUSdollars.,theexportofHigh-techProductsReached3.76billionUSdollars.,,大小寫轉(zhuǎn)換,back,詞語對齊,GIZA++詞語對齊詞語對齊后處理添加句首句尾標記,,,詞語對齊–GIZA++訓練,輸入:漢語文本,英語文本,一行一句,句子對齊,chinese,english,plain2snt,,chinese.vcbenglish.vcbchinese_english.snt,,mkcls,chinese.vcb.classesenglish.vcb.classeschinese.vcb.classes.catsenglish.vcb.classes.cats,,Giza++,*.A3.final…,plain2snt:統(tǒng)計單詞數(shù),格式轉(zhuǎn)換,命令行./plain2snt.outchineseenglish,2上海7383浦東764開發(fā)3895與3724,chinese.vcbFormat:單詞編號單詞單詞出現(xiàn)次數(shù),123456782345678910112124131415,chinese_english.sntFormat:每個句對占3行句子出現(xiàn)次數(shù)漢語句子英語句子,mkcls:單詞聚類,命令行:./mkcls-n1-pchinese-Vchinese.vcb.classesopt-n:表示訓練迭代的次數(shù),一般迭代1次-p:要聚類的文本,一行一句(已分詞)-V:輸出信息opt:優(yōu)化運行,1925年171925日47,chinese.vcb.classesFormat:單詞詞類,2:1月份,83%,AmocoCadiz,_,ⅲ,百分之三十九點四3:+,TC,百二十萬,百六十萬,百五十萬,chinese.vcb.classes.catsFormat:詞類:單詞,單詞,GIZA++:詞語對齊,命令行:./GIZA++-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e-S:源語言單詞表-T:目標語言單詞表-C:源語言—〉目標語言句子對-O:輸出文件夾運行結束后,輸出很多文件到c2e/文件夾中,主要是產(chǎn)生的對齊文件:,#Sentencepair(1)sourcelength7targetlength16alignmentscore:4.99368e-28thedevelopmentofShanghaisPudongisinstepwiththeestablishmentofitslegalsystemNULL({1381113})上海({4})浦東({56})開發(fā)({2})與({10})法制({1516})建設({})同步({791214}),*.A3.final,每句對3行:,對齊概率目標句子源語言句子,GIZA++對齊幾點說明,一般雙向訓練,漢語->英語,英語->漢語訓練流程:,./plain2snt.outchineseenglish./mkcls-n1-pchinese-Vchinese.vcb.classesopt./mkcls-n1-penglish-Venglish.vcb.classesopt./mkdirc2e./mkdire2c./GIZA++-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e./GIZA++-Senglish.vcb-Tchinese.vcb-Cenglish_chinese.snt-Oe2c,詞語對齊后處理,對GIZA++的詞語對齊進行優(yōu)化工具:WordAlign命令行:,WordAlignc2e.A3.finale2c.A3.finaloutput,輸入:漢語到英語方向的.A3.final文件和英語到漢語方向的.A3.final文件輸出:.xml格式的對齊文件,詞語對齊后處理(續(xù)),(/@完/@)/@(/@end/@)/@1:1/12:2/13:3/1,句對以bead表示,包括源語言詞,目標語言詞,以及對齊信息。單詞后面的/@是詞性的位置,如有需要,可以將/@替換為相應的詞性對齊后面的/1表示對齊概率,目前默認是1,添加句首句尾標記,命令行:AddHeadTailinputoutput功能:為對齊后的句子加上開始結束符,"""",/@(/@完/@)/@/@/@(/@end/@)/@/@1:1/12:2/13:3/14:4/15:5/1,back,短語抽取,從詞語對齊的語料庫中得到短語翻譯工具:phraseExtractor功能:抽取短語,統(tǒng)計短語出現(xiàn)次數(shù)phraseScoring功能:計算短語的詞匯化翻譯概率phraseExtractor.pl功能:驅(qū)動以上兩個程序的腳本文件,銀行和保險公司|||banksandinsurancecompanies|||10.10559910.0257825堅持改革開放|||ofreformandopeningup|||0.3333330.0010333710.014045,短語抽?。ɡm(xù)),phraseExtractor.pl–corpus-dir.–corpus-filealign.xml–extract-file-namemy--separatortab讀取corpus-dir目錄下的align.xml對齊文件,最終生成my.bp文件,分隔符為制表符參數(shù)說明:--debug,ifdebugthenthemiddlefileswillnotbedeleted,defaultisfalse;--corpus-dir,setthecorpusdir;--corpus-file,thewordalignedfilefromwhichphrasesareextrated;--capacity,howmanyphrasesinafilewhenextracting,defaultis1000000;--extract-file-name,thephrasetablename,defaultis"extract";--max-phrase-length,maxsourcephraselength,defaultis7;--separator,theseparatorbetweenphrases,defaultistab;--reorder-types,lexicalreorderingtype,defaultismsd-fe;--fertility,howmanywordscanawordaligned,defaultis9;--orientation,extractlexicalreorderingtableornot,defaultis0;,短語表過濾,根據(jù)測試文件對短語表進行過濾,我I0.10.10.10.1我是Iam0.10.10.10.1我是學生Iamastudent0.10.10.10.1一個學生astudent0.10.10.10.1一個小孩achild0.10.10.10.1,我I0.10.10.10.1我是Iam0.10.10.10.1一個學生astudent0.10.10.10.1,,,測試文件,源短語表,過濾后短語表,短語表過濾(續(xù)),SelectBPbpfiletestfileoutfilec2e,bpfile:短語文件testfile:輸入文件(文本文件,一行一句),如果是漢語文件,不用分詞。如果是英語文件,需要做tokenize。(注意:如果在短語抽取的時候,漢語英語進行了預處理,這里對輸入文件也要做相應的預處理。例如,在短語抽取時,漢語做了A3區(qū)半角轉(zhuǎn)換,則SelectBP的輸入文件也要做半角轉(zhuǎn)換;英語作了tokenize,輸入文件也要做tokenize。如果加入了句首句尾標記,則測試文件也要加句首句尾標記)outfile:過濾后的短語表c2e:1,表示漢英翻譯,根據(jù)漢語文件過濾。0表示英漢翻譯,根據(jù)英語文件過濾,back,語言模型訓練,ngram-count-textenglish-lmlm.gz-unk-kndiscount-order4-write-arpa-text:要訓練的文本,一行一句-lm:輸出文件名-unk:未登錄詞-kndiscount:平滑-order:語言模型的元數(shù)(n-gram)-write-arpa:apra格式,back,Confucius的解碼–基于短語的解碼器,解碼器的配置文件Log-linear模型的訓練過程結果評測,[BPTABLE_LIMIT]10//短語表的剪枝參數(shù)[NBEST_LIST]1000//每句話產(chǎn)生Nbest的個數(shù)[MAX_STACK_SIZE]100//搜索棧的剪枝參數(shù)[TT]bp/iwslt07-bpsmall.txt//短語表的路徑[POSTABLE*]bp/L_0612_pos_p.txt//用于相似度模型的文件路徑[LM]lm/english.m2.bo4.gz//語言模型1[LM2]lm/iwslt.small.order5.lm.gz//語言模型2[LMNGRAM]3//語言模型的元數(shù)[PARA]##//下面是log-linear模型的權重p(e|c)1//短語翻譯概率p(c|e)1//短語翻譯概率lex(e|c)1//詞匯化概率lex(c|e)1//詞匯化概率phrase0//短語概率(如果是精確匹配,為1,否則,為0)len1//目標句子長度pos_prob0//詞性概率sim_prob0//相似度lm1//語言模型lm21//語言模型[END]##,[TST]corpus/iwslt06.dev-src//測試文件[REF]corpus/iwslt06.dev-ref//參考譯文[FORMAT]nist//輸出格式,NIST評測使用nist[ISTRAIN]1//如果進行最小錯誤率訓練,則為1,表示輸出NBest信息[PRINT_NBEST]1//如果需要nbest輸出,設為1,訓練過程一定要設為1[FEATPATH]nbestfeat///特征文件的輸出路徑[RESULTPATH]result///結果文件的輸出路徑[SUFFIX]0//結果文件的輸出后綴名[ENTITY]bp/nist0216_0712.dev-src//命名實體文件[INFO]0//是否輸出翻譯過程的信息,用于調(diào)試,說明:紅色部分表示大家不需要使用的,不用改動藍色部分表示在進行最小錯誤率訓練后,大家需要改動的部分如果想屏蔽掉某項功能,例如命名實體,只需要改動第一列的標記,例如:[ENTITY]-〉[ENTITY+],Log-linear模型訓練過程,1初始化lambda,進行解碼,產(chǎn)生Nbest特征文件f12最小錯誤率訓練得到新的lambda3利用新的lambda進行解碼,產(chǎn)生Nbest特征文件f24合并f1、f2,生成新的特征文件f1’,如果f1’與f1相等,即沒有新的Nbest產(chǎn)生,結束,否則轉(zhuǎn)55f1=f1’,參數(shù)訓練得到lambda,轉(zhuǎn)3,訓練過程,./confucius.pl–root-dir.–corpusnist–first-loop0–total-loop10--root-dir路徑名,一般為本目錄下--corpus開發(fā)集名字,程序自動到corpus/目錄下尋找nist.dev-src和nist.dev-ref,所以,一定要在corpus/下存在這兩個文件--first-loop從第幾輪開始迭代,默認第0輪--total-loop迭代到第幾輪,默認10程序創(chuàng)建三個文件夾:results/存放產(chǎn)生的結果文件nbestfeats/存放用于最小錯誤率訓練的nbest特征文件config/存放最小錯誤率訓練的得到的參數(shù),和Confucius的配置文件,result/,result0.txt,result1.txt…分別對應由配置文件searchconfig0.txtsearchconfig1.txt…產(chǎn)生的結果文件result0.nist.evalresult1.nist.eval分別是result0.txtresult1.txt的評測文件,從中可以看到它們的bleu值,nbesetfeat/,cands0.txtcands1.txt…對應每句話的nbest個數(shù)transfeat0.txt,transfeat1.txt…對應特征文件,0164111617,,第0句有1641個候選譯文第1句有1617個候選譯文,60.748764.520859.910458.64220128.144-1500080.899412136122110101762.406966.336559.171358.64220129.803-1600077.7209121461321201117,分為兩部分:藍色部分:log-liear模型的特征值,-log,紅色部分:n-gram的個數(shù)N-gram格式:(對一句話而言)1-gram匹配個數(shù)1-gram系統(tǒng)譯文個數(shù)…4-gram匹配個數(shù)4-gram系統(tǒng)譯文個數(shù)最后是最短參考譯文的長度(從4個參考譯文中,選長度最短的),config/,lamda0.txt,lamda1.txt對應訓練得到的log-linear模型的權重searchconfig1.txtsearchconfig2.txt對應解碼器要用到的配置文件,注意事項,searchconfigi.txt對應resulti.txttransfeati.txt,candsi.txtlambdai.txt用于產(chǎn)生searchconfigi+1.txt訓練完成后(參數(shù)收斂),檢查result/目錄下的resulti.nist.eval,找到bleu值最高的那個resultx.nist.eval,表示它由searchconfigx.txt產(chǎn)生,意味著最好的參數(shù)在searchconfigx.txt(lambdax-1.txt)修改searchconfigx.txt,運行Confucius進行評測,修改配置文件,運行測試集,[TST]corpus/iwslt06.dev-src[REF]corpus/iwslt06.dev-ref[FORMAT]nist[ISTRAIN]1[PRINT_NBEST]1[FEATPATH]nbestfeat/[RESULTPATH]result/[SUFFIX]0[ENTITY]bp/nist0216_0712.dev-src[INFO]0,[TST]corpus/nist05.tst-src[REF]NOFILE[FORMAT]nist[ISTRAIN]0[PRINT_NBEST]0[FEATPATH]nbestfeat/[RESULTPATH]result/[SUFFIX]nist05[ENTITY]bp/nist05.entity[INFO]0,,命令行:./Confucius產(chǎn)生的結果文件在result/resultnist05.txt,評測程序mteval-v11b.pl,比較系統(tǒng)譯文和參考譯文,進行打分命令行./mteval-v11b.pl–c–ssource.sgm–rreference.sgm–tresult.txt-c:區(qū)分大小寫(大小寫敏感)-s:源文件-r:參考譯文-t:系統(tǒng)譯文,文件格式,不同的評測對應的文件格式不太一致,但是有一些共同部分:源文件一般包含:參考譯文包含:系統(tǒng)譯文格式必須與源文件一致,且將改為,并添加相應的系統(tǒng)id,今年前兩月廣東高新技術產(chǎn)品出口37.6億美元,ExportofHigh-techProductsinGuangdonginFirst…,ExportofHigh-techProductsinGuangdonginFirst…,source,reference,system,詞語對齊參考文獻,Peter.F.Brown,StephenA.DellaPietra,VincentJ.DellaPietra,RobertL.Mercer,TheMathematicsofStatisticalMachineTranslation:ParameterEstimation,ComputationalLinguistics,Vol19,No.2,1993http://www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA++.html,短語抽取參考文獻,PhilippKoehn.2004.Pharaoh:abeamsearchdecoderforphrase-basedstatisticalmachinetrnaslationmodels.InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas,pages115-124.PhilippKoehn,FranzJ.Och,andDanielMarcu.2003.Statisticalphrase-basedtranslation.InProceedingsofHLT-NAACL2003,pages127-133.http://www.isi.edu/publications/licensed-sw/pharaoh/,最小錯誤率訓練參考文獻,FranzJosefOch."MinimumErrorRateTrainingforStatisticalMachineTranslation".In"ACL2003:Proc.ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics",Japan,Sapporo,July2003.AshishVenugopal,StephanVogel,"ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation",IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation(EAMT-05),Budapest,HungaryMay30-31,2005http://www.cs.cmu.edu/~ashishv/mer.html,謝謝!,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 統(tǒng)計 機器翻譯 簡明 教程
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.szxfmmzy.com/p-3526081.html