關(guān)于統(tǒng)計(jì)機(jī)器翻譯的思考姚天順.ppt
《關(guān)于統(tǒng)計(jì)機(jī)器翻譯的思考姚天順.ppt》由會員分享,可在線閱讀,更多相關(guān)《關(guān)于統(tǒng)計(jì)機(jī)器翻譯的思考姚天順.ppt(43頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
關(guān)于統(tǒng)計(jì)機(jī)器翻譯的思考 姚天順自然語言處理實(shí)驗(yàn)室東北大學(xué)tsyao 2004 7 11 1 前言有這么兩條消息 5月10日 參考消息 隨著又有10個(gè)國家加入歐盟 歐盟現(xiàn)有20種官方語言 年度翻譯預(yù)算增加到10億美元 5月28日 參考消息 歐盟新通過一項(xiàng)議案 所有成員國在歐盟會議上的文件不得超過15頁A4紙 以減輕翻譯人員的工作量 機(jī)器翻譯的現(xiàn)狀和未來到底怎么樣了 有計(jì)算機(jī)的那一天就有機(jī)器翻譯的研究 計(jì)算機(jī)事業(yè)蓬勃發(fā)展 但機(jī)器翻譯的道路至今仍然十分艱難 上世紀(jì)的八十年代 特別是九十年代 語料庫語言學(xué)在計(jì)算語言學(xué)界興起 最近的五年到十年 機(jī)器學(xué)習(xí)方法又受到學(xué)術(shù)界特別的重視 數(shù)學(xué)方法大量地引進(jìn)了語言信息處理 自然語言處理的研究是進(jìn)了一大步 但對于機(jī)器翻譯而言 真實(shí)的效果在哪里呢 回憶基于規(guī)則的機(jī)器翻譯系統(tǒng)作為主流技術(shù)的時(shí)代 不管怎么樣 多少還出現(xiàn)過一些有市場價(jià)值的系統(tǒng) 例如譯星 華建和史曉東等的漢英翻譯系統(tǒng) 華建的機(jī)器翻譯 居然取得了國內(nèi)單項(xiàng)軟件出口的最高出售價(jià) 歐洲和日本情況也是這樣 當(dāng)前主流的機(jī)器翻譯還都是基于規(guī)則的機(jī)器翻譯系統(tǒng) 基于語料庫的機(jī)器翻譯方法 一般說來可以分為兩類 一類是基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng) 另一類和基于模板的機(jī)器翻譯方法 基于統(tǒng)計(jì)的機(jī)器翻譯 簡稱為統(tǒng)計(jì)機(jī)器翻譯 統(tǒng)計(jì)機(jī)器翻譯把源語言中任何一個(gè)句子都可能是目標(biāo)語言中某些句子相似 這些句子的相似程度可能都不相同 那么 一個(gè)好的機(jī)器翻譯系統(tǒng)就是那種能找到最相似句子的系統(tǒng) 但是這樣的漢外機(jī)器翻譯系統(tǒng)在我們國家從來也沒有出現(xiàn)過 1994年 IBM公司的A Berger P Brown等人發(fā)表了一個(gè)技術(shù)報(bào)告 即著名的論文 ThecandideSystemofMachineTranslation 他們用統(tǒng)計(jì)方法 各種不同的對齊技術(shù) 給出了命名為Candide的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 利用漢莎語料庫 Hansardcorpus 英法雙語語料庫 總共有2 205 733英法句對作為訓(xùn)練語料 實(shí)現(xiàn)了國際上第一個(gè)較為著名的英語到法語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 一開始 系統(tǒng)的成績不錯(cuò) 整體的系統(tǒng)的譯準(zhǔn)率超過了基于解釋 轉(zhuǎn)換 和生成的規(guī)則系統(tǒng) ARPA 美國國防部高級研究計(jì)劃署 把這個(gè)Candide翻譯系統(tǒng)進(jìn)行評測 并和國際上利用常規(guī)的規(guī)則系統(tǒng)構(gòu)造的SYSTRAN機(jī)器翻譯系統(tǒng)作比較 結(jié)果是 流利程度適當(dāng)程度時(shí)間比率率199219931992199319921993SYSTRAN 466 540 686 743Candide 511 580 575 670Transman 819 838 837 850 688 625Manual 833 840TransmanisthepartoftheCandidesystemusedasatranslationassis tancetool i e amachine aidedtranslationsystem 這個(gè)結(jié)果很了不起 在某種程度上推動(dòng)了經(jīng)驗(yàn)主義思潮更進(jìn)一步向前發(fā)展 由于計(jì)算語言的復(fù)雜性 Candide系統(tǒng)還請了一些語言學(xué)家來幫助他們做形態(tài)分析 語義標(biāo)注 和詞典等 Candide系統(tǒng)仍不是一個(gè)純統(tǒng)計(jì)的系統(tǒng) 這樣的系統(tǒng) 看來很有希望 不知為什么 由于IBM公司外部和內(nèi)部財(cái)政方面的原因 支持被撤走 他們的工作堅(jiān)持到1995年 就被迫停止 呼聲很高的系統(tǒng)被中斷了 有人說 純統(tǒng)計(jì)的機(jī)器翻譯注定是要失敗的 美國著名機(jī)器翻譯學(xué)者YorickWilks在批評Candide系統(tǒng)時(shí)指出 他們在系統(tǒng)中引入符號結(jié)構(gòu)就說明了 純統(tǒng)計(jì)的假設(shè)已經(jīng)失敗了 Incorporatingsymbolicstructureshowsthepurestatisticshypothesishasfailed 可見 統(tǒng)計(jì)方法是令人鼓舞的 可是它還沒有解決所有困難的問題 2 新統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的出現(xiàn)2000年 在JohnsHopkins的暑假Workshop 有來自南加州大學(xué) 羅切斯特大學(xué) 約翰 霍普金斯大學(xué) 施樂公司 賓州大學(xué) 斯丹福大學(xué)等學(xué)校的研究人員 以O(shè)ch為主的13人 寫了一個(gè)FinalReport SyntaxforStatisticalMachineTranslationOch博士發(fā)表的論文 DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation 獲ACL2002大會最佳論文獎(jiǎng) 2001 2003年七月 在美國馬里蘭州JohnsHopkins美國商業(yè)部的NIST TIDES NationalInstituteofStandardsandTechnology atUniversityinBaltimore Maryland評比過程中獲最好成績 構(gòu)造了23種阿拉伯和漢語到英語的機(jī)器翻譯系統(tǒng) TIDES TranslingualInformationDetection ExtractionandSummarization Och的氣很盛 他說 偉大的希臘科學(xué)家Archimedes說 Givemeaplacetostandon andIwillmovetheworld Och說 Givemeenoughparalleldata andyoucanhavetranslationsystemforanytwolanguagesinamatterofhours 這是不是說 Och博士已經(jīng)找到機(jī)器翻譯的有效方法了 3 統(tǒng)計(jì)機(jī)器翻譯語法Berger關(guān)于機(jī)器翻譯的失敗 一個(gè)主要問題是 統(tǒng)計(jì)機(jī)器翻譯 SMT 往往有顯而易見的語法錯(cuò)誤 Och希望在SMT里整體組合語法結(jié)構(gòu) 不斷添加反映語法知識的特征函數(shù)來解決不同語法層次的翻譯問題 按照最大熵的模型 在各個(gè)語法層次都能給出可能的特征函數(shù)希望從最簡單的二元特征到復(fù)雜的樹 樹的結(jié)構(gòu)分析都能夠造翻譯模型 3 1邏輯 線性模型機(jī)器翻譯的目的是 給定一個(gè)源句子Chinese 翻譯成可能的目標(biāo)句子 English 那么 所有可能的目標(biāo)句的最大概率 Och和Ney在2002年提出的翻譯模型 不同于Brown等的設(shè)想 1993 是一種后驗(yàn)概率的直接模型 稱為直接最大熵翻譯模型 其中e和f的位置正好顛倒 利用Berger等人 1996 提出的最大熵框架 在這個(gè)框架里 有一組特征函數(shù) 對于每一個(gè)特征函數(shù) 存在一個(gè)模型參數(shù) 按照最大熵理論 直接概率模型 這是標(biāo)準(zhǔn)的最大熵計(jì)算公式 其中分母可以不計(jì) 邏輯 線性模型總體結(jié)構(gòu)如下圖所示 一個(gè)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)設(shè)計(jì)成為 切分 短語 對齊 重排 生成 由漢語句子 中國十四個(gè)邊境開放城市經(jīng)濟(jì)建設(shè)成就顯著 翻譯成英文句子 China s14openbordercitiesmarkedeconomicachievements 切分 對齊模板處理形象理解為 本質(zhì)上存在一個(gè)隱變量 再取參數(shù) 就有特征函數(shù)由原來的轉(zhuǎn)換成 各種語法現(xiàn)象的特征函數(shù)淺層語法的特征函數(shù)WoRDSelectionPhraseAlignmentAlignmentTemplateSelectionLanguageModelFeatures 深層句法特征函數(shù)深層處理的句法特征函數(shù)是通過兩種模型形成 1 TreetoString的特征函數(shù)1 中文句子和英文分析樹 對齊概率和的特征函數(shù) 2 計(jì)算對齊最好的特征函數(shù) 2 TreetoTree的特征函數(shù)樹到樹的對齊模型是十分復(fù)雜的 例如漢英句對 中國十四個(gè)邊境開放城市經(jīng)濟(jì)建設(shè)成就顯著 FourteenChineseopenbordercitymakesignficantachievementsineconomicconstruction 標(biāo)注后的雙語句子 中國 NR14 CD個(gè) M邊境 NN開放 NN城市 NN經(jīng)濟(jì) NN建設(shè) NN成就 NN顯著 VV 不討論標(biāo)注的正確性 Fourteen CDChinese JJopen JJborder NNcities NNSmake VBPsignficant JJachievements NNSin INeconomic JJconstruction NN 他們的分析樹分別是 例如 這里有兩類標(biāo)注 ThePart of SpeechTaggingGuildelinesforPennChineseTreebank TheUniversityofPennsylvaniaTreebankTag set 其中 NRpropernoun專有名字CDcardinalnumber基數(shù)Mmeasureword量詞NNcommonnoun普通名字VVotherverb是 有以外的動(dòng)詞JJothernounmodifier其他名字修飾符VBPverb presenttense 3rdpersonsingular動(dòng)詞 現(xiàn)在式 第3人稱INprepositionorconjunction subordinating介詞或連詞 連接逐句或從句 中國十四個(gè)邊境開放城市經(jīng)濟(jì)建設(shè)成就顯著 同一個(gè)含義的兩種語言的分析樹有著不同的結(jié)構(gòu) 其中有的結(jié)構(gòu)是可以自動(dòng)轉(zhuǎn)換和對齊的 如AABZ XYZXY有的就不可以自動(dòng)對齊轉(zhuǎn)換ABCWXYZ沒法對齊到WYXZ 2002年 Hajie等人在他們 11人 的論文 Naturallanguagegenerationinthecontextofmachinetranslation 提出了非同構(gòu)的平行樹間的兩邊進(jìn)行多于兩個(gè)節(jié)點(diǎn)的m to n的匹配 給出一點(diǎn)彈性處理的許可 例如兩個(gè)樹的詞序不變而結(jié)構(gòu)不同等的原來不可對齊問題 在沒有引起明顯的計(jì)算復(fù)雜度的情況下 也允許子樹對齊 由于這樣的考慮 他們就提出了所謂克隆 Clone 操作的概念 克隆操作 允許在源樹中 拷貝一個(gè)節(jié)點(diǎn)到目標(biāo)樹的任意地方 克隆以后 就像以前一樣使用樹分解 decomposition 和子樹對齊 除了克隆以外 其他的基本算法都不變 硬性解決不解之難 Och的設(shè)想取自于Gildea的工作 Gildea在2003年的論文中提到 在他們的系統(tǒng)里選用韓英軍事領(lǐng)域雙語語料 語料包括5083句 使用4982句作為訓(xùn)練語料 101句作評測 韓語句子的平均長度是13個(gè)字 對齊結(jié)果的比較 如下表所示 Och的狂妄 可能并沒有解決問題 就像阿基米德雖然偉大 但還是不能撬起一個(gè)地球 Och可能在幾個(gè)小時(shí)里 對于任何雙語拿出一個(gè)機(jī)器翻譯系統(tǒng) 但還是不能真正實(shí)用 機(jī)器翻譯任重而道遠(yuǎn) 回過頭來想 Och提出了一個(gè)完整的統(tǒng)計(jì)機(jī)器翻譯思想 在各個(gè)層次給出了各個(gè)特征函數(shù) 借用了克隆的思想 提出了統(tǒng)計(jì)機(jī)器翻譯語法的理論 不是點(diǎn)滴的 而是完整的構(gòu)思 我們似乎可以從中找到起步的光芒 那就是為什么他的論文是一篇最佳論文的原因 但是 最終還沒有找到統(tǒng)計(jì)機(jī)器翻譯可遵循的研究道路 路在那里啊 TreetoString TreetoTree的對齊 可能是實(shí)現(xiàn)機(jī)器翻譯的一個(gè)瓶頸問題 統(tǒng)計(jì)機(jī)器翻譯的領(lǐng)頭人物可能是南加州大學(xué)ISI的KevinKnight 提出了基于語法的語言模型 Syntax basedLanguageModels 與一種tree to string翻譯模型 YK01 組合在一起 得到較好的翻譯精度 這里所提的基于語法 不是普通意義上的人工規(guī)則 而是在樹庫條件下自動(dòng)生成語法 是很有意思的 但其試驗(yàn)結(jié)果 346個(gè)句子 YC 就是他們文章上寫的系統(tǒng) 也就是YK01翻譯模型 Cha01語言模型和基于森林的解碼器組成的系統(tǒng) YT YK01翻譯模型 標(biāo)準(zhǔn)三元語言模型和YK02解碼器BT BPPM93翻譯模型 標(biāo)準(zhǔn)三元語言模型和GJM 01貪婪解碼器注 E Charniak KevinKnightandK Yamada Suntax basedLanguageModelsforStatisticalMachineTranslation 另一位是 約翰霍普金斯大學(xué)計(jì)算機(jī)系的JasonEisner討論非同構(gòu)樹 Non IsomorphicTree 映射問題 即通過訓(xùn)練美對齊的樹或者樹和串混合的隊(duì) 學(xué)習(xí)tree to tree映射 提出一種所謂STSG 它是一種共時(shí)樹置換文法 Synchronoustreesubstitutiongrammar 這是對齊的基本樹隊(duì) 有序 的聚集 它也是一個(gè)簡單的共時(shí)樹鄰接文法 Synchronoustree adjoininggrammar 現(xiàn)已用所有的樹對作訓(xùn)練集 利用EM算法獲得基本樹的概率 和Viterbi解碼器找到最優(yōu)的翻譯 這些方法也是在暑期 2002 約翰霍普金斯大學(xué)CLSP暑期研討會開發(fā)和實(shí)現(xiàn)的 效果有待考驗(yàn) 注 JassonEisner LaerningNon IsomorphicTreeMappingforMachineTranslation 不僅如此 在機(jī)器學(xué)習(xí)方面 最近又有了新的發(fā)展 自然語言處理的學(xué)習(xí)都被認(rèn)為是一種帶標(biāo)序列學(xué)習(xí)問題 LabelSequenceLearning以前的HiddenMarkovModelsMaximumEntropyMarkovModels都是帶標(biāo)序列學(xué)習(xí)問題 現(xiàn)在提出一種新的理論和方法ConditionRandomFields那有事么不同呢 直觀地講 可以比喻如下圖形 HMMMEMMCRF 這主要是解決了兩大問題 Long distancedependences長距離相關(guān)Overlappingfeatures重疊特征這是個(gè)重大的改進(jìn) 學(xué)術(shù)界出現(xiàn)了CRF熱 HMM方法早就不行了 Och用MEMM也可以改進(jìn) 出現(xiàn)了CRF 當(dāng)初 NIST在2001年和2003年兩次評測得第一 是漢英機(jī)器翻譯的評比獲得第一 可能是專了一個(gè)空子 只是漢英機(jī)器翻譯 如果是其他語種的機(jī)器翻譯 可能得不了第一 這就是為什么多年來SYSTRAN還是一直堅(jiān)持老辦法 為什么歐洲和日本機(jī)器翻譯的主流技術(shù)還是基于規(guī)則的 為什么著名的計(jì)算語言學(xué)家Wilkes這么反對統(tǒng)計(jì)機(jī)器翻譯 我們國內(nèi)也是如此 直到現(xiàn)在 甚至連一個(gè)實(shí)驗(yàn)性的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)都沒有 機(jī)器翻譯是NLP領(lǐng)域的百科全書 如果樹串對齊 樹樹對齊 這個(gè)瓶頸問題不解決 統(tǒng)計(jì)語言學(xué)的前景將黯然失色 對他們的信心將產(chǎn)生懷疑 相信 這個(gè)瓶頸問題總能解決 為了進(jìn)一步開發(fā)基于語料庫的機(jī)器翻譯系統(tǒng) 必須解決兩個(gè)問題 必須盡快構(gòu)造海量帶標(biāo)語料庫 帶標(biāo)樹庫 盡快攻克漢外結(jié)構(gòu)化樹庫對齊的技術(shù)難點(diǎn) 把統(tǒng)計(jì)機(jī)器翻譯的研究前進(jìn)一大步 語言標(biāo)注 樹庫的建設(shè)仍在國際上迅速展開 可是我們國家的步伐太慢了 2003年美國的計(jì)算語言學(xué)者們不滿足現(xiàn)有的 多達(dá)2000萬詞的英國國家語料庫 BNC BeritishNationalCorpus 帶標(biāo)語料庫的需求 向全世界發(fā)布了美國國家語料庫 ANC AmericanNationalCorpus 的第一個(gè)版本 這是一個(gè)具有11 508 216詞匯的帶標(biāo)語料庫 由兩部分內(nèi)容組成 其中口語3 224 388字 書面語8 283 828字 使用規(guī)范的XMLcorpusEncodingStandard XCES 書寫 并宣布再做兩年 至少可以達(dá)到100million 氣魄很大 為了開展這個(gè)活動(dòng) 組織了ANC聯(lián)盟 有16個(gè)大公司和學(xué)校作為商業(yè)成員 8個(gè)大公司和學(xué)校作為學(xué)術(shù)成員 參加并支持這項(xiàng)研究工作 CommercialMembersPearsonEducationLangenscheidtPublishingGroupHarperCollinsPublishersCambridgeUniversityPressMicrosoftCorporationShogakukanInc ALCPressInc TaishukanPublishingCompanyOxfordUniversityPressKenkyushaLtd IBMCorporationObunshaPublishingCo Ltd BenesseCorporationSanseidoCo Ltd SonyElectronicsInc MacmillanPublishersAcademicMembersVassarCollegeNorthernArizonaUniversityNewYorkUniversityLinguisticDataConsortium UniversityofPennsylvaniaInternationalComputerScienceInstituteUniversityofCalifornia BerkeleyUniversityofColoradoatBoulder PennChineseTreebank起源于1998年 目標(biāo)是500 000詞漢語語料的語法樹 2000年出了第一版 2001年進(jìn)一步校正 出了第二版 ChineseTreebank4 0包含有404 156詞 664 633漢字 15 162個(gè)句子 和838個(gè)數(shù)據(jù)文件 非會員價(jià)格 US 225 部分資助來自DARPA TIDESgrantnumberN66001 00 1 8915 我們的語言和西方的不同 結(jié)構(gòu)上的巨大差別 必須要搞帶標(biāo)語料庫 樹庫 希望在語料庫語言學(xué)方面有所突破 5 關(guān)于 中國未來20年技術(shù)預(yù)見研究 年初 中科院發(fā)起了 中國未來 年技術(shù)預(yù)見研究 信息技術(shù)領(lǐng)域技術(shù)課題及其說明的德爾菲調(diào)查 調(diào)查的內(nèi)容中 有兩個(gè)地方涉及到機(jī)器翻譯問題 屬于人機(jī)交互與智能處理技術(shù)子領(lǐng)域的子課題 1 文本機(jī)器翻譯系統(tǒng)成為信息交互的重要工具 預(yù)見項(xiàng)目的說明中講 機(jī)器翻譯的成熟將是特定領(lǐng)域的文本在不同語言間的轉(zhuǎn)換變得越來越容易 2 多國語言間特定領(lǐng)域的口語同聲翻譯系統(tǒng)得到實(shí)際應(yīng)用預(yù)見項(xiàng)目的說明中又講 隨著這些相關(guān)技術(shù) 語音識別 合成和機(jī)器翻譯 在特定領(lǐng)域應(yīng)用中的逐步成熟 我不大同意這個(gè)所謂的 成熟 不管成熟還是逐步成熟 我看還談不上成不成熟 50多年都沒有得到基本的解決 20年還能怎么樣 機(jī)器翻譯 按市場上的宣傳而言 那不好說 科學(xué)是老實(shí)的東西 來不得半點(diǎn)虛假 看來 技術(shù)決策層里沒有我們業(yè)內(nèi)的人 中國未來20年技術(shù)預(yù)見研究 里 涉及到計(jì)算語言學(xué)的內(nèi)容大致有 1 開發(fā)出各行各業(yè)的本體體系2 開發(fā)出能模擬人類認(rèn)知能力的計(jì)算機(jī)系統(tǒng)3 網(wǎng)絡(luò)智能于主動(dòng)服務(wù)技術(shù)得到廣泛應(yīng)用4 音視頻智能摘要5 非法播出內(nèi)容的實(shí)時(shí)控制6 語音技術(shù)取得突破性的進(jìn)展并部分得到實(shí)際應(yīng)用7 多國語言間特定領(lǐng)域的口語同聲翻譯系統(tǒng)得到實(shí)際應(yīng)用 8 校正發(fā)音的電子語言學(xué)習(xí)機(jī)成為人們學(xué)習(xí)語言的有力工具9 文本機(jī)器翻譯系統(tǒng)成為信息交流的重要工具10 基于自然語言理解的在線幫助系統(tǒng)在更多領(lǐng)域得到實(shí)際應(yīng)用11 海量知識庫技術(shù)在國家知識基礎(chǔ)設(shè)備和相關(guān)技術(shù)產(chǎn)品市場得到廣泛應(yīng)用12 智能化網(wǎng)絡(luò)信息搜索 知識挖掘得到實(shí)際應(yīng)用13 開發(fā)出數(shù)字人技術(shù)和應(yīng)用系統(tǒng)14 智能空間技術(shù)和智能家居社區(qū)系統(tǒng)得到普及 15 人類文化 自然遺產(chǎn)數(shù)字化技數(shù)字博物館技術(shù)取得實(shí)質(zhì)性進(jìn)展 科學(xué)研究不練內(nèi)功 光想立竿見影 我看是不行 謝謝大家- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 關(guān)于 統(tǒng)計(jì) 機(jī)器翻譯 思考 天順
鏈接地址:http://www.szxfmmzy.com/p-5223720.html