機(jī)器翻譯和自動(dòng)文摘.ppt
《機(jī)器翻譯和自動(dòng)文摘.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器翻譯和自動(dòng)文摘.ppt(63頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
2020/4/27,1,自然語言理解(NaturalLanguageUnderstanding,NLU),也稱為計(jì)算語言學(xué)(ComputationalLinguistics),是研究如何利用計(jì)算機(jī)來理解和生成自然語言的理論和方法?.它是人工智能三大研究方向之一;是一門自然科學(xué)和社會(huì)科學(xué)交叉的學(xué)科,特別是計(jì)算機(jī)科學(xué)、數(shù)學(xué)、語言學(xué)、心理學(xué)和哲學(xué)相互交叉的科學(xué)。,自然語言理解與機(jī)器翻譯,2020/4/27,2,自然語言就是我們生活中使用的語言,如漢語、英語、日語等等.它是相對(duì)于人工設(shè)計(jì)的形式化的計(jì)算機(jī)語言如Basic、Fortran、C、Lisp等等而言的.隨著社會(huì)信息化程度的提高,人們?cè)絹碓街匾昇LU技術(shù)的研究.其研究成果已經(jīng)在機(jī)器翻譯、信息檢索、自然語言人機(jī)接口等重要領(lǐng)域得到應(yīng)用。機(jī)器翻譯(MachineTranslation,MT)是自然語言處理中的一個(gè)最早的研究分支,它是利用計(jì)算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。用以完成這一過程的軟件叫做機(jī)器翻譯系統(tǒng)。,2020/4/27,3,機(jī)器翻譯和自動(dòng)文摘,,2020/4/27,4,機(jī)器翻譯內(nèi)容提要,機(jī)器翻譯定義機(jī)器翻譯的發(fā)展歷史機(jī)器翻譯現(xiàn)狀機(jī)器翻譯方法機(jī)器翻譯發(fā)展趨勢(shì)機(jī)器翻譯應(yīng)用系統(tǒng)類型結(jié)語,2020/4/27,5,什么是機(jī)器翻譯,機(jī)器翻譯(machinetranslation)是使用電子計(jì)算機(jī)把一種自然語言(源語言,sourcelanguage)翻譯成另外一種自然語言(目標(biāo)語言,targetlanguage)的一門學(xué)科這門新學(xué)科同時(shí)也是一種新技術(shù).它涉及到語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等許多部門,是非常典型的多邊緣的交叉學(xué)科,2020/4/27,6,一些研究領(lǐng)域,–-在語言學(xué)中,機(jī)器翻譯是計(jì)算語言學(xué)的一個(gè)研究領(lǐng)域–-在計(jì)算機(jī)科學(xué)中,機(jī)器翻譯是人工智能的一個(gè)研究領(lǐng)域–-在數(shù)學(xué)中,機(jī)器翻譯是數(shù)理邏輯和形式化方法的一個(gè)研究領(lǐng)域.,2020/4/27,7,機(jī)器翻譯的發(fā)展歷史,機(jī)器翻譯的發(fā)展經(jīng)歷了興起、低落和重新興盛的曲折歷程。在昌盛的時(shí)候,人們?yōu)檠芯砍晒木始姵屎蛻?yīng)用的成功而歡呼,即使在低潮時(shí),人們也在不斷地反思,為重新發(fā)展積蓄力量。國(guó)外的狀況國(guó)內(nèi)的狀況,2020/4/27,8,國(guó)外狀況(1),機(jī)器翻譯最早開始于美國(guó),自本世紀(jì)4O年代電子計(jì)算機(jī)誕生之日起就開始了將計(jì)算機(jī)應(yīng)用于語言翻譯的探索。1949年,美國(guó)工程師W.Weaver散發(fā)了題為“翻譯”的備忘錄,對(duì)機(jī)器翻譯的重要性及可行性進(jìn)行了論證。Weaver首先提出了用統(tǒng)計(jì)方法進(jìn)行機(jī)器翻譯的想法。1952年,第一次全美機(jī)器翻譯會(huì)議召開。,2020/4/27,9,國(guó)外狀況(2),1954年《機(jī)器翻譯》創(chuàng)刊,同年,Georgeton(喬治城大學(xué))大學(xué)成功研制了第一個(gè)機(jī)譯系統(tǒng),由此機(jī)器翻譯掀起熱潮。1966年,Barlill在美國(guó)全國(guó)科學(xué)院的ALPAC報(bào)告中指出:機(jī)器翻譯速度慢,準(zhǔn)確率差,比人工翻譯費(fèi)用高得多,在近期或可以預(yù)見的未來,開發(fā)出實(shí)用的機(jī)器翻譯系統(tǒng)是不可能的。各部門紛紛停止了對(duì)機(jī)器翻譯研究的經(jīng)費(fèi)支持,從而導(dǎo)致機(jī)譯走向低潮。,2020/4/27,10,國(guó)外狀況(3)---低潮期機(jī)譯研究,GETA(Grenoble-France)在BernardVauquois教授領(lǐng)導(dǎo)下,開發(fā)了基于配價(jià)語法的機(jī)器翻譯系統(tǒng),研制了機(jī)器翻譯專用軟件ARIANE,推動(dòng)了邏輯程序設(shè)計(jì)的研究。TAUM-METEO(UniversityofMontreal,從1977開始研制了實(shí)用性機(jī)器翻譯系統(tǒng)(English-French,)TAUM,翻譯天氣預(yù)報(bào)文獻(xiàn),在技術(shù)上,TAUM繼承了GETA的機(jī)器翻譯方法。SYSTRAN:這個(gè)系統(tǒng)在Apollo-Soyuz空間研究方面承擔(dān)了機(jī)器翻譯的任務(wù),立下汗馬功勞,后來被EEC正式采用,作為重要的翻譯工具。,2020/4/27,11,2020/4/27,12,國(guó)外狀況(4)--復(fù)蘇,1970年代末,機(jī)器翻譯進(jìn)入了它的第三個(gè)時(shí)期--繁榮期(1976年—1980年代末)。繁榮期的最重要的特點(diǎn),是機(jī)器翻譯研究走向了實(shí)用化,出現(xiàn)了一大批實(shí)用化的機(jī)器翻譯系統(tǒng),機(jī)器翻譯產(chǎn)品開始進(jìn)入市場(chǎng),變成了商品,由機(jī)器翻譯系統(tǒng)的實(shí)用化引起了機(jī)器翻譯系統(tǒng)的商品化。,2020/4/27,13,機(jī)器翻譯的平臺(tái)期,整個(gè)1990年代,機(jī)器翻譯進(jìn)入了一個(gè)平臺(tái)期基于規(guī)則的機(jī)器翻譯方法理論上無法突破在應(yīng)用上,機(jī)器翻譯由于受到翻譯質(zhì)量制約,難于進(jìn)一步擴(kuò)展,反而是基于翻譯記憶思想的計(jì)算機(jī)輔助翻譯獲得了巨大進(jìn)展,2020/4/27,14,就在機(jī)器翻譯進(jìn)入平臺(tái)期的時(shí)候,一些新的因素也在萌芽–基于實(shí)例的機(jī)器翻譯思想–基于統(tǒng)計(jì)的機(jī)器翻譯思想–互聯(lián)網(wǎng)的出現(xiàn)大大促進(jìn)了機(jī)器翻譯的需求,2020/4/27,15,機(jī)器翻譯新熱潮,1999年開始,出現(xiàn)了一個(gè)機(jī)器翻譯的新熱潮,其最主要的特征是統(tǒng)計(jì)機(jī)器翻譯方法開始占據(jù)主導(dǎo)地位,機(jī)器翻譯的質(zhì)量出現(xiàn)了一個(gè)跨越式的提高,2020/4/27,16,機(jī)器翻譯的新熱潮,1980年代末IBM首次開展統(tǒng)計(jì)機(jī)器翻譯研究?年IBM首次提出統(tǒng)計(jì)機(jī)器翻譯的信源信道模型1993年IBM提出五種基于詞的統(tǒng)計(jì)翻譯模型IBMModel1-51994年IBM發(fā)表論文給出了Candide系統(tǒng)與Systran系統(tǒng)在ARPA評(píng)測(cè)中的對(duì)比測(cè)試報(bào)告1999年JHU夏季研討班重復(fù)了IBM的工作并推出了開放源代碼的工具2001年IBM提出了機(jī)器翻譯自動(dòng)評(píng)測(cè)方法BLEU2002年NIST開始舉行每年一度的機(jī)器翻譯評(píng)測(cè)2002年第一個(gè)采用統(tǒng)計(jì)機(jī)器翻譯方法的商業(yè)公司LanguageWeaver成立,2020/4/27,17,機(jī)器翻譯新熱潮,2002年FranzJosefOch提出統(tǒng)計(jì)機(jī)器翻譯的對(duì)數(shù)線性模型2003年FranzJosefOch提出對(duì)數(shù)線性模型的最小錯(cuò)誤率訓(xùn)練方法2004年P(guān)hilippKoehn推出Pharaoh(法老)標(biāo)志著基于短語的統(tǒng)計(jì)翻譯方法趨于成熟2005年DavidChiang提出層次短語模型并代表UMD在NIST評(píng)測(cè)中取得好成績(jī)2005年Google在NIST評(píng)測(cè)中大獲全勝,隨后Google推出基于統(tǒng)計(jì)方法的在線翻譯工具,其阿拉伯語-英語的翻譯達(dá)到了用戶完全可接受的水平,目前已經(jīng)可以支持40多種語言的互譯2006年NIST評(píng)測(cè)中USC-ISI的串到樹句法模型第一次超過Google(僅在漢英受限翻譯項(xiàng)目中),2020/4/27,18,2020/4/27,19,國(guó)內(nèi)狀況,我國(guó)機(jī)器翻澤的研究從一開始就得到了國(guó)家的高度重視。早在1956年它便以“機(jī)器翔譯/自然語言的數(shù)學(xué)理論”列入了當(dāng)時(shí)的《科學(xué)發(fā)展綱要》。以后則列為“六五”、“七五”。以及“863”等重大科研項(xiàng)目.但因?yàn)椤拔母铩庇羞^1O年的停滯。,2020/4/27,20,國(guó)內(nèi)狀況,7O年代中期,我國(guó)機(jī)器翻譯研究從停滯走向了復(fù)蘇.8O年代中期到9O年代初期產(chǎn)生丁兩個(gè)在中國(guó)機(jī)譯史上具有重要意義的實(shí)用化系統(tǒng).它們分別是軍事科學(xué)院研制的”KY—l”英漢機(jī)譯系統(tǒng)和中科院計(jì)算所研制的”863一IMT”英漢機(jī)譯系統(tǒng).,2020/4/27,21,國(guó)內(nèi)狀況,90年代初期至今,中國(guó)的機(jī)器翻譯走入了快速發(fā)展的時(shí)期,出現(xiàn)了許多商品化系統(tǒng)。近期的機(jī)譯系統(tǒng)大體上有這樣一些持點(diǎn):多數(shù)配有大規(guī)模的多種領(lǐng)域的專業(yè)詞典,多數(shù)能在網(wǎng)上運(yùn)行,有相當(dāng)不錯(cuò)的方便用戶的界面。新的應(yīng)用領(lǐng)域的機(jī)器翻譯研究,如對(duì)話翻譯系統(tǒng)的研發(fā)等也已開始.,2020/4/27,22,機(jī)器翻譯現(xiàn)狀(面臨問題),1、影響機(jī)器翻譯質(zhì)量的核心是歧義的處理。在詞匯的層面上,詞匯的歧義主要是一詞多義,如英語單詞“note”可以指“筆記”、“短信”、“注釋”、“紙幣”等。以下是詞匯歧義的例子:原文:Thank-younotesareheart-warming.機(jī)器譯文:感謝筆記溫暖人心。人工譯文:感謝信溫暖人心。,2020/4/27,23,在結(jié)構(gòu)層面上,常見的結(jié)構(gòu)歧義有and(和)結(jié)構(gòu),如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,這種歧義只有人工翻譯才能消除,計(jì)算機(jī)無法識(shí)別此歧義,可見歧義的處理是影響機(jī)器翻譯質(zhì)量的關(guān)鍵。,2020/4/27,24,,2、人類翻譯目標(biāo)集中于目標(biāo)語言,如果有必要的話,譯者會(huì)采用靈活的方式以使翻譯傳情達(dá)意,有的時(shí)候會(huì)使用意譯的方法,這是機(jī)器翻譯所無法達(dá)到的。,2020/4/27,25,例1,文學(xué)翻譯是“傳達(dá)作者的全部意圖,即作者對(duì)在讀者思想感情上產(chǎn)生藝術(shù)作用的全部意圖”。即使對(duì)于專業(yè)翻譯工作者來說,文學(xué)翻譯也不是件容易的事,更何況是對(duì)于沒有任何認(rèn)知能力的機(jī)器。以下是美國(guó)19世紀(jì)著名作家愛默森長(zhǎng)篇散文Beauty中的原句。原文:“ButthisbeautyofNaturewhichisseenandfeltasbeauty,istheleastpart.”—BeautyRalphWaldoEmerson機(jī)器譯文:但是這哪個(gè)看見并且作為美麗感到的自然的美麗,是最小部分。夏濟(jì)安譯文:可是凡是耳目所能辨認(rèn)出來的美,只是自然之美的最低部分。,2020/4/27,26,例2:美國(guó)著名作家馬克.吐溫早期優(yōu)秀小說《競(jìng)選州長(zhǎng)》中的原句。原文:"Ihauleddownmycolorsandsurrendered."—RunningForGovernorMarkTwain機(jī)器譯文:我沿著我的顏色拖并且投降。張有松譯文:我偃旗息鼓,甘拜下風(fēng)。由于機(jī)器沒有思維、推理、判斷能力,缺乏人工譯者的綜合知識(shí)和長(zhǎng)期積淀下來的文化知識(shí)等,無法對(duì)原文產(chǎn)生全面的了解,做的只是機(jī)械轉(zhuǎn)碼,無法突破思維障礙。要獲得地道完整的譯文,必須對(duì)機(jī)器譯文進(jìn)行人工修改、加工。,2020/4/27,27,機(jī)器翻譯的方法,機(jī)器翻譯的基本過程機(jī)器翻譯的總?cè)蝿?wù)可以描述為:將一種語言(源語言)的文本送入計(jì)算機(jī),通過計(jì)算機(jī)程序生成另一種語言(目標(biāo)語言)的文本,且源語言文本與目標(biāo)語言文本具有相同的含義。機(jī)器翻譯系統(tǒng)的類型很多,采取的策略和技術(shù)也有差別,但它們的基本工作過程大體上是一致的。機(jī)器翻譯的第一步是在不同層次上分析源文本,而后是目標(biāo)語文本的生成.這兩個(gè)步驟是機(jī)器翻譯系統(tǒng)基本實(shí)現(xiàn)過程中的兩個(gè)主要組成部分。,2020/4/27,28,機(jī)器翻譯的四種實(shí)現(xiàn)方法,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法基于中間語言的翻譯方法基于統(tǒng)計(jì)的機(jī)器翻譯方法基于實(shí)例的機(jī)器翻譯方法,2020/4/27,29,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,機(jī)器翻譯系統(tǒng)的操作過程與人做翻譯過程一樣,有檢索、分析、轉(zhuǎn)換和生成的主要四個(gè)階段這被稱為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng),也被認(rèn)為是模擬人類翻譯活動(dòng)最恰當(dāng)?shù)臋C(jī)制,2020/4/27,30,基本原理一般情況下,分析以句法為主、語義為輔,正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語言向目標(biāo)語言傳遞完整的正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加一定的語義信息,能夠構(gòu)成轉(zhuǎn)換的基本層次,就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來說,句子和短語層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重點(diǎn),這方面一般采用一下產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式。,2020/4/27,31,轉(zhuǎn)換規(guī)則形式:S:S1+S2+‥+Si→T1+T2+‥+Tj:T上式理解為S是SL(源語言)的某個(gè)待翻譯單位(句子、短語等等),S1~S2是S中的下一級(jí)組成單位;對(duì)于S,如果滿足條件,則TL(目標(biāo)語言)中有T1~Tj譯文構(gòu)成了相應(yīng)的等價(jià)物T。上述方法稱為基于句法的轉(zhuǎn)換方法,因?yàn)镾1+S2+‥+Si一般來說就是源語言的的句法結(jié)構(gòu)表示;也可以稱為直接轉(zhuǎn)換方法,因?yàn)閷?duì)于每個(gè)源語言的翻譯組塊,都馬上給出一個(gè)目標(biāo)語言組塊與之對(duì)應(yīng)。應(yīng)該說,這種轉(zhuǎn)換方法符合人的直覺認(rèn)識(shí),也能夠?qū)崿F(xiàn)。,2020/4/27,32,基于中間語言的翻譯方法,基于中間語言的翻譯方法是對(duì)源語言進(jìn)行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標(biāo)語言。所謂中間語言就是自然語言的計(jì)算機(jī)表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨(dú)立于各種自然語言,同時(shí)又能表示各種自然語言的人工語言。,2020/4/27,33,基于中間語言的機(jī)器翻譯方法的優(yōu)勢(shì)是無需一種語言到另一種語言的一一轉(zhuǎn)換,對(duì)于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識(shí)的手工獲取工作量。假如有N種語對(duì)需要相互翻譯,只要有2N個(gè)分析和生成模塊就夠了,其中一半是源語言分析模塊,輸入為原文,輸出以IL表示;另一半是目標(biāo)語言生成模塊,輸入為IL表示,輸出為目標(biāo)語言譯文。,2020/4/27,34,然而,中間語言的機(jī)器翻譯方法也常遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種不同的自然語言語法、語義的中間語言至少目前還是未知數(shù)。此外,中間語言能不能把各種語言的所有特征保留下來,又能很好生成對(duì)應(yīng)的各種語言也是問題所以,構(gòu)造中間語言是一個(gè)巨大、復(fù)雜的工程,還包含許多理論研究,迄今為止的探索還沒有好的答案。,2020/4/27,35,基于統(tǒng)計(jì)的機(jī)器翻譯的方法,它的基本原理是實(shí)現(xiàn)源語言詞匯到目標(biāo)語言詞匯的映射。其思路受到語音識(shí)別研究的啟發(fā),因而應(yīng)用了類似的方法來實(shí)現(xiàn)。研究者用大規(guī)模的雙語語料庫作為基礎(chǔ),對(duì)源語言和目標(biāo)語言詞匯的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)規(guī)律輸出譯文。,2020/4/27,36,這種方法沒有使用語言知識(shí),主要特征是概率統(tǒng)計(jì)與隨機(jī)過程的方法成為了分析和生成過程的唯一方法。它的主要內(nèi)容是雙語句對(duì)的對(duì)齊,通過詞匯同現(xiàn)的可能性來計(jì)算一種語言的一個(gè)詞映射到另一種語言的一個(gè)詞(或兩個(gè)、零個(gè)詞)的概率。應(yīng)該說,基于統(tǒng)計(jì)的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌,,從而開始了機(jī)器翻譯研究的新階段。,2020/4/27,37,基于實(shí)例的機(jī)器翻譯方法,建立機(jī)器翻譯系統(tǒng)需要大量的知識(shí),在基于轉(zhuǎn)換和基于中間語言的機(jī)器翻譯方法中,知識(shí)按一定規(guī)則譯成代碼,這既耗時(shí)花費(fèi)也大。此外,知識(shí)獲取瓶頸阻礙了機(jī)器翻譯的快速發(fā)展,這是早期機(jī)器翻譯面臨的重大難題。,2020/4/27,38,日本機(jī)器翻譯專家Nagao在80年代提出了一種新方法,用已經(jīng)存在的翻譯實(shí)例(雙語文本)作為知識(shí)源,這種方法稱為基于類比的翻譯,后來普遍稱為基于實(shí)例的翻譯?;趯?shí)例的思想己被廣泛的采用,既用于機(jī)器翻譯的設(shè)計(jì),也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想,也是具有吸引力的。,2020/4/27,39,基于實(shí)例的機(jī)器翻譯方法通過結(jié)構(gòu)化的翻譯例子直接把源語言的短語和句子與目標(biāo)語言的短語和句子對(duì)應(yīng)起來。方法的不同使得處理步驟或多或少,但都必須實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是短語或句子到與之相應(yīng)的等價(jià)物,或者是一棵句法樹到另一棵句法樹。,2020/4/27,40,基于實(shí)例的機(jī)器翻譯(EBMT)的實(shí)現(xiàn)過程簡(jiǎn)單概述如下:給定源語言輸入句子S,在雙語語料庫中匹配查找一個(gè)最相近的句子S’,則S’的譯文就被接受為的譯文。翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或相似的表達(dá)在以前是如何翻譯的,把以前的翻譯實(shí)例作為主要知識(shí)源,2020/4/27,41,機(jī)器翻譯發(fā)展趨勢(shì),機(jī)器翻譯的質(zhì)量雖然不能和人工翻譯相提并論,但有許多優(yōu)勢(shì)是人工翻譯所不具備的。我國(guó)著名計(jì)算語言學(xué)與機(jī)器翻譯專家董振東說:“美國(guó)要開發(fā)一種口語翻譯機(jī),專門用來審訊與美國(guó)人語言不通的塔利班俘虜。如果用人來做翻譯,由于語言不通,即使翻譯被塔利班收買,對(duì)美國(guó)人信口胡說,美國(guó)人也不會(huì)知道,而機(jī)器就不可能出現(xiàn)這種情況。這機(jī)器現(xiàn)在有沒有發(fā)明出來,能到什么翻譯水平還不得而知,但這至少是一個(gè)相當(dāng)好的發(fā)展領(lǐng)域?!?2020/4/27,42,因此,發(fā)揮機(jī)器翻譯的自身優(yōu)勢(shì)是決定機(jī)器翻譯發(fā)展趨勢(shì)的重要因素之一。機(jī)器翻譯的發(fā)展趨勢(shì)是解決人工智能的技術(shù)問題?!凹僭O(shè)要從人工智能上有所突破,那只能在神經(jīng)網(wǎng)絡(luò)和模糊計(jì)算上尋找出路?!睘榱颂剿魅斯ぶ悄?,使電腦模仿人腦,進(jìn)行更多的智力勞動(dòng),模糊計(jì)算便應(yīng)運(yùn)而生。神經(jīng)網(wǎng)絡(luò)和模糊計(jì)算都是通過對(duì)人腦的結(jié)構(gòu)和推理方式的模擬來實(shí)現(xiàn)計(jì)算機(jī)的智能化?!爸挥腥四X才能和人腦相比”——這看似廢話,對(duì)于機(jī)器翻譯來說,卻是技術(shù)上真正意義上的突破口。,2020/4/27,43,機(jī)器翻譯應(yīng)用系統(tǒng)類型,按應(yīng)用方式劃分–信息分發(fā)型MTfordissemination要求高質(zhì)量,不要求實(shí)時(shí)采用人機(jī)互助,或者受限領(lǐng)域、受限語言等方式提高翻譯質(zhì)量–信息吸收型MTforassimilation不要求高質(zhì)量,要求方便、實(shí)時(shí)翻譯瀏覽器、便攜式翻譯設(shè)備、……,2020/4/27,44,按應(yīng)用方式劃分–信息交流型MTforinterchange不要求高質(zhì)量,通常要求實(shí)時(shí),語言隨意性較大語音翻譯、網(wǎng)絡(luò)聊天翻譯、電子郵件翻譯–信息存取型MTforinformationaccess將機(jī)器翻譯嵌入到其他應(yīng)用系統(tǒng)中跨語言檢索、跨語言信息抽取、跨語言文摘、跨語言非文本數(shù)據(jù)庫的檢索……,2020/4/27,45,結(jié)語,目前,機(jī)器翻譯的水平較50年前有了很大的提升,但要徹底克服語言障礙,使MT投入實(shí)際應(yīng)用,還需數(shù)學(xué)家、計(jì)算機(jī)專家、人工智能專家、語言學(xué)家、心理學(xué)家、認(rèn)知學(xué)家、邏輯學(xué)家等通力合作,共同努力,從理論研究和應(yīng)用開發(fā)上有所突破,相信機(jī)器翻譯會(huì)到達(dá)光明的彼岸。,2020/4/27,46,自動(dòng)文摘,2020/4/27,47,自動(dòng)文摘作用,自動(dòng)文摘技術(shù)的作用是生成給定原文的中心內(nèi)容,或把所需要的內(nèi)容從文章中自動(dòng)抽取出來,并用同于或不同于原文的句子表示出來。其軟件系統(tǒng)稱之為自動(dòng)文摘系統(tǒng)。,2020/4/27,48,自動(dòng)文摘—引言,自動(dòng)文摘技術(shù)的研究開始于20世紀(jì)50年代末,IBM公司的Luhn首次設(shè)計(jì)了一個(gè)自動(dòng)文摘系統(tǒng)。進(jìn)入90年代以來,隨著Internet的開通,自動(dòng)文摘引起了世人的極大關(guān)注,越來越多的學(xué)者紛紛開始從認(rèn)知心理學(xué)、情報(bào)科學(xué)、計(jì)算語言學(xué)等各個(gè)方面展開研究,提出了實(shí)現(xiàn)自動(dòng)文摘的新的思路和方法,自動(dòng)文摘的研究進(jìn)入了前所未有的繁榮期。,2020/4/27,49,自動(dòng)文摘的兩個(gè)階段,基于統(tǒng)計(jì)的機(jī)械文摘-------機(jī)械式自動(dòng)文摘基于意義的理解文摘-------理解式自動(dòng)文摘,2020/4/27,50,2020/4/27,51,機(jī)械文摘基本原理,機(jī)械文摘是指根據(jù)文章的外在特征抽取原文中的部分句子作為摘要。機(jī)械文摘的基本原理是:文章中有一些能夠反映文章主題的詞,可以稱為有效詞(Significantword),有效詞集中的句子就是能概括文摘主旨的句子,如關(guān)鍵句(KeySen.tence),關(guān)鍵句集構(gòu)成摘要。嚴(yán)格地說,根據(jù)這種方法提取出來的文本只能稱為摘錄,而不是真正意義上的文摘。,2020/4/27,52,機(jī)械文摘的生成通常是通過分析文本的六種形式特征來確定的。這六種特征是:詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、線索詞、指示性短語等,它們從不同的角度揭示文本主題。由此也可以看出,機(jī)械文摘所使用的方法主要是依靠統(tǒng)計(jì)(如統(tǒng)計(jì)詞頻)和經(jīng)驗(yàn)(如分析關(guān)鍵詞關(guān)鍵句出現(xiàn)的位置)獲得的。,2020/4/27,53,通過傳統(tǒng)的機(jī)械文摘技術(shù)給出的文摘雖然通常能夠抓住文獻(xiàn)的關(guān)鍵所在,并用作者的原句加以概括,而且獲得了一定的實(shí)際應(yīng)用,但它的缺點(diǎn)也是明顯的,其中最為突出的有以下幾個(gè)方面:摘要的質(zhì)量不穩(wěn)定,缺乏句問的連貫性,有時(shí)摘要內(nèi)容冗余等。,2020/4/27,54,基于上述機(jī)械文摘的缺陷,人們探索了利用自然語言理解技術(shù)進(jìn)行自動(dòng)文摘的方法。由于受到知識(shí)不足的限制,基于理解的文摘技術(shù)只能適用于某個(gè)狹窄的領(lǐng)域,如用于處理有軍事情況的新聞等,但摘要的質(zhì)量明顯優(yōu)于傳統(tǒng)文摘。,2020/4/27,55,理解文摘,基于理解的文摘方法是以人工智能,特別是自然語言理解技術(shù)為基礎(chǔ)而發(fā)展起來的文摘方法。該方法與機(jī)械文摘的明顯區(qū)別在于對(duì)知識(shí)的利用,它不僅利用語言學(xué)知識(shí)獲取語言結(jié)構(gòu),更重要的是利用領(lǐng)域知識(shí)進(jìn)行判斷、推理,得到文摘的意義表示,最后從意義表示中生成摘要。,2020/4/27,56,基本原理,基本原理是:在某一特定領(lǐng)域的文章中,必然存在著特定的信息焦點(diǎn),即讀者感興趣的內(nèi)容,如軍事情況報(bào)道必然包含有關(guān)的地點(diǎn)、人數(shù)、傷亡情況等內(nèi)容。利用語言學(xué)手段將文章中代表這些信息焦點(diǎn)的文字識(shí)別出來,用話語加以組織即可形成一篇連貫的高質(zhì)量的文摘。,2020/4/27,57,理解文摘過程,基于理解的文摘方法實(shí)現(xiàn)主要分以下幾步驟:(1)文本預(yù)處理:借助詞典中的語言學(xué)知識(shí)對(duì)原文中的句子進(jìn)行語法分析,獲得語法結(jié)構(gòu)樹。(2)語義分析:運(yùn)用知識(shí)庫中的語義知識(shí)將語法結(jié)構(gòu)描述轉(zhuǎn)換成以邏輯和意義為基礎(chǔ)的語義標(biāo)示。,2020/4/27,58,(3)語用分析和信息提取:更具知識(shí)庫中預(yù)先存放的領(lǐng)域知識(shí)在上下文中進(jìn)行處理,并將提取出來的關(guān)鍵內(nèi)容存入一張信息表。(4)文本生成:將信息表中的內(nèi)容轉(zhuǎn)換為一段完整連貫的文字輸出。,2020/4/27,59,理解文摘優(yōu)缺點(diǎn)分析,基于理解的自動(dòng)摘要采用了復(fù)雜的自然語言理解和生成技術(shù),對(duì)文獻(xiàn)意義的把握更準(zhǔn)確一些,因此摘要質(zhì)量較好,具有簡(jiǎn)潔精練、全面準(zhǔn)確、可讀性強(qiáng)等優(yōu)點(diǎn)。理解摘要不僅要求計(jì)算機(jī)具有自然語言理解和生成能力,還需要表達(dá)和組織各種背景、領(lǐng)域知識(shí)。這些工作的難度十分巨大,迄今為止進(jìn)展甚微。因此,理解摘要方法的使用比較少見,僅限于非常狹小的應(yīng)用領(lǐng)域中。,2020/4/27,60,理解文摘應(yīng)用舉例,基于理解的文摘方法需要較成熟的人工智能技術(shù)和大型的專家知識(shí)庫,對(duì)文章進(jìn)行深層的句法和語義分析。典型的理解式文摘方法使用預(yù)定制的模板,從原文中提煉重要的信息填入模板中,從而生成摘要。采用這種方法的系統(tǒng)包括FRUMP(DeJong,1982),TOPIC(Hahnetal,1985),SCISOR(Rau,1988)和SUMMON(McKeownetal,1995)等。,2020/4/27,61,哈爾濱工業(yè)大學(xué)研制了一個(gè)基于理解的軍事領(lǐng)域自動(dòng)文摘實(shí)用系統(tǒng)(MilitaryAreaTextAutomaticAbstractSystem,MATAS)。該系統(tǒng)考慮了句子之間的語義聯(lián)系,但是系統(tǒng)不能自動(dòng)判斷段落的文體,需要人工干預(yù)[4]。北京郵電大學(xué)研究實(shí)現(xiàn)了面向新聞報(bào)道的News系統(tǒng)及面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies自動(dòng)文摘系統(tǒng)。,2020/4/27,62,自動(dòng)文摘面臨的研究,(1)基于理解的文摘系統(tǒng)大多受限于特定領(lǐng)域,難以移植,發(fā)展空間不大。(2)需要加強(qiáng)對(duì)概念的研究,形成一套以概念為核心的自然語言分析體系。(3)多文檔文摘是亟待研究的一個(gè)課題。(4)便攜式設(shè)備和移動(dòng)電話的發(fā)展為自動(dòng)文摘的應(yīng)用提供了新的機(jī)遇和挑戰(zhàn)。(5)文摘及自動(dòng)文摘系統(tǒng)的評(píng)價(jià)問題尚需進(jìn)一步研究。,2020/4/27,63,Thankyou!,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 機(jī)器翻譯 自動(dòng) 文摘
鏈接地址:http://www.szxfmmzy.com/p-11539277.html