語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於

資源ID：247886104 資源大?。?span id="24d9guoke414" class="font-tahoma">246.99KB 全文頁(yè)數(shù)：22頁(yè)
資源格式： PPT 下載積分：11.8積分

快捷下載

會(huì)員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要11.8積分

郵箱/手機(jī)：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào)，方便查詢和重復(fù)下載（系統(tǒng)自動(dòng)生成）
支付方式：
驗(yàn)證碼：	換一換

賬號(hào)：
密碼：
驗(yàn)證碼：	換一換
當(dāng)日自動(dòng)登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會(huì)被瀏覽器默認(rèn)打開，此種情況可以點(diǎn)擊瀏覽器菜單，保存網(wǎng)頁(yè)到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請(qǐng)使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案，請(qǐng)知曉。

網(wǎng)站客服

侵權(quán)投訴

語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於

按一下以編輯母片標(biāo)題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於中文大詞彙連續(xù)語(yǔ)音辨識(shí)之初步研究,摘要,語(yǔ)言模型(language model,LM)是用來(lái)擷取自然語(yǔ)言中的特徵，諸如前後文的資訊(contexture information)、語(yǔ)意資訊(semantic information)、主題資訊(topic information)等，利用這些資訊用來(lái)判斷詞句發(fā)生的可能性。,其用途可在語(yǔ)音辨識(shí)、手寫辨識(shí)、輸入法(input method editor,IME)、資訊檢索(information retrieval,IR)等。,語(yǔ)言模型訓(xùn)練,訓(xùn)練語(yǔ)料(training corpus)，背景語(yǔ)言模型(background LM),統(tǒng)計(jì)式語(yǔ)言模型：,N,連語(yǔ)言模型(N-gram LM),語(yǔ)意資訊：潛藏語(yǔ)意分析(latent semantic analysis,LSA),主題資訊：主題混合模型(topic mixture model,TMM),摘要,訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料間的不一致性(mismatch),蒐集時(shí)間、領(lǐng)域(domain)、主題(topic),語(yǔ)言模型調(diào)適,語(yǔ)言模型調(diào)適的目的,利用與辨識(shí)任務(wù)相關(guān)的資訊來(lái)彌補(bǔ)上述的不一致性,調(diào)適語(yǔ)料(adaptation corpus),內(nèi)容較訓(xùn)練語(yǔ)料少,同時(shí)期(contemporary)、同領(lǐng)域(in-domain),摘要,語(yǔ)言模型調(diào)適方法,以最大事後機(jī)率為基礎(chǔ),詞頻數(shù)混合法(count merging)、模型插補(bǔ)法(model interpolation)、動(dòng)態(tài)快取模型法(dynamic caching model),以限制為基礎(chǔ),最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information,MDI),主要研究成果,主題混合模型,最大熵值法,大綱,語(yǔ)言模型的訓(xùn)練,語(yǔ)言模型的調(diào)適,實(shí)驗(yàn)環(huán)境設(shè)定及實(shí)驗(yàn)結(jié)果,結(jié)論,統(tǒng)計(jì)式語(yǔ)言模型,統(tǒng)計(jì)式語(yǔ)言模型(statistical language model,SLM),語(yǔ)言模型,P,產(chǎn)生長(zhǎng)度,n,之詞序列(word sequence),W,的機(jī)率(量化接受度),參數(shù)量非常龐大(|,V,|,i,)，必須作簡(jiǎn)化,N,連語(yǔ)言模型,三連語(yǔ)言模型,統(tǒng)計(jì)式語(yǔ)言模型,三連語(yǔ)言模型的估測(cè),最大相似度估測(cè)法(maximum likelihood estimation,MLE),語(yǔ)言模型平滑化(smoothing),資料稀疏性(data sparseness),本論文採(cǎi)用Katz 模型平滑化技術(shù),N,連語(yǔ)言模型所能擷取的資訊被,N,的值所限定,語(yǔ)意資訊觸發(fā)對(duì),觸發(fā)對(duì)(trigger pair),長(zhǎng)距離詞與詞之間的語(yǔ)意相依資訊,歷史詞序列,h,i,中包含與詞,w,i,相同語(yǔ)意的詞，如,w,j,，則稱,w,j,觸發(fā),w,i,估測(cè)觸發(fā)對(duì),平均交互資訊(average mutual information,AMI),自我觸發(fā)(self-trigger),語(yǔ)意資訊潛藏語(yǔ)意分析,詞與文件矩陣(term-document matrix),奇異值分解(singular value decomposition,SVD),詞向量與文件向量無(wú)法比較,將詞與文件投影到較低維的潛藏語(yǔ)意空間,加入新的文件(fold-in),潛藏語(yǔ)意分析,應(yīng)用於語(yǔ)言模型機(jī)率估測(cè),更新歷史詞序列所形成的向量,餘弦估測(cè)(cosine measure),與,N,連語(yǔ)言模型合併,主題資訊,主題資訊(topic information),語(yǔ)意分類(semantic classification)的應(yīng)用,線性混合模型(linear mixture model),主題分類模型(topic classification model),主題混合模型,主題混合模型(topic mixture model,TMM),每一個(gè)文章皆為一個(gè)混合模型,主題一連語(yǔ)言模型(topic unigram),主題在各文章中的權(quán)重,主題混合模型,應(yīng)用於語(yǔ)言模型機(jī)率估測(cè),與,N,連語(yǔ)言模型結(jié)合,模型插補(bǔ)法,機(jī)率調(diào)整(probability scaling),語(yǔ)言模型調(diào)適的架構(gòu),訓(xùn)練語(yǔ)料,背景語(yǔ)言模型,N,連語(yǔ)言模型,調(diào)適語(yǔ)料,與測(cè)試語(yǔ)料同時(shí)期或領(lǐng)域相同,大小較小,不限定為,N,連語(yǔ)言模型,最大事後機(jī)率法,最大事後機(jī)率法(maximum a posterior,MAP),詞頻數(shù)混合法,模型插補(bǔ)法,動(dòng)態(tài)快取模型法,模型插補(bǔ)法延伸,最大熵值法,每一個(gè)資訊來(lái)源都會(huì)引發(fā)一群限制(a set of constraint)，限制的交集區(qū)域代表滿足所有限制的機(jī)率分佈，其中擁有最大熵值的分佈為最大熵值法的解。,滿足所有限制的機(jī)率分佈之集合,IIS演算法,實(shí)驗(yàn),Set 1：廣播新聞,訓(xùn)練語(yǔ)料:中央社2000年和2001年新聞(一億七千萬(wàn)中文字 character),調(diào)適語(yǔ)料:中央社2002年8月到10月新聞(五千萬(wàn)中文字),測(cè)試語(yǔ)料:2002年9月之廣播新聞，3.7小時(shí),Set 2：公視新聞(MATBN),訓(xùn)練語(yǔ)料:中央社2001年和2002年新聞(一億五千萬(wàn)中文字),調(diào)適語(yǔ)料:公視新聞(MATBN)3528則新聞,測(cè)試語(yǔ)料:20003年外場(chǎng)記者，1.5小時(shí),基礎(chǔ)實(shí)驗(yàn),Set 1,Set 2,字錯(cuò)誤率,複雜度,Baseline,15.51%,670.23,字錯(cuò)誤率,複雜度,Baseline,25.72%,667.23,詞頻數(shù)混合法,Set 1,Set 2,字錯(cuò)誤率,複雜度,=1,12.98%(16.31%),367.34(45.19%),字錯(cuò)誤率,複雜度,=1,25.2%(2.02%),675.46(-1.23%),=3,24.98%(2.88%),634.43(4.92%),

注意事項(xiàng)

本文（語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於）為本站會(huì)員（xian****hua）主動(dòng)上傳，裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)（點(diǎn)擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載，重復(fù)下載不扣分。

九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於

語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於