九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

語言模型訓(xùn)練與調(diào)適技術(shù)於

上傳人:xian****hua 文檔編號(hào):247886104 上傳時(shí)間:2024-10-21 格式:PPT 頁數(shù):22 大小:246.99KB
收藏 版權(quán)申訴 舉報(bào) 下載
語言模型訓(xùn)練與調(diào)適技術(shù)於_第1頁
第1頁 / 共22頁
語言模型訓(xùn)練與調(diào)適技術(shù)於_第2頁
第2頁 / 共22頁
語言模型訓(xùn)練與調(diào)適技術(shù)於_第3頁
第3頁 / 共22頁

下載文檔到電腦,查找使用更方便

11.8 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《語言模型訓(xùn)練與調(diào)適技術(shù)於》由會(huì)員分享,可在線閱讀,更多相關(guān)《語言模型訓(xùn)練與調(diào)適技術(shù)於(22頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、按一下以編輯母片標(biāo)題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,語言模型訓(xùn)練與調(diào)適技術(shù)於中文大詞彙連續(xù)語音辨識(shí)之初步研究,摘要,語言模型(language model,LM)是用來擷取自然語言中的特徵,諸如前後文的資訊(contexture information)、語意資訊(semantic information)、主題資訊(topic information)等,利用這些資訊用來判斷詞句發(fā)生的可能性。,其用途可在語音辨識(shí)、手寫辨識(shí)、輸入法(input method editor,IME)、資訊檢索(information retrieval,IR)等。,語言模型訓(xùn)練,訓(xùn)練語料

2、(training corpus),背景語言模型(background LM),統(tǒng)計(jì)式語言模型:,N,連語言模型(N-gram LM),語意資訊:潛藏語意分析(latent semantic analysis,LSA),主題資訊:主題混合模型(topic mixture model,TMM),摘要,訓(xùn)練語料與測試語料間的不一致性(mismatch),蒐集時(shí)間、領(lǐng)域(domain)、主題(topic),語言模型調(diào)適,語言模型調(diào)適的目的,利用與辨識(shí)任務(wù)相關(guān)的資訊來彌補(bǔ)上述的不一致性,調(diào)適語料(adaptation corpus),內(nèi)容較訓(xùn)練語料少,同時(shí)期(contemporary)、同領(lǐng)域(in-

3、domain),摘要,語言模型調(diào)適方法,以最大事後機(jī)率為基礎(chǔ),詞頻數(shù)混合法(count merging)、模型插補(bǔ)法(model interpolation)、動(dòng)態(tài)快取模型法(dynamic caching model),以限制為基礎(chǔ),最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information,MDI),主要研究成果,主題混合模型,最大熵值法,大綱,語言模型的訓(xùn)練,語言模型的調(diào)適,實(shí)驗(yàn)環(huán)境設(shè)定及實(shí)驗(yàn)結(jié)果,結(jié)論,統(tǒng)計(jì)式語言模型,統(tǒng)計(jì)式語言模型(statistical language model,SLM),語言模型,P

4、,產(chǎn)生長度,n,之詞序列(word sequence),W,的機(jī)率(量化接受度),參數(shù)量非常龐大(|,V,|,i,),必須作簡化,N,連語言模型,三連語言模型,統(tǒng)計(jì)式語言模型,三連語言模型的估測,最大相似度估測法(maximum likelihood estimation,MLE),語言模型平滑化(smoothing),資料稀疏性(data sparseness),本論文採用Katz 模型平滑化技術(shù),N,連語言模型所能擷取的資訊被,N,的值所限定,語意資訊觸發(fā)對,觸發(fā)對(trigger pair),長距離詞與詞之間的語意相依資訊,歷史詞序列,h,i,中包含與詞,w,i,相同語意的詞,如,w,j

5、,,則稱,w,j,觸發(fā),w,i,估測觸發(fā)對,平均交互資訊(average mutual information,AMI),自我觸發(fā)(self-trigger),語意資訊潛藏語意分析,詞與文件矩陣(term-document matrix),奇異值分解(singular value decomposition,SVD),詞向量與文件向量無法比較,將詞與文件投影到較低維的潛藏語意空間,加入新的文件(fold-in),潛藏語意分析,應(yīng)用於語言模型機(jī)率估測,更新歷史詞序列所形成的向量,餘弦估測(cosine measure),與,N,連語言模型合併,主題資訊,主題資訊(topic informatio

6、n),語意分類(semantic classification)的應(yīng)用,線性混合模型(linear mixture model),主題分類模型(topic classification model),主題混合模型,主題混合模型(topic mixture model,TMM),每一個(gè)文章皆為一個(gè)混合模型,主題一連語言模型(topic unigram),主題在各文章中的權(quán)重,主題混合模型,應(yīng)用於語言模型機(jī)率估測,與,N,連語言模型結(jié)合,模型插補(bǔ)法,機(jī)率調(diào)整(probability scaling),語言模型調(diào)適的架構(gòu),訓(xùn)練語料,背景語言模型,N,連語言模型,調(diào)適語料,與測試語料同時(shí)期或領(lǐng)域相同,

7、大小較小,不限定為,N,連語言模型,最大事後機(jī)率法,最大事後機(jī)率法(maximum a posterior,MAP),詞頻數(shù)混合法,模型插補(bǔ)法,動(dòng)態(tài)快取模型法,模型插補(bǔ)法延伸,最大熵值法,每一個(gè)資訊來源都會(huì)引發(fā)一群限制(a set of constraint),限制的交集區(qū)域代表滿足所有限制的機(jī)率分佈,其中擁有最大熵值的分佈為最大熵值法的解。,滿足所有限制的機(jī)率分佈之集合,IIS演算法,實(shí)驗(yàn),Set 1:廣播新聞,訓(xùn)練語料:中央社2000年和2001年新聞(一億七千萬中文字 character),調(diào)適語料:中央社2002年8月到10月新聞(五千萬中文字),測試語料:2002年9月之廣播新聞,3

8、.7小時(shí),Set 2:公視新聞(MATBN),訓(xùn)練語料:中央社2001年和2002年新聞(一億五千萬中文字),調(diào)適語料:公視新聞(MATBN)3528則新聞,測試語料:20003年外場記者,1.5小時(shí),基礎(chǔ)實(shí)驗(yàn),Set 1,Set 2,字錯(cuò)誤率,複雜度,Baseline,15.51%,670.23,字錯(cuò)誤率,複雜度,Baseline,25.72%,667.23,詞頻數(shù)混合法,Set 1,Set 2,字錯(cuò)誤率,複雜度,=1,12.98%(16.31%),367.34(45.19%),字錯(cuò)誤率,複雜度,=1,25.2%(2.02%),675.46(-1.23%),=3,24.98%(2.88%),634.43(4.92%),

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!