語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於
按一下以編輯母片標(biāo)題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,語(yǔ)言模型訓(xùn)練與調(diào)適技術(shù)於中文大詞彙連續(xù)語(yǔ)音辨識(shí)之初步研究,摘要,語(yǔ)言模型(language model,LM)是用來(lái)擷取自然語(yǔ)言中的特徵,諸如前後文的資訊(contexture information)、語(yǔ)意資訊(semantic information)、主題資訊(topic information)等,利用這些資訊用來(lái)判斷詞句發(fā)生的可能性。,其用途可在語(yǔ)音辨識(shí)、手寫辨識(shí)、輸入法(input method editor,IME)、資訊檢索(information retrieval,IR)等。,語(yǔ)言模型訓(xùn)練,訓(xùn)練語(yǔ)料(training corpus),背景語(yǔ)言模型(background LM),統(tǒng)計(jì)式語(yǔ)言模型:,N,連語(yǔ)言模型(N-gram LM),語(yǔ)意資訊:潛藏語(yǔ)意分析(latent semantic analysis,LSA),主題資訊:主題混合模型(topic mixture model,TMM),摘要,訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料間的不一致性(mismatch),蒐集時(shí)間、領(lǐng)域(domain)、主題(topic),語(yǔ)言模型調(diào)適,語(yǔ)言模型調(diào)適的目的,利用與辨識(shí)任務(wù)相關(guān)的資訊來(lái)彌補(bǔ)上述的不一致性,調(diào)適語(yǔ)料(adaptation corpus),內(nèi)容較訓(xùn)練語(yǔ)料少,同時(shí)期(contemporary)、同領(lǐng)域(in-domain),摘要,語(yǔ)言模型調(diào)適方法,以最大事後機(jī)率為基礎(chǔ),詞頻數(shù)混合法(count merging)、模型插補(bǔ)法(model interpolation)、動(dòng)態(tài)快取模型法(dynamic caching model),以限制為基礎(chǔ),最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information,MDI),主要研究成果,主題混合模型,最大熵值法,大綱,語(yǔ)言模型的訓(xùn)練,語(yǔ)言模型的調(diào)適,實(shí)驗(yàn)環(huán)境設(shè)定及實(shí)驗(yàn)結(jié)果,結(jié)論,統(tǒng)計(jì)式語(yǔ)言模型,統(tǒng)計(jì)式語(yǔ)言模型(statistical language model,SLM),語(yǔ)言模型,P,產(chǎn)生長(zhǎng)度,n,之詞序列(word sequence),W,的機(jī)率(量化接受度),參數(shù)量非常龐大(|,V,|,i,),必須作簡(jiǎn)化,N,連語(yǔ)言模型,三連語(yǔ)言模型,統(tǒng)計(jì)式語(yǔ)言模型,三連語(yǔ)言模型的估測(cè),最大相似度估測(cè)法(maximum likelihood estimation,MLE),語(yǔ)言模型平滑化(smoothing),資料稀疏性(data sparseness),本論文採(cǎi)用Katz 模型平滑化技術(shù),N,連語(yǔ)言模型所能擷取的資訊被,N,的值所限定,語(yǔ)意資訊觸發(fā)對(duì),觸發(fā)對(duì)(trigger pair),長(zhǎng)距離詞與詞之間的語(yǔ)意相依資訊,歷史詞序列,h,i,中包含與詞,w,i,相同語(yǔ)意的詞,如,w,j,,則稱,w,j,觸發(fā),w,i,估測(cè)觸發(fā)對(duì),平均交互資訊(average mutual information,AMI),自我觸發(fā)(self-trigger),語(yǔ)意資訊潛藏語(yǔ)意分析,詞與文件矩陣(term-document matrix),奇異值分解(singular value decomposition,SVD),詞向量與文件向量無(wú)法比較,將詞與文件投影到較低維的潛藏語(yǔ)意空間,加入新的文件(fold-in),潛藏語(yǔ)意分析,應(yīng)用於語(yǔ)言模型機(jī)率估測(cè),更新歷史詞序列所形成的向量,餘弦估測(cè)(cosine measure),與,N,連語(yǔ)言模型合併,主題資訊,主題資訊(topic information),語(yǔ)意分類(semantic classification)的應(yīng)用,線性混合模型(linear mixture model),主題分類模型(topic classification model),主題混合模型,主題混合模型(topic mixture model,TMM),每一個(gè)文章皆為一個(gè)混合模型,主題一連語(yǔ)言模型(topic unigram),主題在各文章中的權(quán)重,主題混合模型,應(yīng)用於語(yǔ)言模型機(jī)率估測(cè),與,N,連語(yǔ)言模型結(jié)合,模型插補(bǔ)法,機(jī)率調(diào)整(probability scaling),語(yǔ)言模型調(diào)適的架構(gòu),訓(xùn)練語(yǔ)料,背景語(yǔ)言模型,N,連語(yǔ)言模型,調(diào)適語(yǔ)料,與測(cè)試語(yǔ)料同時(shí)期或領(lǐng)域相同,大小較小,不限定為,N,連語(yǔ)言模型,最大事後機(jī)率法,最大事後機(jī)率法(maximum a posterior,MAP),詞頻數(shù)混合法,模型插補(bǔ)法,動(dòng)態(tài)快取模型法,模型插補(bǔ)法延伸,最大熵值法,每一個(gè)資訊來(lái)源都會(huì)引發(fā)一群限制(a set of constraint),限制的交集區(qū)域代表滿足所有限制的機(jī)率分佈,其中擁有最大熵值的分佈為最大熵值法的解。,滿足所有限制的機(jī)率分佈之集合,IIS演算法,實(shí)驗(yàn),Set 1:廣播新聞,訓(xùn)練語(yǔ)料:中央社2000年和2001年新聞(一億七千萬(wàn)中文字 character),調(diào)適語(yǔ)料:中央社2002年8月到10月新聞(五千萬(wàn)中文字),測(cè)試語(yǔ)料:2002年9月之廣播新聞,3.7小時(shí),Set 2:公視新聞(MATBN),訓(xùn)練語(yǔ)料:中央社2001年和2002年新聞(一億五千萬(wàn)中文字),調(diào)適語(yǔ)料:公視新聞(MATBN)3528則新聞,測(cè)試語(yǔ)料:20003年外場(chǎng)記者,1.5小時(shí),基礎(chǔ)實(shí)驗(yàn),Set 1,Set 2,字錯(cuò)誤率,複雜度,Baseline,15.51%,670.23,字錯(cuò)誤率,複雜度,Baseline,25.72%,667.23,詞頻數(shù)混合法,Set 1,Set 2,字錯(cuò)誤率,複雜度,=1,12.98%(16.31%),367.34(45.19%),字錯(cuò)誤率,複雜度,=1,25.2%(2.02%),675.46(-1.23%),=3,24.98%(2.88%),634.43(4.92%),