04文本操作技術
文本操作技術提綱n引言n英文詞法分析n中文詞法分析n相關資源n英文拼寫檢查引言n文本預處理操作n后續(xù)工作的基礎n瑣碎但重要l看似簡單,技術含量低l各種意想不到的問題,費時費力l工程性強l必不可少舉例n他說的確實在理l正向最大匹配l逆向最大匹配4英文詞法分析n斷詞(tokenization)TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.n處理符號歧義:.n其他歧義符號l撇號(apostrophe)l連字符(hyphen)n解決方法l總結歧義符號出現(xiàn)的語境l用規(guī)則方法處理n大小寫問題lChina,china詞干提取n去除英文詞的前綴、后綴,獲得詞干lstemming,stemmed,stemmerstem有何作用?n用于提高檢索的召回率n減少索引文件大?。p小存儲空間)詞干提取的方法n最簡單的方法l查表法n優(yōu):省略了對詞綴的處理n缺:會使用很大的存儲空間,對于專業(yè)領域詞語獲取數(shù)據(jù)資源難度較大n最經典的方法lPorter算法l基于規(guī)則方法Porter算法輸出詞干輸入單詞規(guī)則3規(guī)則4規(guī)則1規(guī)則2NY匹配第1步規(guī)則依次匹配第2、3、4、5步規(guī)則具體規(guī)則詳見教材p74-75Porter算法nGeneralizationsl輕度提?。篻eneralizationl深度度提?。篻enern召回率與準確率的討論l詞干提取能夠顯著提高召回率l輕度提取對準確率的影響不大l深度提取會顯著降低準確率中文詞法分析中文詞法分析n中文句子的基本語義單元是詞l白菜白+菜n分詞l李明是一名優(yōu)秀的學生。l李明/是/一/名/優(yōu)秀/的/學生/n詞的定義l自然語言處理l自然/語言/處理l自然語言/處理n實際應用中,通常根據(jù)需求確定詞的粒度分詞中的問題-詞表n詞表的作用l解決了詞的定義問題l減小專有名詞識別的難度l能夠解決無歧義的分詞問題n詞表的獲取l通用詞表已經基本完備l專用詞表不足分詞中的問題-歧義兩種歧義結構n交集型歧義字段l研究生命的起源l研究/生命/的/起源l研究生/命/的/起源/n組合型歧義字段l他從馬上下來l他/從/馬/上/下來/l他/從/馬上/下來/分詞中的問題-未登錄詞n未登錄詞-未在詞表中出現(xiàn)的詞l人名、地名、機構名、時間、新詞n對分詞準確率的影響:未登錄詞歧義詞n識別難度更大n不同的需求對未登錄詞的識別要求不一致n不同的需求對不同類型的未登錄詞識別要求也不一樣未登錄詞識別基于規(guī)則方法n標注數(shù)據(jù)n發(fā)現(xiàn)規(guī)律l內部規(guī)律l外部規(guī)律l重復出現(xiàn)規(guī)律n不同的未登錄詞,規(guī)律不一致l人名有較強的內部規(guī)律l譯名用字較為封閉n不同的未登錄詞,使用相應的識別模塊切分方法n最大匹配法l實現(xiàn)簡單、算法復雜度低n全切分l列出句子所有可能的切分結果l結果數(shù)隨著句子長度的增加呈指數(shù)增長l需要采用動態(tài)規(guī)劃算法尋找最優(yōu)路徑,減小復雜度分詞系統(tǒng)實例他叫李小明。分詞語料n語料標注l需要制定詳細的標注規(guī)范l費時、費力n人民日報l規(guī)范、正確l過于書面化n缺少其他領域的標注語料停用詞表n停用詞l標點、虛詞、符號l無實際含義l頻率高l無影響或影響很小n過濾停用詞l提高檢索速度l減小索引空間詞典資源n敘詞表l傳統(tǒng)的文獻資料檢索nWordNetnHowNetn同義詞詞林l現(xiàn)代檢索技術l主要用于查詢擴展英文的拼寫錯誤n詞語錯誤lMicrosoft-Mircosoftn語法錯誤lpiece-peacen檢索系統(tǒng)處理詞語級拼寫錯誤l為用戶提供查詢建議拼寫檢查流程形態(tài)還原在詞典中?NY正確Word在詞典中?NY正確相似度計算修改建議形態(tài)還原n形態(tài)還原lworking,works,worked-workl去除詞尾形態(tài)變化,還原為詞的原形l原形詞干n總結單詞的形態(tài)變化規(guī)律,分別處理l動詞的過去式、進行時、第三人稱單數(shù)l名詞的復數(shù)和所有格l形容詞和副詞比較級、最高級以及形容詞轉換為副詞。提供候選建議n從詞表中找出最相近的單詞,作為候選建議WPSMSWord相似度計算n從詞表中找出最相近的單詞n距離越短,字符串越相近n計算字符串之間的相似程度l編輯距離:允許插入、刪除和替代操作,每個操作的代價為1;l海明距離:只允許替代操作,每個操作的代價為1lEpisode距離:只允許插入操作,每個操作的代價為1小結n文本操作技術至關重要n能夠改善信息檢索的效果n改善用戶體驗n是其他文本處理的基礎技術