九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

深度學習之word2vec課件 共23頁

上傳人:文*** 文檔編號:30026491 上傳時間:2021-10-09 格式:PPT 頁數:23 大?。?.58MB
收藏 版權申訴 舉報 下載
深度學習之word2vec課件 共23頁_第1頁
第1頁 / 共23頁
深度學習之word2vec課件 共23頁_第2頁
第2頁 / 共23頁
深度學習之word2vec課件 共23頁_第3頁
第3頁 / 共23頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《深度學習之word2vec課件 共23頁》由會員分享,可在線閱讀,更多相關《深度學習之word2vec課件 共23頁(23頁珍藏版)》請在裝配圖網上搜索。

1、深度學習之word2vec學習、分享與交流報告人:黃宇鵬目錄 基本概念 模型與方法 實戰(zhàn)與應用詞向量 自然語言中的詞語在機器學習中表示符號 One-hot Representation例如: “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實現時就可以用0,1,2,3,.來表示詞語進行計算,這樣“話筒”就為3,“麥克”為8. 存在兩個問題 維度比較大,尤其是用于 Deep Learning 的一些算法時 詞匯鴻溝:任意兩個詞之間都是孤立的,不能體現詞和詞之間的關系詞向量 Di

2、stributional Representation 詞表示為: 0.792, 0.177, 0.107, 0.109, 0.542, .,常見維度50或者100 解決“詞匯鴻溝”問題 可以通過計算向量之間的距離(歐式距離、余弦距離等)來體現詞與詞的相似性 如何訓練這樣的詞向量 沒有直接的模型可訓練得到 可通過訓練語言模型的同時,得到詞向量語言模型 判斷一句話是不是正常人說出來的,用數學符號描述為 給定一個字符串w1,w2,.,wt,計算它是自然語言的概率 ,一個很簡單的推論是 例如,有個句子大家,喜歡,吃,蘋果 P(大家,喜歡,吃,蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(

3、蘋果|大家,喜歡,吃) 簡單表示為 計算 問題),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwpTiiiTContextwpwwwpsp121)|(),.,()()|(iiContextwp語言模型 現有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語義強化 .word2vec原理 兩種模型,兩種方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative Samp

4、lingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當前詞語(向量) w(t-2),w(t-1),w(t+1),w(t+2):當前詞語的上下文 SUM:上下文的累加和CBOW模型+Hierarchical Softmax方法(續(xù))CBOW模型+Hierarchical Softmax方法(續(xù))為什么建哈夫曼樹?非葉子結點為LR分類器葉子結點對應詞典中的一個詞目標:)|(iiContextwpCBOW模型+Hie

5、rarchical Softmax方法(續(xù)) 句子:我,喜歡,觀看,巴西,足球,世界杯 w=足球CBOW模型+Hierarchical Softmax方法(續(xù)) 正類概率: 負類概率: 足球 葉子節(jié)點經過4次二分類,每次分類結果對應的概率為 由Context(足球)預測足球出現的概率CBOW模型+Hierarchical Softmax方法(續(xù))wljwjwwjXdpwContextwp21),|()(|( 對于詞典中的每個詞w有, 結點個數 其中, 或者表示為 對于由S個句子組成的語料庫C有 取對數似然函數. 1),(1; 0),(),|(111wjwjTxwjwjTxwjwwjdXdXXd

6、pwjwjdwjTwdwjTwwjwwjXXXdp)(1 )(),|(1111CsswljwjwwjCsswwXdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121CsswljwjTwwjwjTwwjCsswljwjwwjwwXdXdXdpXLwl參數1參數2CBOW模型+Hierarchical Softmax方法(續(xù)))(1log()(log)1 (),(11wjTwwjwjTwwjXdXdjwfwj 1 梯度下降法進行求解 令 f(w,j)關于 和 的梯度分別為 更新公式wXwwjTwwjwjXXdjwf)(1 ),(1

7、1wjwjTwwjwXdXjwf11)(1 ),(wjwjwjjwf111),(:wljwwContextwXjwfwVwV2)(,),()(: )(word2vec實戰(zhàn)(一) 訓練數據集:經過分詞后的新聞數據,大小184MB 查看中國,釣魚島,旅游,蘋果幾個詞語的相似詞語如下所示word2vec實戰(zhàn)(一) 向量加減法 中國+北京-日本,中國+北京-法國,家庭+孩子-學校word2vec應用(一) 機器翻譯 語言詞語的關系集合被表征為向量集合 向量空間內,不同語言享有許多共性 實現一個向量空間到另一個向量空間的映射和轉換 圖為英語和西班語的五個詞在向量空間中的位置(已經過降維) 對英語和西班語

8、之間的翻譯準確率高達90%word2vec應用(三) 給廣告主推薦用戶 T媒體網站用戶瀏覽網頁的記錄 pageH是匹克體育用品公司在T上的官網 page2,page3,page5和pageH是比較相似的頁面 可給匹克體育用品公司推薦經常瀏覽page2,3,5這個幾個頁面的用戶進行廣告投放word2vec應用(三) 相似的頁面計算過程word2vec應用(三)續(xù) 對ctr預估模型的幫助 新廣告上線存在冷啟動問題 通過比較相似的廣告的點擊率來預估這個廣告的點擊率 由上個例子可得到每個頁面的向量,然后通過Kmeans進行聚類,得到比較相似頁面的簇? 向頁面向量添加其它的特征,例如廣告主所屬的行業(yè)和地

9、域等 假設頁面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值 這樣得到的聚類效果相對更好參考文獻1 .csdn/mytestmy/article/details/26969149 深度學習word2vec筆記之算法篇 2 .csdn/itplus/article/details/37969979 word2vec 中的數學原理詳解(四)基于 Hierarchical Softmax 的模型 3 zhihu/question/21661274/answer/19331979 楊超在知乎上的問答Word2Vec

10、的一些理解4 xiaoquanzi/?p=156 hisen博客的博文5 .csdn/mytestmy/article/details/38612907 深度學習word2vec筆記之應用篇 6 tech.youdao/?p=915 Deep Learning實戰(zhàn)之word2vec,網易有道的pdf7 .csdn/lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Y

11、oshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.13licstar/archives/328 Deep Learning in NLP (一)詞向量和語言模型thank you !Q&A謝謝

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網版權所有   聯系電話:18123376007

備案號:ICP2024067431-1 川公網安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網,我們立即給予刪除!