計算機專業(yè)外文文獻翻譯-外文翻譯--機器學習的研究
《計算機專業(yè)外文文獻翻譯-外文翻譯--機器學習的研究》由會員分享,可在線閱讀,更多相關《計算機專業(yè)外文文獻翻譯-外文翻譯--機器學習的研究(21頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1 in of 1) of by of (2) up (3) 4) of an in in to to of in as as to as In I a of of is to in to a I to of 1) of (2) up (3) 4) of be is a of of my is to a of in of In of I to to in he in I by In a is of (… , ( y = f(x). of or as i, I ij 2 i. In I i it is by y a of 1,… , k} in of or in of In I on be by a of a a is a f. x it y I by , An of is a of in by or to of of in of of is An if 990). To we an of { a x. If h1(x) is h2(x) h3(x) if by h1(x) is h2(x) h3(x) be so a x. if hi to p. we to to h*. 1996b) to of by be by is a it be to of is as t we be to a as as at be it be or to a as as To we of by a of f). of it to f. If is we a of to 11 or In a of ; we () to a . of is a > of to We of or of 。 現(xiàn)在,我們能把一些其他的學習算法應用到第二層數(shù)據(jù)來學習 h*。 996b) 申請了這個用好結果聯(lián)合不同形式的線退化的達成方式。 為什么需要集成工作 我已經為全體為什么能改善績效有了基本的直覺 : 單一的分類器犯 的是不相關的錯誤,它能在加權時移除。然而 ,有一個較深的問題在這里潛藏 : 為什么應該找到產生不相關的 錯誤的分類器的全體是有可能的 ?恐怕最好的另外的一個問題 : 我們?yōu)槭裁床荒軌蛘业揭粋€單一的分類器能與全體分類器有相同的效果 ? 至少有三個理由能說明為什么好全體能被構造和為什么找到一個單一分類器能夠有與全體相同的效果是困難的甚至是不可能的。為了理解這些理由,我們一定要考慮機器學習算法的性質。機器學習算法是這樣運行的,它通過為最正確 20 的假說尋找一個可能假定 也就是 , 假設最好接近未知的功能 f) 。假說隔開 果假說空間很大 ,那么我們需要大量的試驗數(shù)據(jù)制約對好的近似值的搜尋。每個示例排除(或產生比較不真實的模擬)對 中 一個二類別的問題中 , 理想地每個示例能除去一半的對 因此 ,我們需要 O() 例子選擇來自 對全體的需要的第一因素是,試驗數(shù)據(jù)不可能提供充份的信息給選擇來自 我們大部分的學習算法考慮非常大的假說空間 ;因此 , 即使在排除了對示例 的錯誤分類的假定之后 ,仍然保持著許多假定。所有的這些假定是關于有效的試驗數(shù)據(jù)平等地正確地出現(xiàn)。我們可能有偏愛在其它 ( 舉例來說 , 偏愛較簡單的假定或者比較高的原先概率假定 ) 的一些假定的理由,但是,這些是典型地許多似真實的假定。從收集在 我們能容易地構造一個分類器的全體而且把他們集成起來,然后使用在之前被描述的方法。 對全體的需要的第二個因素是我們的學習算法可能無法解決我們引起的困難的搜尋問題。舉例來說 , 發(fā)現(xiàn)對一組試驗例子感到一致的最小決斷樹的問題是 976) 因此,實際的決斷樹算法使用啟發(fā)式的搜尋過程研究引導對小的決斷樹的貪婪搜尋。同樣地,發(fā)現(xiàn)對試驗例子感到一致的最小可能的神經網(wǎng)絡的權重也是 988)。因此神經網(wǎng)絡算法使用局部的搜尋方法 (就像是傾斜的降落 )為網(wǎng)絡尋找局部性最佳的權重。這些有缺點的搜尋算法的結果是,即使組合我們的試驗例子和我們之前的知識 ( 舉例來說 , 喜歡簡單的假定 , 貝斯定理的優(yōu)先 ) 決定一個獨特的最好假說 ,我們也可能無法找到。相反的,我們典型地找一個略微更復雜的假說 。 (或有略微低的概率 )如果我們用一個稍微不同的試驗樣本或帶有干擾的搜尋算法 (或用任何的其他技術更早地描述 ),那么我們就找一個差積 (次最佳的 )假說。因此 ,全體可看作為有缺點的搜尋算法作補償?shù)姆椒ā? 對全體的需要第三個因素是我們的假說空間 f。相反的,過這些近似的加權組合,我們可能能夠代替在 解這一點的一個方法是分清學習算法構造的判決交界。一個決斷交界是一個表面,以致于實例在將表面的一邊賦值給一個不同的類比用表面的另一邊賦值更好。被決斷構 造學習樹的算法的決斷交界是線性 (或 ,更常用的 ,超平面地 )平行于同樣的軸。 如果在二個類別之間的真實交界是一條對角線 , 那么決斷樹算法一定接近一個以平行片段 (圖 6)為軸的 "梯形 "的對角線。試驗樣本 (或差積被 的不同啟動程序改變梯形近似值的位置 ,通過在這些不同的近似值之中投票,構造對對角線的決斷交界的較好近似是可能的。 有趣地是,這些改良的梯形近似與對復雜的決斷樹是等價的。然而,這些樹是如此的大以致于我們要把它們包括在我們的假說中空間 個空間對于有效的試驗數(shù)據(jù)遠遠的大。 因此,我們能夠發(fā)現(xiàn)全體提供克服我們的假說空間的不能充分具有代表性的方法。 關于啟動全體問題 全體會通過集成不太精確的各分類器獲得高精確分類器而很好地被構建起來。然而 ,仍然有許多問題:用最好的方法構造全體以及怎樣才能最好理解被全 21 體作出的決斷。 面對一個新的學習問題 ,最好的構造和應用一個集成的分類器的方法是什么 ? 大體而言,沒有單一最好的學習算法。 然而,一些方法可能完全地比其它方法更好,而且一些方法可能在特定的局勢中比其它方法更好。 實驗證明 1997) 比較 表明法是出眾的。然而, 996) 已經顯示,在網(wǎng)域中帶干擾的試驗數(shù)據(jù), 它把高權限設置在錯誤的標簽標示的示例,結果構造出壞的分類器。 995)表示,結合糾錯輸出編碼的封裝改良了兩種方法的績效 ,因此建議其他全體方法的組合也應該被探究。 指出糾錯輸出編碼不能與高度局部的算法 很好地一起運行 (就像最近 - 近鄰方法 )。 為構造神經網(wǎng)絡的全體,學習規(guī)則,系統(tǒng),和其他分類器的類型,已經有了一些系統(tǒng)的研究方法。在這一個領域中仍然有許多工作要做。雖然全體能提供正確的分類器 , 但是一些問題可能限制它們實際的應用。一個問題是,全體需要大量的存儲器用于儲存還要大量的計算應用。 舉例來說,前面我提到了一個 200個決斷樹的全體達到在一個文字 - 辨識的基準任務上的完美績效。然而 , 這 200個決斷樹需要儲存 五千九 百萬位 ,這 對于大多數(shù)現(xiàn)在的計算機來說是不可能的。一個研究的重要線索是找出能把這些全體轉換成 更少冗余的表示方法 , 也許是通過刪除全體中高度有相互關系的成員或由具有代表性的成員替換。 產生集成分類器的第二個困難是全體對如何作決斷很難洞察。一個單一決斷樹能時常被使用者解釋,但是一個由 200個決斷樹投票組成的全體是很難理解的。那么能否發(fā)現(xiàn)獲得來自全體的解釋 (至少局部性地 )嗎 ? 在這個問題上一個實例是 s 996)。- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 計算機專業(yè) 外文 文獻 翻譯 機器 學習 研究
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.szxfmmzy.com/p-18929.html