瓶裝產(chǎn)品自動貼標機的設計含15張CAD圖
瓶裝產(chǎn)品自動貼標機的設計含15張CAD圖,瓶裝,產(chǎn)品,自動,貼標機,設計,15,cad
譯文及原文結(jié)構(gòu)化標簽,以方便機器學習的概念演化作者: Todd Kulesza Saleema Amershi Rich Caruana Danyel Fisher Denis Charles 摘要:標簽數(shù)據(jù)是一個看似簡單的任務訓練、許多機器學習系統(tǒng)的要求,但實際上是問題重重。本文介紹了概念的演變,即具有一個基本概念的變化性質(zhì)(目標類的抽象概念)的事物可以被標記,例如,垃圾郵件,旅游相關的網(wǎng)頁,這可能會導致不一致的標簽,從而不利于機器學習。我們引入兩個結(jié)構(gòu)化的標簽解決方案,提出了一種新的技術,幫助人們定義和完善自己的概念,以一致的方式,標記他們的標簽。通過一系列的五個實驗,包括一個受控的實驗室研究,我們在實踐中說明的概念演變的影響和動態(tài),并表明,結(jié)構(gòu)化標簽有助于人們的標簽比傳統(tǒng)的標簽更一致。關鍵詞:概念演變;交互式機器學習ACM 分類關鍵詞:H.5.2.信息接口和演示 (例如,HCI):用戶界面。引言:數(shù)據(jù)是機器學習的基礎。在監(jiān)督學習中,一臺被調(diào)節(jié)好的機器根據(jù)一些目標的概念標記例子數(shù)據(jù)。結(jié)果有一個學習的功能可以預測新的、看不見的數(shù)據(jù)標簽。機器學習的性能取決于標記的數(shù)據(jù)作用于訓練的質(zhì)量。例如,垃圾郵件過濾器通常是機器學習的功能,是將一個大的郵件或網(wǎng)頁標記為垃圾郵件的訓練。不好的垃圾郵件過濾器可能會承認不想要的垃圾郵件,或者更糟的是,不正確的分類重要的電子郵件或網(wǎng)頁作為垃圾郵件。大型企業(yè)經(jīng)常招募人來標注大量的數(shù)據(jù)機器學習者需要支持自動服務,如排名的網(wǎng)頁搜索結(jié)果(例如, [ 20,16 ]),提供建議(例如,[ 31 ]),或顯示相關的廣告( 例如,[ 34 ])。此外,交互式機器學習系統(tǒng)允許個人用戶標簽數(shù)據(jù),以提高個性化的服務,如電子郵件過濾優(yōu)先級(例如, [ 13,12 ])和音樂或電影的建議(例如,[ 35 ])。雖然標簽數(shù)據(jù)是一個看似簡單的任務,它實際上是充滿了問題( 例如,[ 19,9,26 ]),標簽反映數(shù)據(jù)及其相關概念之間的映射(即,他們用抽象概念的目標) 。因此,標簽的質(zhì)量是受貼標機的專業(yè)知識、熟悉的概念或數(shù)據(jù)因素的影響,他們的判斷能力和注意力集中在標簽和模糊性數(shù)據(jù)本身的變化分布。本文討論了一個明顯的問題,標簽數(shù)據(jù),我們稱之為概念演化。概念的演變是指在他們的頭腦中的概念界定和細化貼標的過程,這種過程可以被應用到類似的項目上,就如基礎概念的觀念變化不同的標簽貼標機。本文提出了一個形成性研究,我們發(fā)現(xiàn),將人們標簽的一組網(wǎng)頁的兩次與一四次之間的差距標簽記錄,平均而言,只有 81%符合他們的初始標簽。這種不一致的標簽類似的項目可以是有害的機器學習,這是基礎上的想法,類似的投入應該有類似的輸出。此外,標簽的質(zhì)量始終是機器學習很重要的部分,特別重要的情況下,數(shù)據(jù)量是有限的。為了解決概念演化問題,我們引入結(jié)構(gòu)化的標簽,一種新的互動技術,幫助人們?yōu)樗麄兊臉撕灁?shù)據(jù)定義和完善自己的概念。結(jié)構(gòu)化標簽允許人們通過分組和標記數(shù)據(jù)(如他們選擇)在一個傳統(tǒng)的標簽計劃(例如,標記為“是” , “不” , “可能是”),在一個傳統(tǒng)的標簽計劃中,表示他們的概念定義。這個組織能力有助于提高標簽的一致性,幫助人們拷貝所有或部分的個人或課堂使用的工作,沒有費用,沒有提供分布式的利潤或商業(yè)優(yōu)勢,該副本承擔此通知和第一頁的全部引用。這項工作的組成部分,擁有比別人要尊重版權(quán),并且允許對提取復制或轉(zhuǎn)載、信用證。此外,因為結(jié)構(gòu)是可延展的(用戶可以創(chuàng)建,刪除,拆分,合并),在非常適合的情況下,觀察到新的數(shù)據(jù)的用戶有可能經(jīng)常改進他們的概念定義。我們還提供了一個輔助結(jié)構(gòu)的標簽版本,我們的工具,使用視覺輔助工具和標簽的建議,隨著他們的概念的發(fā)展更進一步幫助人們標記數(shù)據(jù)。圖 1 我們的結(jié)構(gòu)化標記方法允許人們以任何方式分組數(shù)據(jù)對他們有意義的。通過看到的結(jié)構(gòu),人們可以得到一個更深入的理解,他們正在建模的概念。在這里,用戶看到的每一頁(左上),將它拖到現(xiàn)有的組(右),或創(chuàng)建一個新組了。縮略圖(左下)顯示在數(shù)據(jù)集相似的頁面,幫助用戶表是否創(chuàng)建一個新組是必要的。本文的主要貢獻如下:引入演化問題和目前的研究結(jié)果,研究人與機器的互動學習環(huán)境概念演變的影響及動力學。引入兩個工具的結(jié)構(gòu)化標記,一種幫助人們發(fā)展他們的概念在標簽交互技術。我們提出了一個對照實驗比較我們的結(jié)構(gòu)化標記工具和傳統(tǒng)的機器的標記。研究結(jié)果表明,結(jié)構(gòu)化的標簽是首選的參與者,在一個成本的速度下使他們標簽數(shù)據(jù)更一致。一個小的跟蹤實驗表明,結(jié)構(gòu)化標記幫助人們到達更一致的結(jié)構(gòu)化決策時比傳統(tǒng)標記標記相同的數(shù)據(jù)間隔十天。背景及相關工作:在這一節(jié)中,我們將介紹不同于機器學習的其他標簽概念演變問題,為什么現(xiàn)有的解決方案不解決概念演化的背景和相關工作。然后我們描述了相關的工作與信息管理,激發(fā)了我們的結(jié)構(gòu)化標記的概念演化方法的動力,解釋了我們的工作--推廣這方面的機器學習中的標注問題研究。機器學習中的標記的挑戰(zhàn)和解決方案:在機器學習中,監(jiān)督機器的學習需要標記的數(shù)據(jù)。然而,有許多研究的挑戰(zhàn)獲得數(shù)據(jù),例如,標簽可以是嘈雜的,有些數(shù)據(jù)可能貼錯標簽或標簽應用不一致。因此,要研究機器社區(qū)發(fā)展的噪聲容限的算法(例如,[ 10,30])和自動識別和消除或糾正錯誤數(shù)據(jù)的技術(例如,[ 9 ])。雖然算法的解決方案,可以減少影響標簽噪聲的機器學習者的質(zhì)量,但他們不幫助用戶在自己的頭腦中細化目標概念。最近,研究人員已經(jīng)開始探索新的接口,以減少標簽噪聲。例如,卡特雷特等人。[ 11 ]表明,研究成對比較比絕對的判斷更可靠的相關性標簽,設置明智的判斷也被探討獲得相關的標簽(例如,[ 4 ])。雖然比較基礎的判決已被證明是更容易作出絕對的判斷,但相關性判斷如人的觀察數(shù)據(jù)可能仍在進化[ 7 ]。因此,征求的標簽通過比較仍然可以從構(gòu)建和重新標簽決策支持中受益。另一種常見的方式來處理標簽噪聲是使用多機和多數(shù)投票或加權(quán)方案作出最后的標簽判斷(例如,[ 19,26 ])。其次,當涉及多個貼標機的技術可以幫助減少標簽的噪音時,他們不得不解決概念的演變問題。相比之下,我們可以解決多標簽、結(jié)構(gòu)化標簽的方法的好處是能夠使人們決定分享他們的標簽甚至有可能收斂于目標的概念界定。此外,越來越多的課堂互動學習機的系統(tǒng)依賴于標記的數(shù)據(jù)從個人用戶[ 1 ],因此不能從多個標簽的解決方案中受益。由于數(shù)據(jù)量可能是個人愿意或能夠標簽比可多標簽解決方案低得多,不利于學習很大一部分數(shù)據(jù)的[ 8 ]。在數(shù)據(jù)標簽中的一個更為陰險的問題是概念漂移,其中的基礎數(shù)據(jù)是從根本上改變了時間[ 29 ]。概念漂移的一個例子是一個新聞推薦,試圖推薦最有趣的最近的新聞。在這里,有趣的概念可能保持不變,隨著時間的推移,但數(shù)據(jù)(在這種情況下,新聞)是將不斷漂流作為一個結(jié)果,改變當前的事件。大多數(shù)的解決方案,概念漂移模型概念時間,如丟棄或加權(quán)信息根據(jù)數(shù)據(jù)(例如, [ 27,33])或通過自動識別新類型的數(shù)據(jù)(例如,[ 15,5 ])。至關重要的是,這些解決方案旨在幫助用戶完善自己的一個概念,一個問題。根據(jù)數(shù)據(jù)(例如, [ 27,33]) 或通過自動識別新類型的數(shù)據(jù) (例如,[ 15,5 ])。批判性地,這些解決方案的目的是幫助用戶改進自己的概念,一個問題就可能會加劇已經(jīng)存在的概念漂移。數(shù)據(jù)管理工具:為方便數(shù)據(jù)管理我們提出了的結(jié)構(gòu)化標記解決方案[ 23 ],組織和理解大量數(shù)據(jù)的迭代過程。我們的工作是對特別的意義建構(gòu)研究信息和文檔管理(例如,[ 3, 14,21,24 ])。與結(jié)構(gòu)化的標簽一樣,這些工具通常利用空間記憶和可視化表示,以幫助人們組織信息[ 32 ]。例如,數(shù)據(jù)與信息管理方便讓用戶安排在一個文件中的三維虛擬環(huán)境[ 24 ]。蒂文等人[ 28 ]探討了一些信息的視覺表達,以幫助人們尋找和發(fā)現(xiàn)信息。其他人探討技術的可視化組文件,如扇形或堆疊的文件縮略圖顯示文本的摘要(例如,[ 3,24 ])。我們的輔助結(jié)構(gòu)的標記工具,采用自動視覺提示和建議,是密切相關的最近的工作工具的半自動化的支持與信息管理( 例如,[ 2,3 ])。例如,疊前時間偏移[ 3 ]幫助人們整理文件空間組織團體或樁通過傳入的文件組建議通過突出。所有這些工具都支持建構(gòu)促進個人或協(xié)作信息消費和管理如瀏覽、導航、搜索和重新發(fā)現(xiàn)、共享或分配信息。相比之下,我們的工作延伸到文檔的結(jié)構(gòu)化標記生成機器學習標記域和論證這種支持對人類提供的標簽質(zhì)量的影響。此外,我們的研究表明,合理的標注任務提出了獨特的信息管理問題,需要新的解決方案,如幫助用戶確定是否及如何組織個人文件和如何使標簽的決定。實踐概念的演變:為更好地理解概念的演變和通知的設計,我們提出的解決方案,我們進行了一系列的形成性研究調(diào)查概念的演變在實踐中(即,在涉及人標記數(shù)據(jù)的情況下,機器學習系統(tǒng))。從這些研究的意見和反饋通知我們的最后的原型,如討論的結(jié)構(gòu)化標記和援助部分。交互式機器學習中的概念演變:甚至有經(jīng)驗的機器學習者,同時發(fā)展他們的概念。我們在一個大型的研究機構(gòu)問了 11 個機器學習專家,通過互動機器學習系統(tǒng)培養(yǎng)二進制網(wǎng)頁分類。每個專家標記的數(shù)據(jù)根據(jù)其選擇的概念,從列表中選擇開放目錄項目的主題(例如,攝影,就業(yè),和數(shù)學)。從問卷的分布在會議結(jié)束后,我們發(fā)現(xiàn),九名參與者“定義細化他們的概念而互動”的工具。這種概念的演變可能是查看額外的數(shù)據(jù)只有三人不同意,他們的概念演變?yōu)椤翱吹骄W(wǎng)頁”或使用其他功能所提供的工具(例如,查看錯誤或嘗試不同的功能組合)的結(jié)果。這表明,多個因素可能引發(fā)的概念演變。有趣的是,七位與會者還指出,“我有一個明確的想法,我在開始前建?!钡母拍?。然而,這七個四也同意或中立的聲明的概念, “我是建模發(fā)展,我看到的網(wǎng)頁” ,這表明即使當人們熟悉的概念,他們的定義,它可能仍在發(fā)展。標簽指南創(chuàng)建過程中的概念演化:標簽指引的時候獲取標記數(shù)據(jù)進行訓練或測試機器學習的目的在創(chuàng)造概念的演變,研究人員和從業(yè)者經(jīng)常制造貼標機為了獲得一致的標簽指南(例如,[ 16,20 ]),在一致的定義為類似項目具有相同的標簽。我們采訪了兩位醫(yī)生有豐富經(jīng)驗為人類創(chuàng)造這樣的大型組織機兩位醫(yī)生描述了典型的指導創(chuàng)作過程,作為一個迭代和不斷發(fā)展的結(jié)果,觀察新的數(shù)據(jù)。根據(jù)我們的采訪,一個團隊的人首先會看到通過實例數(shù)據(jù)可能匹配他們的目標概念。接下來,小組將討論不同的例子應該被如何標記,并提出了規(guī)則來解釋他們的決策。這些規(guī)則往往有針對性的困難的情況下,明確地說明如何在這樣的情況下貼標簽,并給出具體的例子。通過貼標機通常會有幾個回合這樣的過程直到一個相對完備的規(guī)則生成的。概念上的一致性及初始反饋的結(jié)構(gòu)標簽的影響進行的初步研究:我們使用一個早期原型,結(jié)構(gòu)化標記工具,獲得反饋有關的工具可以增強研究概念演變的影響。這個原型展示了一個網(wǎng)頁,并要求參與者將頁面分為三類:“是” , “不是” ,或者“可以是”(即,這是是或者不是亦可能是概念的一個例子)。此外,參與者可以在 “可能是”類別中創(chuàng)建群組,并標記它們來提醒自己在該組中所放的東西。(在本文中,類別是指 “是” , “不” , “可能” ,而群是指用戶在一個類別中創(chuàng)建的項集合。標簽是一個用戶提供的組描述。)我們問九的參與者從我們的第一項研究的標簽 200 網(wǎng)頁使用我們的原型,并根據(jù)相同的概念,他們選擇了以前的研究。對于每一個參與者,75%的頁面是在第一項研究中標記的同一頁( 在不同的順序顯示)。這項研究發(fā)生后約四周后的第一項研究。研究參與者的高級別標簽( 即, “是” ,“沒有”和“可能是”類別)的一致性,從第一次研究發(fā)現(xiàn),平均參與者只有 81.7%(標準差= 6.8%)與他們以前的標簽。麥克尼馬爾對稱測試也顯示了九個受試者的標簽變化顯著。從一開始研究,這種缺乏一致性意味著從這些標簽中學習的模型會有所不同,即使對于同一人的概念定義相同的概念,其概念定義之間的標記會話顯著發(fā)展。除了尋找概念進化的證據(jù),這項研究揭示了一些結(jié)構(gòu)性標記的好處。圖 2 標簽的一致性(每名參與者 )在相同的數(shù)據(jù)標記約四周的距離,暗欄顯示顯著差異首先,所有九個參與者創(chuàng)建組(中位數(shù)為六組,每組三頁)。我們手動注明每個組和確定,大多數(shù)組(76%)是局部的性質(zhì)(例如, “計算相關”或“ 數(shù)學家組”的數(shù)學概念) 。其他有關物品的人想重溫的原因不同,本質(zhì)上決定推遲直到他們有一個更好的了解的數(shù)據(jù)(例如,“混合內(nèi)容” 、 “更多的信息需要”)。這個可見的組織證明了一個參與者自己的話: “允許我組織下我的想法。 ”更進一步,與會者認為看到的結(jié)構(gòu)使標簽壓力較小,因為他們可以很容易地看到和修改他們的標簽, 這是必要的, “我喜歡的結(jié)構(gòu)。 ”這是一種更柔軟的標簽。結(jié)構(gòu)化的標簽和輔助:在這一節(jié)中,我們描述了我們的結(jié)構(gòu)化標記和輔助結(jié)構(gòu)的標簽原型,并與我們的設計決定回到我們的形成性研究的結(jié)果。結(jié)構(gòu)化標簽原型:我們的結(jié)構(gòu)化標簽原型允許用戶組織數(shù)據(jù)在一個傳統(tǒng)的標簽計劃(例如,相互排斥的類別,如“是” , “不”和“可能是”)通過分組和標記。該系統(tǒng)提供了一個頁面的用戶,他們可以拖動到標記區(qū)域創(chuàng)建一個新的組或添加它現(xiàn)有的組。用戶可以手動添加標簽來描述每一組,以幫助召回。在我們的形成性研究的早期版本,我們的結(jié)構(gòu)化標簽原型,我們只允許用戶在“可能是”類別,我們認為用戶只希望結(jié)構(gòu)寬松的項目。然而,我們的一些參與者集中在“是”和“沒有”的類別里,理由是希望保留和重新審視組,所以他們可以決定是否每個組的概念(即,移動組之間“可能 ”, “是”或“沒有”類) 。輔助結(jié)構(gòu):在我們的形成性研究中,我們觀察到參與者遇到障礙,一些結(jié)構(gòu)化的能力。在這里,我們描述了額外的支持,我們設計,以幫助用戶克服這些障礙。這些支持包括我們的輔助結(jié)構(gòu)的標記工具的一部分。幫助用戶回憶參與者經(jīng)常有麻煩記住他們放置在每個組。雖然他們可以標記每個組的文本描述,許多參與者并沒有開始使用此功能,后來后悔沒有時間標記組。作為一個參與者說:“現(xiàn)在我想插入一個標題” ,幫助用戶記憶組的內(nèi)容,我們增加我們的結(jié)構(gòu)化標記工具來自動生成并顯示每個組的文本摘要。用戶仍然可以手動提供標簽,除了這些摘要。我們嘗試過用雙包,創(chuàng)建文本摘要的方法。起初,我們認為是Web 頁面的內(nèi)容在每一組作為一個集合的話(即詞集的所有頁在一組) ,并選擇最常見的從包的話,頻率通過共同的長期文檔頻率(TF-IDF)計算措施[ 22 ]。然而,我們發(fā)現(xiàn),所得到的話是很難解釋的背景下。然后,我們轉(zhuǎn)向一個語料庫的搜索查詢信息,從一個流行的搜索引擎。因此,每一個網(wǎng)頁都是由一組搜索查詢詞來表示,實際的人們通過搜索引擎來查找網(wǎng)頁。因為這樣的短語通常是短而有針對性的,我們相信他們可能會產(chǎn)生更清晰的總結(jié)。因此,我們將考慮每一組網(wǎng)頁作為一個包的話,同樣的方法,這一次由搜索查詢詞,并選擇詞語具有最高的來顯示我們的總結(jié)。直觀地說,在每個組中,最重要的搜索詞是用來查找網(wǎng)頁的最重要的搜索詞。這些摘要隨著組內(nèi)內(nèi)容的改變,實時更新。幫助用戶決定在我們形成的研究小組項目,我們觀察到的人有麻煩,決定哪些組的項目時,他們有幾個組的相關內(nèi)容:“我記得看到這樣的一頁,但我不記得我做了什么決定” ,以幫助人們決定哪組可能是最適合每個新項目,我們增加了組的建議,我們的結(jié)構(gòu)化標記工具。圖 3 我們的輔助結(jié)構(gòu)工具為用戶提供了每個組的內(nèi)容的自動摘要(下面的用戶提供的標簽面積),并建議通過動畫和黃色的星星顯示器的當前項目組,黑色方塊表示每個組中有多少個項目。建議通過計算一個新的項目和每個組的相似性,與最相似的組推薦。我們計算的項目組相似的新項目和最相似的項目組(即,我們之間的相似性的新項目和一組的所有成員之間的相似性,然后選擇最短的鏈接的相似性值)。我們計算的項目 -項目相似性通過共同的余弦相似性度量在每個項目的內(nèi)容表示。小組建議中使用的“擺動”動畫組提請用戶注意的界面和靜態(tài)指標可見推薦組內(nèi)(圖 3 中的“明星”圖標)。幫助用戶決定何時和如何在我們學做決定,我們觀察到受試者不想付出努力的標記或分組“離群”:“如果有一個以上的頁數(shù)或幾個頁上同一財產(chǎn)那么我會考慮的,否則我不會。 ”其他參與者說看到多個相關項目幫助他們決定如何應標記:“一旦你在一組,看到很多,它可以幫助你決定” ,幫助人們判斷一個項目是一個離群或多個類似的項目,包括一個顯示最相似的標簽頁的項目目前正在標記(圖示水平顯示在圖 1 的底部)。集團的建議相似的項目使用相同的項目,項目采取相似的措施。評估結(jié)構(gòu)化的標簽:我們的結(jié)構(gòu)化標記工具的目的是幫助人們一致的定義和改進他們的概念,因為他們觀察到的數(shù)據(jù)。因此,我們設計了一個對照實驗,比較結(jié)構(gòu)化的標簽,在機器學習中的標簽質(zhì)量、速度和使用以及偏好結(jié)構(gòu),以幫助定義概念的傳統(tǒng)標簽。實驗條件和任務條件:用三個接口來支持手動構(gòu)建條件結(jié)構(gòu)化標記(但沒有任何自動援助),在輔助構(gòu)建支持自動援助條件及在代表傳統(tǒng)的標記為互斥的基線條件下, “不”和“可以”類和“沒有”結(jié)構(gòu)的支持(即手動界面沒有創(chuàng)造增長的能力結(jié)構(gòu)化決策 (例如,概念熟悉度,在數(shù)據(jù)中存在的固有結(jié)構(gòu))。因此,我們優(yōu)先考慮影響了我們的主要目標的以下幾點要求:所有參與者應該相當熟悉每項任務的目標概念,這可能是對標記概念缺乏了解造成的( 例如,一個熟悉“馬術 ”的人可能會對不是馬術或不相關的標簽項感到沮喪 )。每個任務應包含物品標簽相同數(shù)量和大約相同比例的項目可能屬于,不屬于,可能屬于目標概念(即項目可能被標記為“ 是” , “不”和“可以”) 。這是為了減少任何影響標簽類的標記速度,作為我們的形成性研究表明,明確的正面和負面的項目通常比曖昧的項目更容易也更快的進行標簽。我們的目標是百分之三十/百分之三十/百分之四十產(chǎn)品的標簽( 可能是分裂的, “不”和“可以”),讓更多的 “可能”項目,我們希望在這類標簽中看到更多的結(jié)構(gòu)。每個任務應該在曖昧類含有等量的大致結(jié)構(gòu)。這是為了減少標簽的速度和決策的結(jié)構(gòu)上的差異的影響。其次,就是因為我們的形成性研究,一些與會者評論說,有太多的群體需要做太多的決定。我們專注于結(jié)構(gòu)相似的“可能是”類,因為我們期望更多的結(jié)構(gòu)和更困難的結(jié)構(gòu)決定的曖昧項目。每個任務應包含大致可合理解釋為屬于一對相同數(shù)量的項目。檢查對應所屬的項目(即,應具有相同的標簽 )是我們的用于測量標簽質(zhì)量預期機制。另一種方法是比較機器學習模型內(nèi)置的標記數(shù)據(jù)所產(chǎn)生的每個參與者的性能。然而,這樣的模型會受許多因素(例如,概念的復雜性,特征質(zhì)量 )的影響,因此,模型性的差異不能完全歸因于標簽質(zhì)量。這是特別真實的小數(shù)據(jù)集,其中一個大量的方差預期[ 8 ]。因此,在監(jiān)督機器學習的前提下,類似的輸入應該有類似的輸出[ 18 ],對類似項目的標簽的一致性是一個合理的標簽質(zhì)量代理。要創(chuàng)建這些任務,我們又打開了目錄項目。首先,我們選擇的候選概念符合我們的熟悉要求(例如,與日?;顒佑嘘P的概念,如烹飪相關的網(wǎng)頁 )。然后,我們的兩個實驗者獨立編碼約 160 的網(wǎng)頁為每個候選概念。這些網(wǎng)頁是從一個開放式目錄項目數(shù)據(jù)庫中的約 180000 頁的語料庫中選取的。大約有一半的網(wǎng)頁被列為數(shù)據(jù)庫中的概念的一部分,并有一半是隨機抽取的,其余的則是在數(shù)據(jù)庫中隨機抽取的。編碼器的應用三個高級代碼的網(wǎng)頁(“ 是” , “不”和“可以”) 也創(chuàng)建了自己的網(wǎng)頁。然后我們選擇編碼約定的網(wǎng)頁,基于直覺,雖然人們可能會標記一些不同的數(shù)據(jù),他們也可能同意一些決定(例如,概念上人們可能不同意一個網(wǎng)頁包含餐飲服務與烹飪,但很多人可能會認為一個頁面可以包含配方與烹飪)。因此,選擇項目有助于確保任務包含的數(shù)據(jù)符合我們的規(guī)定要求(例如,有類似的比例, “是” , “不”和“可能”以及類似比例的結(jié)構(gòu) )。在整個過程中,我們消除了候選數(shù)據(jù)集的方式,打破了我們的要求。我們最后一組任務涉及到烹飪,旅行和園藝的概念。我們獲得了 54 個手動編碼的項目,每個任務的 “是” , “不”和“可能是”分別為 16 / 16 / 22 項。編碼約定每個數(shù)據(jù)集包含六到七組內(nèi)的“可以”類。然后在我們的語料庫的開放目錄項目頁面的基礎上,我們補充了這個數(shù)據(jù)集的 54 個額外的項目選擇的每個手動編碼項(用余弦相似比表示 )。因此我們的最后任務包含 108 項標簽。請注意,我們在本文中討論的分析,我們使用所有的數(shù)據(jù)(手動編碼和補充數(shù)據(jù) )來衡量標記的速度,但只使用手動編碼的數(shù)據(jù)來衡量標簽的一致性,以確保我們認為,作為對的項目應該確實屬于一起。參與者和過程:十五參與者被招募從一個大型軟件公司為這個實驗(六名女性) ,年齡從 22 歲至 45 歲。所有參與者每周至少 30-40 小時使用電腦 (40-50 小時中位數(shù))。沒有參與者在機器學習的背景下,只有一個作為一個軟件開發(fā)人員( 其余的程序管理或在非開發(fā)部門,如市場營銷和法律)。我們采用被試內(nèi)設計研究,平衡接口階拉丁方。因為我們沒有想到概念有任務間殘留的影響,我們固定的任務,烹飪,旅行,然后園藝在每一項任務之前,參與者都會給他們一個簡短的介紹,他們將使用的接口,任務和時間來練習。我們使用相同的概念庫的實踐任務。對于每一個實際的任務,我們要求參與者分類的網(wǎng)頁,無論你認為他們是關于烹飪、園藝、旅行,根據(jù)自己的目標概念的定義。所有與每個接口的相互作用被記錄。參與完成每一項任務,參與者填寫一份問卷,測量他們對所使用的接口的態(tài)度。完成所有三項任務后制定一個最終的問卷調(diào)查來詢問參與者對不同接口的整體偏好。結(jié)果:從我們的實驗中收集的數(shù)據(jù)來看,我們的分析分為四大類:工具的使用,標簽的質(zhì)量,標簽的速度和用戶的態(tài)度和喜好。除非另有說明,否則我們計算的定量比較將采用弗里德曼法檢驗和校正。結(jié)構(gòu)化標記支持的使用:具有結(jié)構(gòu)數(shù)據(jù)的能力并不意味著人們會真正這樣做,因為我們沒有要求參與者使用結(jié)構(gòu)化支持,我們能夠調(diào)查他們自己的意義結(jié)構(gòu)是否將超過他們的時間和努力成本的結(jié)構(gòu)(根據(jù)關注投資理論 [ 6 ],人們不會把注意力投入活動,除非他們認為收益將超過成本)。如果參與者沒有感覺的結(jié)構(gòu)化標記是有用的,我們希望看到的組數(shù)之間沒有差異。然而,我們發(fā)現(xiàn),參與者確實利用結(jié)構(gòu)(圖 4,左)完成與更多的人群與結(jié)構(gòu)化的標記條件比基線的研究(X2 =20.19,DF = 2,P<0.001) 。成對的測試證實,這兩個手冊(001)和輔助(對 001)的結(jié)構(gòu)化標記導致群體比我們的基線 (有三個永久性組)更多。這表明,參與者感覺構(gòu)建標簽的收益超過這樣做的成本效益。正如預期的那樣,參與者最經(jīng)常在“可能是”類別的結(jié)構(gòu)化頁面。一些與會者也在“是”的類別中,但很少有結(jié)構(gòu)是“沒有”類別。這很可能是因為“沒有”類別包含了更廣泛的各種無關的網(wǎng)頁,使結(jié)構(gòu)似乎不太有用或更耗時。圖 4(右) 也顯示, “可能是”群體往往比“是”組大,這反過來又往往比“沒有”組小。我們的結(jié)構(gòu)化標記的原型的使用也顯示概念進化的證據(jù)。兩兩測試手冊中,參與者修改結(jié)構(gòu)(即類別組或組之間移動頁面之間 )比基線標注更常使用結(jié)構(gòu)化的標記條件,相對于基線(X2=8.93,DF = 2,P = 0.011)他們每半年均會表現(xiàn)出更多的修改(P =0.006)和輔助(P = 0.024)。有趣的是,每個標簽也會在下半年也觀察到的差異(X2=8.04,DF = 2,P = 0.018),然而,只有手動狀態(tài)顯示翻修期間(P = 0.012)。這些結(jié)果表明,結(jié)構(gòu)化的標簽鼓勵概念的演變和輔助結(jié)構(gòu)的支持,可能會使人們能夠手動構(gòu)造單獨鞏固自己的概念定義。有趣的是,每個標簽也會在下半年也觀察到的差異(X2=8.04,DF = 2,P = 0.018),然而,只有手動狀態(tài)顯示翻修期間(P = 0.012)。圖 4 (左)在實驗結(jié)束后組平均數(shù) (淺色為否,暗色為是)。(右)每個組的平均數(shù)目(相同)。這些結(jié)果表明,結(jié)構(gòu)化的標簽鼓勵概念的演變和輔助結(jié)構(gòu)的支持,可能會使人們能夠手動構(gòu)造單獨鞏固自己的概念定義。圖 5(右邊)顯示了人工和輔助結(jié)構(gòu)參與者之間的另一個差異,在使用手動條件比輔助條件下,重新審視更多的頁面。這會在下半年(X2=12,DF = 2, P = 0.02)兩兩測試這段時間確認手動較基線(P = 0.05)和輔助(P = 0.05)有更明顯的標記。其次,這種差異可能是由于輔助構(gòu)建內(nèi)容通過總結(jié)回顧造成的集團支持(減少了需要手動檢查一組的內(nèi)容)或者推薦組(減少創(chuàng)建的基團的數(shù)目以及減少一些回顧 )。圖 5 在上半年的實驗 (亮)和最后一半(暗),平均數(shù)量的網(wǎng)頁和團體參加修訂(左)或重新審視(右)。我們比較標簽質(zhì)量的機制是衡量這兩個獨立的編碼器應該屬于一起的項目對標簽的一致性(條件和任務下的描述)。我們通過調(diào)整 Rand 指數(shù)(ARI)計算標簽的一致性[ 17 ],如常見的建議之間的一些數(shù)據(jù)劃分計算協(xié)議度量(由我們參與標簽定義 )和一些地面真理(通過數(shù)據(jù)我們的編碼約定定義)[ 25 ]。直觀地說,阿里計算對應的比例已經(jīng)結(jié)束了調(diào)整分組在一起的機會(或不 )。我們用“可能”的項目,我們兩個實驗者獨立標記和同意我們的地面真實的分區(qū)(即,在一對組合在一起的代碼被認為是相似的,那些不在一起是不一樣的) 。注意是否有嘉賓認為任何一項屬于自己的概念當中在“是”的范疇,該措施仍將它們標記為在一起,即使我們的地面真理標記這些在一起的一組可能的類別) 。我們的分析顯示出顯著的影響界面狀態(tài)對標簽的一致性根據(jù) ARI 度量(X2 =6.53,DF = 2,P<0.038)。成對測試表明參與者標記更一貫在數(shù)據(jù)手冊(Z = -2.329,P = 0.02)和輔助結(jié)構(gòu) (Z = -2.329,P =0.02)的條件下比在基線條件。沒有發(fā)現(xiàn)不同的手冊和輔助結(jié)構(gòu)化標記條件之間(Z = -0.852,P = 0.394)的區(qū)別。這些結(jié)果( 如圖 6 所示) 表明,結(jié)構(gòu)化的標簽確實提高了參與者的標記數(shù)據(jù)的質(zhì)量,幫助他們以更一致的方式來標記項目。標簽速度:調(diào)查結(jié)構(gòu)的影響.我們測量了總的時間,它參加了在每個條件下完成的標簽任務。我們發(fā)現(xiàn),在基線條件下的參與者完成了大約 10 分鐘,平均標記,與近 15 分鐘的結(jié)構(gòu)化標記條件(X2=14.93,DF = 2,P<0.001)。成對的測試顯示,基線和手動(0.003)和基線和輔助(對 0.001)結(jié)構(gòu)化標記工具之間的差異(圖 7)。我們還研究了如何快速參與者最初標記的個人網(wǎng)頁,每個接口。也就是說,我們測量了參與者在第一次出現(xiàn)的時候,他們的第一次,然后決定了它的初始標簽。我們沒有時間可以花了重新的網(wǎng)頁的時候,精煉他們的概念。從這個分析中,我們發(fā)現(xiàn)了一個不同的初始標簽速度之間的基線和手動的結(jié)構(gòu)化標記(與基線快) ,但無差異之間的基線和輔助結(jié)構(gòu)化標記(X2 =6.40,DF = 2,P =0.040;成對測試基線和手動 P = 0.016,與其他對之間的差異無統(tǒng)計學意義)。這些結(jié)果表明,我們的輔助支持可能有助于減輕一些結(jié)構(gòu)化標簽的成本。此外,我們檢查了很久,它參加了最初的標簽的第一個 50%頁與過去 50%,直覺上一旦他們的結(jié)構(gòu)建立,人們可能會更快地應用標簽。雖然從開始到結(jié)束的速度上我們發(fā)現(xiàn)顯著的差異,但我們發(fā)現(xiàn)了他們的任務結(jié)束時的基線和手動之間的差異以及基線和輔助條件的下降(圖 8)。圖 6 編碼對的平均一致性(經(jīng)調(diào)整的蘭德指數(shù)計算)。參與者者顯著更一致,工作與結(jié)構(gòu)化的標記工具。這些變化可能是由于一個穩(wěn)定的參與者進展的結(jié)構(gòu)變化。事實上,檢查時,參與者修改了他們的結(jié)構(gòu),我們發(fā)現(xiàn),100 頁,重新檢查至少一次在所有的用戶,69 人提出了在上半年的任務,而只有 31 個在下半年提出。用戶的態(tài)度和喜好,以揭示一個更大的圖片的影響,結(jié)構(gòu)化的標簽,我們檢查每個接口的用戶的態(tài)度和喜好,以及他們的自我報告的概念變化。在研究結(jié)束時,我們要求參與者按優(yōu)先順序排列每個工具。圖 7 標記任務的平均時間(分鐘)。使用基準工具比結(jié)構(gòu)化標記工具完成任務的任務更快地完成任務。圖 8 平均時間(秒),它表示了最初的標簽每一個項目(輕=前 54 個標簽,黑暗=最后54 個標簽,中等=平均)。參與者是最慢的結(jié)構(gòu)化標記工具。圖 9 排名每個工具的參與者作為自己最喜歡的(淺顏色)和最不喜歡的(黑暗)。輔助結(jié)構(gòu)的標簽有最喜歡的和最不喜歡的排名最低數(shù)量圖 9 顯示了一個向上的趨勢與更多的參與者排名的手動結(jié)構(gòu)化工具作為自己的喜愛基線,和作為自己的最愛更多仍然排名的輔助結(jié)構(gòu)標記工具。我們也看到了相反的趨勢,參與者最不喜歡的工具,與基線工具排名最經(jīng)常。與會者的意見提供了一些見解,為什么他們可能有首選的輔助結(jié)構(gòu)工具。例如,一些與會者贊賞小組建議:“可能的權(quán)力?”它幫助了排序過程,但也使你下意識地說“等待” ,這是不正確的。輔助分組是最好的,因為你真的可以。這三個簡單的分類是最快的,同樣,另一位參與者表示,如果沒有推薦功能,他將優(yōu)先使用非結(jié)構(gòu)化的標記工具( 他作為自己的第二個最喜歡的工具 ),因為它是不復雜的:“簡單的可以是有用的。建議是非常有用的。分類介紹了系統(tǒng)的復雜性” 。這一觀點認為,簡單的可以是有用的是由其他參與者,特別是三誰更喜歡的非結(jié)構(gòu)化標記工具。然而,即使是在這個群體中,有一種意識,在正確的情況下,輔助結(jié)構(gòu)工具可能是有用的。我最喜歡的更簡單的,但當我不知道這個主題很好,如“園藝” ,我希望在相似的頁面(圖 6)看到編碼對的平均一致性(經(jīng)調(diào)整的蘭德指數(shù)計算 )。參加者更一致的工作可以用來幫助我進行分類。另一位與會者還討論了如何在不熟悉的主題工作,特別有幫助,包括工具如何幫助她在她的腦海中保持更多的類別:我認為我不太熟悉這個主題,所以在我的腦海中,我想有更多類別。最后,值得注意的是,參與者知道他們的概念定義在使用的基線界面(圖 10)。圖 10 參與者的反應量表的問題“你的觀念轉(zhuǎn)變的頻率如何?” 。與會者報告了更多的變化而使用的結(jié)構(gòu)化標記工具。弗里德曼秩和檢驗顯示界面條件的主效應顯著的概念變化的意識(X2=9.91,DF = 2,P = 0.007),與基線之間的兩兩比較,證實一個顯著的差異,輔助結(jié)構(gòu)化標記(P = 0.016)。討論中,我們說明了概念演化的問題,一系列的形成性研究,表明概念的演變影響人們的能力,標簽數(shù)據(jù)一致。然后,我們介紹了結(jié)構(gòu)化的標簽,作為一種新的方法來處理概念演變。我們的控制實驗表明,人們使用和首選的結(jié)構(gòu)化標記比傳統(tǒng)的標簽和結(jié)構(gòu)化標簽提高標簽的一致性。然而,我們也要重新審視我們的形成性研究,概念演變的一個發(fā)現(xiàn),可以導致相同的人在不同的時間,在相同的數(shù)據(jù)的不同的標簽決定。特別是,我們要確定,如果結(jié)構(gòu)化的標簽可以提高標簽的一致性,在這種情況下。我們與八機器學習專家進行了一個小的后續(xù)研究。我們要求我們的學員 100 網(wǎng)頁標簽從園藝概念,然后回來十天后,同一數(shù)據(jù)標簽(數(shù)據(jù)排序是們之間的會話) 。四位參與者使用我們的基線工具,四個使用我們的輔助結(jié)構(gòu)的標記工具。一致性是計算機在我們學員的高級分類形成的研究(例如, “是的” , “不” ,“可以”)從第一屆到下。從這項研究中,我們發(fā)現(xiàn),結(jié)構(gòu)化的標簽有助于人們到達更一致的結(jié)構(gòu)化決策時,標記相同的數(shù)據(jù)十天。在基線條件下的參與者表現(xiàn)出 86.3%的一致性平均(標準差= 5.3%),而那些在結(jié)構(gòu)化標記條件平均為 90.9%(標清= 5.6%)。此外,利用基線接口到達顯著不同的標簽后十天,三的參與者(通過對稱 McNemar Bowker 測試計算),而只有一個結(jié)構(gòu)化的標記參與者的標簽從一個會議到下一個明顯的不同。這些研究結(jié)果表明,進一步調(diào)查的影響,結(jié)構(gòu)化的標簽上的一致性標記的決定,隨著時間的推移是必要的。二進制標簽,但是,是不是唯一的潛在用途的結(jié)構(gòu)化標記。其他任務,需要一致的標簽(例如,多類分類,實體提取)可能也有好處,但更多的類或復雜的輸入管理額外的支持可能是必要的。此外,標簽結(jié)構(gòu)本身可能是有用的人類和機器。標記的準則或規(guī)則可以直接從結(jié)構(gòu)化的標記過程和工具,如我們的原型可以用來分享這些指南作為一個收集的典范,而不是書面的規(guī)則。機器學習者也可以從這個結(jié)構(gòu)獲益;例如,在某些群體的項目可以加權(quán),模型的選擇可以探索組的不同組合,可以識別和組特異功能。結(jié)論:本文介紹了機器學習的概念演變的概念,并取得了以下成果:? 結(jié)果研究說明機器學習的概念演變的影響。新型交互技術幫助人們進化過程中概念的標記(結(jié)構(gòu)化標記) ,和兩個工具實例化該技術。結(jié)果對照實驗比較結(jié)構(gòu)化標記傳統(tǒng)機器學習中的標記,表明結(jié)構(gòu)使用首選的參與者和幫助他們的標簽更一致,但成本的速度(特別是早期的標記) 降低。結(jié)果從一個跟蹤實驗比較標簽一致性隨著時間的推移,表明結(jié)構(gòu)化標記幫助參與者回憶他們的早期標記決定增加其一致性隨著時間的推移。總之,這些結(jié)果揭示了廣泛部署到最終用戶的個人分類提供訓練數(shù)據(jù)的機器學習的從業(yè)人員發(fā)展系統(tǒng)概念的演變問題的普遍性。結(jié)構(gòu)化的標記提供了一個解決方案概念的演變,進一步步幫助人們有意義與機器學習互動。
收藏
編號:490482
類型:共享資源
大?。?span id="24d9guoke414" class="font-tahoma">5.36MB
格式:ZIP
上傳時間:2019-01-20
50
積分
- 關 鍵 詞:
-
瓶裝
產(chǎn)品
自動
貼標機
設計
15
cad
- 資源描述:
-
瓶裝產(chǎn)品自動貼標機的設計含15張CAD圖,瓶裝,產(chǎn)品,自動,貼標機,設計,15,cad
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。