《分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價.ppt》由會員分享,可在線閱讀,更多相關《分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價.ppt(27頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、Evaluating tag filtering techniques for web resource classification in folksonomies,分眾分類中的網(wǎng)絡資源分類的 標簽過濾技術評價,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,2,摘 要,社會化協(xié)作式標簽系統(tǒng)是基于人類共同知識的新出現(xiàn)的網(wǎng)絡分類方法,并在Del.icio.us等站點得到廣泛運用。協(xié)同式標簽系統(tǒng)是包括用戶、資源和標簽的三元數(shù)據(jù)結構,這些標簽有助于促進訪問和瀏覽大量網(wǎng)絡資源。本文提供了一種確定標簽在資源分類上價值的經(jīng)驗研究方法。此外,還分析了使用若干過濾器和預處理過程來減少標簽的模糊性和噪音的方法。,
2、關鍵詞:網(wǎng)絡資源分類 社會標簽系統(tǒng) 分眾分類法,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,4,引 言,社會化標簽系統(tǒng)是伴隨web2.0出現(xiàn)的最流行的內(nèi)容分享應用之一。由于其簡明性,集體創(chuàng)建和管理標簽來標注和分類內(nèi)容的實踐已經(jīng)取得巨大成功。在Del.icio.us,Technorati或者Flickr這類站點中,用戶自由選擇一組關鍵詞或者開放式的標簽來標注各種異構的資源,例如:網(wǎng)頁、博客帖子、圖片或者視頻,社會化標簽能自動化地完成將資源手動地分類到預定義的類別中費時費力的工作。 本文通過使用協(xié)作產(chǎn)生的開放式標簽(比如網(wǎng)頁)來分類資源的方法進行了一個經(jīng)驗評價。實驗數(shù)據(jù)源于一系列由專家分類的來源
3、于網(wǎng)站目錄的網(wǎng)頁和非專家用戶給定的標簽(Noll & Meinel)。為了獲取有代表性的資源并與不同的分類器比較,本文采用了大量的元數(shù)據(jù)來對比。,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,6,背景及相關作品,分眾分類法是社會分類框架的基本結構,它依賴于大量社區(qū)用戶使用的頻次最高的標簽來分類系統(tǒng),從而有效地組織和導航大型信息空間。,Folksonomy = taxonomy + folk,一個分眾分類可以定義為一個三元數(shù)組A=(U,T,R),其意思是:用戶U,資源R,以及標記其間的三元關系的用戶指定的標簽。,背景及相關作品,關于 Folksonomy,特點 用戶自發(fā)定義 標簽分類是公開共享
4、的 由用戶群體定義的頻率來決定,缺點 缺乏層次性 表達概念的模糊性(缺乏語義精確性,缺乏同義詞控制),優(yōu)點 易于接受,自由靈活 動態(tài)更新,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,9,基于標簽的Web資源分類,基于標簽的Web資源分類,,,數(shù)據(jù)集的描述,Web資源表示,基于標簽的分類結果,,數(shù)據(jù)集的描述,本研究中使用的元數(shù)據(jù)是: 標簽:包含一個社會化書簽的完整歷史,對于每個數(shù)據(jù)集中的文件,它的完整的書簽歷史都抓取自Del.icio.us的HTML網(wǎng)頁上。 錨文本:定義為文本的范圍內(nèi)出現(xiàn)一個HTML標記。在數(shù)據(jù)集中,每個文件有多達100個的提交頁面得到處理。 查詢:指所有用于A
5、OL500k語料庫在一個特定網(wǎng)頁出現(xiàn)結果集的查詢。,Web資源表示,三種信息源 單獨文件(標簽,查詢條件和錨文本) 所有資源的組合(查詢條件+錨文本+標簽) 三種其他組合(查詢+錨文本,查詢+標簽,錨文本+標簽),兩種分類器 樸素貝葉斯分類器 Weka9機器學習算法,兩個評價指標 標準精度 回憶偏差,基于標簽的分類結果,基于標簽的分類結果,基于標簽的分類結果,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,16,標簽處理方法的評價,術語詞干,在大多數(shù)語言中,相似語義解釋的詞有很多形態(tài)變化,這在信息檢索中被視為是相同的。例如computer, computers, compute, computes
6、, computed, computational, computationally和computable,這些詞可被縮減為單個詞干:compute。,詞干和合并算法,通過將詞的形態(tài)變化縮減為其詞干的語言規(guī)范化的過程。,術語詞干,包含同義詞,拼寫錯誤,拼寫檢查使用三個基于不同算法和詞典的庫來進行:Tumba!,JaSpell!和 Hunspell.拼寫檢查器適用于每個標簽,那些錯別字將會被每個算法建議的拼寫正確的字所替換。如果沒有建議的單詞來替換拼寫錯誤的標簽,很可能是因為拼寫檢查字典中不存在該標簽,該標簽將被丟棄。,拼寫錯誤,拼寫錯誤,拼寫錯誤,分眾分類中的網(wǎng)絡資源分類的標簽過濾技術評價,2
7、5,結 論,社會化標簽是由存儲在分眾分類法協(xié)同標簽系統(tǒng)的集體知識組成的,它主要是用來方便訪問和瀏覽共享資源的。 在多元網(wǎng)絡資源數(shù)據(jù)信息(例如查詢條件,錨文本和標簽)的條件下,本實驗使用標準化數(shù)據(jù)集而進行。首先,與單獨使用上述提到的元數(shù)據(jù)所獲得的分數(shù)和彼此結合使用上述提到的元數(shù)據(jù)所獲得的分數(shù)相比較獲得基準結果,以代表資源和幾個分類算法。其次,評估預處理操作以通過減少標簽的模糊性和噪音來改善分類的質(zhì)量。使用詞干來減少單詞形態(tài)變化在分類上有著積極作用;同樣,包含擴展的縮寫表和非英文標簽的翻譯的增強拼寫校對方法也有助于得到最好的分類結果。與此相反,簡單的將同義詞并入到資源代表中劣化了分類器的性能。,論文講完了!,