《機(jī)器學(xué)習(xí)ppt Chap02模型評(píng)估與選擇》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器學(xué)習(xí)ppt Chap02模型評(píng)估與選擇(28頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留機(jī)器學(xué)習(xí)導(dǎo)論(2016 春季學(xué)期)二、模型評(píng)估與選擇主講教師:周志華權(quán)學(xué)機(jī)16南京大保20器學(xué)習(xí)導(dǎo)論課程專用所有留典型的機(jī)器學(xué)習(xí)過程什么模型好?能很好地適用于unseen instance泛化能力強(qiáng)!例如,錯(cuò)誤率低、精度高然而,我們手上沒有unseen instance,權(quán)所有2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用保留泛化誤差vs.經(jīng)驗(yàn)誤差泛化誤差:在“未來”樣本上的誤差經(jīng)驗(yàn)誤差:在訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差”泛化誤差越小越好 經(jīng)驗(yàn)誤差是否越小越好?NO!因?yàn)闀?huì)出現(xiàn)“過擬合”(overfitting)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留
2、過擬合(overfitting)vs.欠擬合(underfitting)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個(gè)關(guān)鍵問題:如何獲得測(cè)試結(jié)果?如何評(píng)估性能優(yōu)劣?如何判斷實(shí)質(zhì)差別?評(píng)估方法性能度量比較檢驗(yàn)權(quán)專用2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程所有保留評(píng)估方法關(guān)鍵:怎么獲得“測(cè)試集”(test set)?測(cè)試集應(yīng)該與訓(xùn)練集“互斥”常見方法:留出法(hold-out)交叉驗(yàn)證法(cross validation)自助法(bootstrap)權(quán)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有保留訓(xùn)練集測(cè)試集留出法擁有的數(shù)據(jù)集注意:保持?jǐn)?shù)據(jù)分布一致性(例如:分層
3、采樣)多次重復(fù)劃分(例如:100次隨機(jī)劃分)測(cè)試集不能太大、不能太小(例如:1/51/3)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留k-折交叉驗(yàn)證法若k=m,則得到“留一法”(leave-one-out,LOO)權(quán)保器學(xué)習(xí)導(dǎo)論課學(xué)機(jī)2016南京大程專用所有留自助法基于“自助采樣”(bootsrap sampling)亦稱“有放回采樣”、“可重復(fù)采樣”約有36.8%的樣本不出現(xiàn)訓(xùn)練集與原樣本集同規(guī)模數(shù)據(jù)分布有所改變“包外估計(jì)”(out-of-bag estimation)權(quán)專用2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程所有保留“調(diào)參”與最終模型算法的參數(shù):一般由人工設(shè)定,亦稱“超參數(shù)”模型的參數(shù):一般
4、由學(xué)習(xí)確定參數(shù)調(diào)得好不好對(duì)性能往往對(duì)最終性能有關(guān)鍵影響調(diào)參過程相似:先產(chǎn)生若干模型,然后基于某種評(píng)估方法進(jìn)行選擇區(qū)別:訓(xùn)練集vs.測(cè)試集vs.驗(yàn)證集(validation set)算法參數(shù)選定后,要用“訓(xùn)練集+驗(yàn)證集”重新訓(xùn)練最終模型2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個(gè)關(guān)鍵問題:如何獲得測(cè)試結(jié)果?如何評(píng)估性能優(yōu)劣?如何判斷實(shí)質(zhì)差別?評(píng)估方法性能度量比較檢驗(yàn)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留性能度量性能度量(performance measure)是衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),反映了任務(wù)需求使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判
5、結(jié)果什么樣的模型是“好”的,不僅取決于算法和數(shù)據(jù),還取決于任務(wù)需求 回歸(regression)任務(wù)常用均方誤差:2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留錯(cuò)誤率vs.精度 錯(cuò)誤率:精度:權(quán)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有保留 查準(zhǔn)率:查準(zhǔn)率vs.查全率 查全率:權(quán)所用專有程課機(jī)器學(xué)習(xí)導(dǎo)論大學(xué)2016南京保留(BEP)PR圖:學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器B 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器A?學(xué)習(xí)器BBEP:學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器B 學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器B 優(yōu)于學(xué)習(xí)器CPR圖,BEP根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果按正例可能性大小對(duì)樣例進(jìn)行排序,并逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)權(quán)2016南京大學(xué)機(jī)器
6、學(xué)習(xí)導(dǎo)論課程專用所有保留F1若對(duì)查準(zhǔn)率/查全率有不同偏好:比BEP 更常用的F1 度量:權(quán)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有保留宏xx vs.微xx若能得到多個(gè)混淆矩陣:(例如多次訓(xùn)練/測(cè)試的結(jié)果,多分類的兩兩混淆矩陣)宏(macro-)查準(zhǔn)率、查全率、F1微(micro-)查準(zhǔn)率、查全率、F1權(quán)保用導(dǎo)論課程2016南京大學(xué)機(jī)器學(xué)習(xí)專所有留ROC CurveROC,AUCAUC:Area Under the ROC CurveROC(Receiver OperatingCharacteristic)Curve Green&Swets,Book 66;Spackman,IWML89Area
7、 UnderThe bigger,the better權(quán)用程專所有2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課保留非均等代價(jià)犯不同的錯(cuò)誤往往會(huì)造成不同的損失此時(shí)需考慮“非均等代價(jià)”(unequal cost)代價(jià)敏感(cost-sensitive)錯(cuò)誤率:2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個(gè)關(guān)鍵問題:如何獲得測(cè)試結(jié)果?如何評(píng)估性能優(yōu)劣?如何判斷實(shí)質(zhì)差別?評(píng)估方法性能度量比較檢驗(yàn)權(quán)2016南京學(xué)機(jī)器學(xué)習(xí)導(dǎo)大論課程專用所有保留比較檢驗(yàn)在某種度量下取得評(píng)估結(jié)果后,是否可以直接比較以評(píng)判優(yōu)劣?NO!因?yàn)椋簻y(cè)試性能不等于泛化性能 測(cè)試性能隨著測(cè)試集的變化而變化
8、很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性機(jī)器學(xué)習(xí)“概率近似正確”程專用所有課權(quán)學(xué)習(xí)2016南京大學(xué)機(jī)器導(dǎo)論保留(萊斯利維利昂特)(1949-)2010年圖靈獎(jiǎng)機(jī)器學(xué)習(xí)的理論基礎(chǔ)計(jì)算學(xué)習(xí)理論Computational learning theoryLeslieValiantPAC(Probably Approximately Correct)learning modelValiant,19842016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專所用有權(quán)保留 兩學(xué)習(xí)器比較 交叉驗(yàn)證t 檢驗(yàn)(基于成對(duì)t 檢驗(yàn))k 折交叉驗(yàn)證;5x2交叉驗(yàn)證 McNemar 檢驗(yàn)(基于列聯(lián)表,卡方檢驗(yàn))多學(xué)習(xí)器比較 Friedman+Nem
9、enyi Friedman檢驗(yàn)(基于序值,F(xiàn)檢驗(yàn);判斷”是否都相同”)Nemenyi 后續(xù)檢驗(yàn)(基于序值,進(jìn)一步判斷兩兩差別)常用方法統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesis test)為學(xué)習(xí)器性能比較提供了重要依據(jù)統(tǒng)計(jì)顯著性2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留Friedman 檢驗(yàn)圖橫軸為平均序值,每個(gè)算法圓點(diǎn)為其平均序值,線段為臨界閾值的大小若兩個(gè)算法有交疊(A 和B),則說明沒有顯著差別;否則有顯著差別(A 和C),算法A 顯著優(yōu)于算法C2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留“誤差”包含了哪些因素?換言之,從機(jī)器學(xué)習(xí)的角度看,“誤差”從何而來?2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程
10、專用所有權(quán)保留偏差-方差分解(bias-variance decomposition)對(duì)回歸任務(wù),泛化誤差可通過“偏差-方差分解”拆解為:期望輸出與真實(shí)輸出的差別同樣大小的訓(xùn)練集的變動(dòng),所導(dǎo)致的性能變化訓(xùn)練樣本的標(biāo)記與真實(shí)標(biāo)記有區(qū)別表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留偏差-方差窘境(bias-variance dillema)一般而言,偏差與方差存在沖突:訓(xùn)練不足時(shí),學(xué)習(xí)器擬合能力不強(qiáng),偏差主導(dǎo)隨著訓(xùn)練程度加深,學(xué)習(xí)器擬合能力逐漸增強(qiáng),方差逐漸主導(dǎo)訓(xùn)練充足后,學(xué)習(xí)器的擬合能力很強(qiáng),方差主導(dǎo)2016南京大學(xué)機(jī)器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留前往第三站