《北京大學 機器學習》由會員分享,可在線閱讀,更多相關(guān)《北京大學 機器學習(95頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、機器學習概論 An Introduction to Machine Learning 鄧志鴻 北京大學信息科學技術(shù)學院 2013 2014學年第二學期 第一講 內(nèi)容 課程簡介 機器學習簡介 淺議機器學習 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 教輔人員 任課老師 鄧志鴻 辦公室:理科 2號樓 2318 電話: 62755592 Email: 個人主頁: http:/ 助教: 沈戈暉 實驗室:理科 2號樓 2320 Email: 電話 : 62757756 魏亮晨 實驗室:理科 2號樓 2320 Email: 電話 : 62757756
2、時間: 每周周一 34節(jié) 雙周周三 56節(jié) 地點 :一教 204 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 參考資料 參考 教材 Machine Learning (Tom Mitchell) 補充 材料 Journals Machine Learning; Journal of Machine Learning Research (JMLR) IEEE Transactions on Pattern Analysis and Machine Intelligence( PAMI) Conferences 主流: AAAI, IJCAI, IC
3、ML, NIPS 自然語言處理: ACL, COLING, EMNLP 機器視覺與多媒體: CVPR, ICCV, ACM Mutilmedia 數(shù)據(jù)挖掘與檢索: KDD, SIGIR, WWW 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 課程網(wǎng)站 網(wǎng)址: http:/ 機器學習概論 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 課程要求 高等數(shù)學 微分、積分 概率統(tǒng)計 數(shù)據(jù)結(jié)構(gòu) 編程語言 c, c+, java, Python 會用一種即可 有基本概念就 可以了 課程目的 了解和掌握機器學習的基本理
4、論、算法和技術(shù) 問題背景 種類 基本方法和算法 理解已有機器學習 /數(shù)據(jù)挖掘系統(tǒng)的工作原理 已有很多相關(guān)軟件,能很方便實現(xiàn)分類、聚類等機 器學習任務(wù)。 Weka工具包 Matlab 不僅僅會用這些軟件,還要知道它是如何實現(xiàn)的。 能在今后的工作中應(yīng)用機器學習的理論和方法解決 實際問題。 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 課程考核機制 課堂小問題 希望大家踴躍參加 三個項目 分類 聚類 頻繁模式 挖掘及應(yīng)用 考試 期末考試 課程成績構(gòu)成 平時 10 項目 40 分類項目 15 聚類項目 10 模式挖掘項目 15 期末考試 50 項目說明 政
5、策 1-3人組成一個團隊 (team)。 每個小組獨立完成項目。 鼓勵討論,但禁止小組間抄襲。 數(shù)據(jù) 適時發(fā)布在課程網(wǎng)站上 課程簡介內(nèi)容提要 教輔人員 參考資料 課程網(wǎng)站 課程要求及目的 課程考核機制 課程內(nèi)容簡介 課程內(nèi)容簡介 數(shù)據(jù)生成與預(yù)處理 分類 聚類分析 關(guān)聯(lián)分析 課程內(nèi)容數(shù)據(jù)生成與預(yù)處理 數(shù)據(jù)生成 結(jié)構(gòu)化數(shù)據(jù) 關(guān)系數(shù)據(jù) 非結(jié)構(gòu)化數(shù)據(jù) 文本 圖像 數(shù)據(jù)預(yù)處理 數(shù)據(jù)清洗 數(shù)據(jù)變換 數(shù)據(jù)歸約 特征選擇 (Feature Selection) 特征抽取 (Feature Extraction) 數(shù)據(jù)離散化 課程內(nèi)容分類 符號邏輯方法 謂詞邏輯規(guī)則 Find-S, Candidate-Elim
6、ination, Decision Tree, Sequential Covering Algorithms 一階謂詞規(guī)則 FOIL 貝葉斯方法 相關(guān)基本概率概念以及貝葉斯公式 樸素貝葉斯方法 貝葉斯網(wǎng)絡(luò) 隱馬爾可夫模型( HMM) k近鄰 (kNN) 主題模型 (選講 ) 課程內(nèi)容介紹分類 神經(jīng)網(wǎng)絡(luò) 感知器(線性) 前饋多層神經(jīng)網(wǎng)絡(luò)(任意函數(shù)) 反向向 傳播 算法 深度學習(選講) 支持向量機 (SVM) 統(tǒng)計學習理論 線性 SVM 非線性 SVM 核函數(shù) 分類器集成 基本原理 基本 技術(shù): Voting、 Bagging、 Boosting 課程內(nèi)容介紹分類 其它話題(選講) 半監(jiān)督學習
7、生成模型 基于圖的方法 預(yù)測 分類 算法評估 基本度量 查全、查準、 評估方法 基本概念 基本方法 Holdout, Cross-validation, Bootstrap 課程內(nèi)容聚類 相似性度量 距離 向量距離 編輯距離 相似系數(shù) 聚類間相似性度量 核心算法 層次聚類方法 層次凝聚聚類算法, 劃分聚類方法 K-Means, 密度聚類方法 DBSCAN 基于模型的方法 EM, SOM, 性能評估 課程內(nèi)容關(guān)聯(lián)分析 基本概念 支持度、置信度、關(guān)聯(lián)規(guī)則、頻繁模式、 頻繁模式挖掘經(jīng)典算法 Apriori算法 垂直算法 (Eclat and dEclat) FP-Growth算法 基于節(jié)點鏈表的算法
8、 Algorithms based on node lists 最長模式和閉模式 交互挖掘 增量挖掘 高級話題 序列模式挖掘 我的重要 貢獻 第一講 課程簡介 機器學習簡介 淺議機器學習 機器學習簡介內(nèi)容提要 必要性 基本定義 發(fā)展歷程 基本任務(wù) 相關(guān)領(lǐng)域 應(yīng)用 必要性社會需求 機器人 各類機器人 對象識別 人臉檢測 指紋識別 語音識別 趨勢 人 更多的休閑時間 機器 更多的智能工作 IBM Watson Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms.
9、Models Answer 之前也有發(fā)生 ; 所以網(wǎng)絡(luò)管理員認 為可能是由客戶端 “ xx.xx.154.19”的 錯誤配置導致的。 評價挖掘系統(tǒng) COMP COMP Chinese-orient Option Mining system of Peking university 背景介紹 系統(tǒng)框架 模塊介紹 實驗分析 背景介紹 WWW上存在兩類信息 事實 (Facts) 門戶網(wǎng)站、公司主頁、個人主頁等 評價 (Opinions) 論壇,郵件,博客, 當前搜索引擎 對事實的搜索,事實可通過主題關(guān)鍵詞來表達 搜索引擎檢索無法有效檢索到評價 評價很難用關(guān)鍵詞表達出來 人們對諾基亞手機的總體評價 人
10、們對“周正龍事件”的看法 背景介紹 目前人們可以通過論壇、 BBS、博客等等 WWW服務(wù)方便地發(fā)表自己的觀點和體驗。 這些評價信息包含了非常有價值的信息 個人 購買商品時,可以參考 WWW眾多網(wǎng)友的意見,而不局限 于周圍的朋友 企業(yè) 產(chǎn)品在用戶中的優(yōu)點和缺點 政府 政策在群眾中的反映 評價挖掘 挖掘 WWW文本資源中的評價信息 應(yīng)用廣泛 評價挖掘任務(wù) 特征 評價的對象 如“諾基亞 N73”, “彩鈴”, 評價 表達情感的詞(一般是形容詞) 如“好”,“差”,“一般”等 “ 諾基亞 N73手機很好用 ” 評價信息 挖掘處理 特征:諾基亞 N73 評價:很好 系統(tǒng)框架 數(shù)據(jù)采集與 清洗模塊 評價信
11、息 數(shù)據(jù)庫 特征提取 模塊 評價挖掘 模塊 詞典 特征庫 用戶查詢 接口 用戶 評價信息 WWW 特征評價 數(shù)據(jù)庫 數(shù)據(jù)采集與清洗模塊介紹 手動選擇評價網(wǎng) 站或網(wǎng)頁 網(wǎng)站或網(wǎng)頁 列表 原始評價 信息庫 網(wǎng)絡(luò) 爬蟲 網(wǎng)頁 預(yù)處理 自然 語言 處理 預(yù)處理后 評價庫 評價信息 數(shù)據(jù)庫 預(yù)處理模塊: 過濾網(wǎng)頁標簽 過濾無關(guān)評價 按照評價的邏輯結(jié)構(gòu)組 織評價 自然語言處理模塊: 分詞 詞性標注 特征提取模塊介紹 特征分為兩類 由單個名詞描述的特征 由名詞性短語描述的特征 使用基于統(tǒng)計的方法,提取由名詞或名詞性短語表示 的特征 頻繁序列挖掘:挖掘頻繁名詞或名詞序列,作為候選特征 過濾處理:過濾高頻詞或其
12、它不大可能是特征的候選特征 頻繁 模式 挖掘 處理 評價 數(shù)據(jù)庫 名 詞 提 取 評價中 出現(xiàn)的 名詞庫 候選 特征庫 過濾 處理 特征庫 無效 特征庫 實驗數(shù)據(jù) 數(shù)據(jù)源 塞班智能手機網(wǎng) N73專區(qū) http:/ 太平洋社區(qū) N73專區(qū) http:/ 數(shù)據(jù)量 原始數(shù)據(jù) 63679條 過濾后有效數(shù)據(jù)為 59129條 結(jié)果分析 特征 情感評價值 總評價主題 數(shù) 積極評價主 題數(shù) 消極評價主 題數(shù) 電 2.8730 51 17 2 圖標 1.7103 59 17 9 鈴聲 0.1481 193 45 10 信號 0.0232 72 11 8 下表是對 4個特征的情感分析的結(jié)果 其中: 電,圖標 是情
13、感評價值最高的兩個特征;而 鈴聲,信號 是情感 評價值最低的兩個特征 最容易影響人們對手機的印象是這兩類特征: 一是容易出問題,使手機用戶產(chǎn)生困擾的特征 二是容易出個性,使手機用戶與眾不同的特征。 結(jié)果展示 SIGMA系統(tǒng)框架 科研文獻資源庫 數(shù)據(jù)預(yù)處理 元數(shù)據(jù)庫 科研學術(shù) 知識庫 用戶界面 數(shù)據(jù)源 網(wǎng)絡(luò)爬蟲 API接口 聚類分析 自動排級 演化分析 主題建模 SIGMA系統(tǒng)的邏輯視圖與知識庫 知識庫設(shè)計 邏輯視圖 系統(tǒng)特色 本系統(tǒng)在學術(shù)文獻信息網(wǎng)絡(luò)的統(tǒng)一框架下,實現(xiàn)多層次,全方位 的科研資源檢索服務(wù),為與學術(shù)研究相關(guān)的不同層次的用戶提供 靈活 、 全方位 的信息檢索服務(wù)。 相關(guān)系統(tǒng) 國際 G
14、oogle Scholar DBLP CiteSeer 國內(nèi) 萬方 中國學術(shù)文獻網(wǎng) 中國知網(wǎng) C_DBLP “我國計算機軟件領(lǐng)域有哪些重要的文獻” 提供不了檢索結(jié)果 能回答如下問題 系統(tǒng)功能特色 鄧志鴻詳情 英文論文 中文論文 被引論文 論文詳情 引文下載 論文下載 期刊詳情 發(fā)文期刊 單位詳情 合作作者 合作作者詳情 研究方向 研究方向詳情 搜索“鄧志鴻” 系統(tǒng) 展示 系統(tǒng)資源 作者人數(shù) : 111,836 一級論文總數(shù): 87,371 有詳細出版信息并提供了萬方全文下載地址 二級論文總數(shù): 944,891 可通過集成的 google接口進行搜索。 科研單位總數(shù): 17,683 系統(tǒng)界面 系
15、統(tǒng)展示專業(yè)領(lǐng)域瀏覽 系統(tǒng)展示專業(yè)領(lǐng)域瀏覽 系統(tǒng)展示研究熱點與趨勢 系統(tǒng)展示研究熱點與趨勢 系統(tǒng)展示專業(yè)科研力量瀏覽 第一講 課程簡介 機器學習簡介 淺議機器學習 關(guān)于“學習” 學習算法表示評價優(yōu)化 表示:知識建模,即采用什么形式來概括( 或抽象表示)數(shù)據(jù)。某類表示形式構(gòu)成假設(shè) 空間( hypothesis space)。 評價:度量學習結(jié)果的標準或依據(jù),通常對 不同的問題有不同的評價函數(shù)。 優(yōu)化:根據(jù)評價函數(shù)在假設(shè)空間中找得分最 高的表示示例(分類器)。 機器學習算法組成部分 重要問題 泛化( Generalization) 機器學習的目標是對訓練集合中樣例的泛化 。所謂泛化,指學習到的結(jié)果(
16、知識)對非 訓練集合中的未知樣例的預(yù)測盡可能對。 原因 訓練樣例僅僅占全部樣例的極小極小一部分,甚 至可以忽略不計 DTraining Dall 重要問題 過擬合( Overfitting) 過度關(guān)注訓練樣例的特征,使得學到的知識 泛化性差 例如: 在訓練樣例上的準確率為 100 在測試樣例上的準確率為 50 常用策略 通過交叉驗證進行處理 奧卡姆剃刀 (Occams Razor) 重要問題 維度災(zāi)難 (Curse of dimensionality) 許多在低維空間表現(xiàn)很好的算法,當輸入是高維數(shù) 據(jù)的時候,就變得計算不可行或效果很差。 原因 隨著樣例維度的增長,樣例空間將以指數(shù)增長。因此,同 等規(guī)模的訓練集只能覆蓋越來越少樣例,即所占比例將以 指數(shù)減少,從而造成正確泛化的難度以指數(shù)增長。 樣例空間為 100維的布爾空間 樣例的個數(shù)為 2100 1萬億的訓練樣例這樣超大規(guī)模的訓練集合也僅是樣例空間 的 10-18 解決方案 降維 重要問題 理論保證( Theoretical Guarantees) 機器學習采用的是歸納推理。因此,難于保 證結(jié)果的正確性。 從概率統(tǒng)計的角度上認識機器學習在理論保 證方面的問題。 意義 不是作為機器學習實踐應(yīng)用中決策標準 而是理解算法和推動算法發(fā)展的源泉 下一講 數(shù)據(jù)生成與預(yù)處理 See you next time