騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt
《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt》由會員分享,可在線閱讀,更多相關(guān)《騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里.ppt(39頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、騰 訊 大 講 堂第五十九期研發(fā)管理部 大講堂主頁:http:/ 數(shù) 據(jù) 蘊(yùn) 含 商 機(jī) , 挖 掘 決 勝 千 里騰 訊 研 究 院 數(shù) 據(jù) 分 析 研 究 室SimonJiang / 江 宇 聞2009-02-24 Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 從 運(yùn) 籌 帷 幄 到 決 勝 千 里 舌 戰(zhàn) 群 儒 草 船 借 箭巧 借 東 風(fēng) 火 燒 赤 壁 赤壁懷古 蘇軾羽扇綸巾談笑間檣櫓灰飛煙滅. 觀 日 月 之 行 , 察 天 地 之 變風(fēng)雷 電 雨云 云 多 會 下 雨刮 風(fēng) 會 下 雨下 雨 會 閃 電
2、閃 電 會 打 雷換 成 它 呢 ? ? ? 數(shù) 據(jù) 爆 炸 的 時(shí) 代Data Mining, circa 1963 IBM 7090 600 cases“ Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one time to 25.” 數(shù) 據(jù) 挖 掘 是 DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 、 、 Interesting /
3、 novel / useful / implicit / actable / meaningful 、 、 、 Information / knowledge / patterns / trends / rules / anomalies 、 、 、 In massive data / large data set / large database / data warehouse 、 、 、Data + contextInformation + rulesKnowledge + experience 多 學(xué) 科 的 融 合Databases StatisticsPatternRecognit
4、ionKDD MachineLearning AINeurocomputingData Mining Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 幾 個(gè) 基 本 概 念n 模 型 ( Model) vs 模 式 ( Pattern) 數(shù) 據(jù) 挖 掘 的 根 本 目 的 就 是 把 樣 本 數(shù) 據(jù) 中 隱 含 的 結(jié) 構(gòu) 泛 化 ( Generalize)到 總 體 ( Population) 上 去 模 型 : 對 數(shù) 據(jù) 集 的 一 種 全 局 性 的 整 體 特 征 的 描 述 或 概 括 , 適 用 于 數(shù) 據(jù)
5、 空間 中 的 所 有 點(diǎn) , 例 如 聚 類 分 析 模 式 : 對 數(shù) 據(jù) 集 的 一 種 局 部 性 的 有 限 特 征 的 描 述 或 概 括 , 適 用 于 數(shù) 據(jù) 空間 的 一 個(gè) 子 集 , 例 如 關(guān) 聯(lián) 分 析n 算 法 ( Algorithm) : 一 個(gè) 定 義 完 備 ( well-defined) 的 過 程 , 它 以數(shù) 據(jù) 作 為 輸 入 并 產(chǎn) 生 模 型 或 模 式 形 式 的 輸 出n 描 述 型 挖 掘 ( Descriptive) vs 預(yù) 測 型 挖 掘 ( Predictive) 描 述 型 挖 掘 : 對 數(shù) 據(jù) 進(jìn) 行 概 括 , 以 方 便 的
6、 形 式 呈 現(xiàn) 數(shù) 據(jù) 的 重 要 特 征 預(yù) 測 型 挖 掘 : 根 據(jù) 觀 察 到 的 對 象 特 征 值 來 預(yù) 測 它 的 其 他 特 征 值 描 述 型 挖 掘 可 以 是 目 的 , 也 可 以 是 手 段 數(shù) 據(jù) 挖 掘 是 一 個(gè) 過 程 - “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996) 數(shù) 據(jù) 挖 掘 方 法 論 CRISP_DM ( Cross Industry Standard Process for DM) 1998年 ,
7、 由 NCR、Clementine、 OHRA和Daimler-Benz的 聯(lián) 合 項(xiàng) 目 組提 出 SEMMA SAS公 司 提 出 的 方 法 Sample, Explore, Modify, Model, Assess 在 戰(zhàn) 略 上 使 用 Crisp_DM方 法論 , 在 戰(zhàn) 術(shù) 上 應(yīng) 用 SEMMA方法 論 工 欲 善 其 事 必 先 利 其 器n 數(shù) 據(jù) 清 洗 填 充 缺 失 值 , 修 均 噪 聲 數(shù) 據(jù) , 識 別 或 刪 除 孤 立 點(diǎn) , 并 解 決 數(shù) 據(jù) 不 一 致 問題 主 要 分 析 方 法 : 分 箱 ( Binning) 、 聚 類 、 回 歸n 數(shù) 據(jù)
8、集 成 多 個(gè) 數(shù) 據(jù) 庫 、 數(shù) 據(jù) 方 或 文 件 的 集 成n 數(shù) 據(jù) 變 換 規(guī) 范 化 與 匯 總n 數(shù) 據(jù) 簡 化 減 少 數(shù) 據(jù) 量 的 同 時(shí) , 還 可 以 得 到 相 同 或 相 近 的 分 析 結(jié) 果 主 要 分 析 方 法 : 抽 樣 、 主 成 分 分 析n 數(shù) 據(jù) 離 散 化 數(shù) 據(jù) 簡 化 的 一 部 分 , 但 非 常 重 要 (尤 其 對 于 數(shù) 值 型 數(shù) 據(jù) 來 說 ) 先 來 玩 玩 數(shù) 據(jù) ( EDA)n 探 索 性 數(shù) 據(jù) 分 析 ( Exploratory Data Analysis, EDA) 探 索 性 地 查 看 數(shù) 據(jù) , 概 括 數(shù) 據(jù)
9、集 的 結(jié) 構(gòu) 和 關(guān) 系 對 數(shù) 據(jù) 集 沒 有 各 種 嚴(yán) 格 假 定n 主 要 任 務(wù) 數(shù) 據(jù) 可 視 化 ( a picture is worth a thousand words) 殘 差 分 析 ( 數(shù) 據(jù) 擬 合 + 殘 差 ) 數(shù) 據(jù) 的 重 新 表 達(dá) ( 什 么 樣 的 尺 度 對 數(shù) 抑 或 平 方 根 會 簡 化 分 析 ) 方 法 的 耐 抗 性 ( 對 數(shù) 據(jù) 局 部 不 良 的 不 敏 感 性 , 如 中 位 數(shù) 耐 抗 甚 于 均值 )n 常 見 方 法 統(tǒng) 計(jì) 量 , 如 均 值 、 方 差 、 根 方 差 、 協(xié) 方 差 、 峰 度 、 偏 度 、 相 關(guān)
10、系 數(shù) 等 統(tǒng) 計(jì) 圖 , 如 餅 圖 、 直 方 圖 、 散 點(diǎn) 圖 、 箱 尾 圖 等 模 型 , 如 聚 類 數(shù) 據(jù) 挖 掘 = 模 型 + 算 法 你 使 用 過 信 用 卡 嗎 ? 卡 應(yīng) 該 發(fā) 給 誰 ? 哪 些 持 卡 人 會 拖 欠 ? 哪 些 拖 欠 的 客 戶 會 還 款 ? 影 響 資 產(chǎn) 組 合( Portfolio)1、 根 據(jù) 歷 史 , 預(yù) 測 將 來2、 目 標(biāo) 是 一 個(gè) 分 類 變 量3、 預(yù) 測 結(jié) 果 是 一 個(gè) 統(tǒng) 計(jì) 意 義 下 的 概 率 1、 哪 些 人 可 以 發(fā) 卡 , 額 度 是 多 少 。2、 持 卡 人 拖 欠 的 概 率 是 多 少
11、3、 該 對 誰 催 收 分 類 過 程訓(xùn) 練 集 分 類 學(xué) 習(xí) 訓(xùn) 練 集 IF rank = professorOR years 6THEN tenured = yes Jef is YES!分 類 器 物 以 類 聚 , 人 以 群 分人 為 地 選 取 細(xì) 分 維 度 客 戶 價(jià) 值 地 域 活 躍 程 度 維 度 災(zāi) 難 的 發(fā) 生 維 度 增 長 細(xì) 分 數(shù) 目 指 數(shù) 增 長 人 腦 僅 能 處 理 有 限 的 維 度市 場 聚 類 示 意n 基 于 歐 氏 距 離 的 三 維 空 間 中 的 聚 類n 基 于 質(zhì) 心 的 聚 類 算 法(K-Means) )|(|),( 22
12、2 jzizjyiyjxixjid A1 A2B1 xy z 發(fā) 現(xiàn) 商 品 間 的 關(guān) 聯(lián) 規(guī) 則buy(x,”diapers”) buy(x,”beers”) 關(guān) 聯(lián) 規(guī) 則 的 量 度n 支 持 度 : Support(A=B)=#AB/#N, 表 示 A和 B同 時(shí) 出 現(xiàn) 的 概 率n 期 望 可 信 度 : Support(A)=#A/#N, 表 示 A出 現(xiàn) 的 概 率n 置 信 度 : Confidence(A=B)=Support(A=B)/Support(B)n 改 善 度 : Lift(A=B)=Confidence(A=B)/Support(B)名 稱 描 述 公 式支
13、 持 度 X、 Y同 時(shí) 出 現(xiàn) 的 頻 率 P(X Y) 期 望 可 信 度 Y出 現(xiàn) 的 頻 率 P(Y) 置 信 度 X出 現(xiàn) 的 前 提 下 , Y出 現(xiàn) 的 頻 率 P(Y|X) 改 善 度 置 信 度 對 期 望 可 信 度 的 比 值 P(Y|X)/P(Y) 關(guān) 聯(lián) 規(guī) 則 的 度 量 n 發(fā) 現(xiàn) 具 有 最 小 置 信 度 和 支 持 度 的 全部 規(guī) 則 X Y Z 支 持 度 (support), s, 事 務(wù) 中 包 含X & Y & Z的 概 率 置 信 度 (confidence), c, 事 務(wù) 中包 含 X & Y的 條 件 下 , 包 含 Z的 條件 概 率n
14、令 最 小 支 持 度 為 50%, 最 小 置 信 度 為50%, 則 有 A C (50%, 66.6%) C A (50%, 100%)顧 客 購 買 尿 布顧 客 購 買 兩 者顧 客 購 買 啤 酒 從 算 法 到 應(yīng) 用 數(shù) 據(jù) 挖 掘 廠 商挖 掘 和 統(tǒng) 計(jì) 分 析 平 臺SAS EMSPSS ClementineS+MinerStatistic Data Miner 與 數(shù) 據(jù) 庫 集 成 挖 掘 平 臺IBM IMOracleNCR Teradata MinerSQL 2005 DM 行 業(yè) 運(yùn) 用 及 解 決 方 案UnicaKXENHNC Agenda數(shù) 據(jù) 挖 掘 是
15、 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 看 看 QQ的 流 失 數(shù) 據(jù)流 失 率 2007年 3月 2007年 4月 2007年 5月 2007年 6月當(dāng) 月 活 躍 總 帳 戶 數(shù) 253,668,411 255,749,736 264,006,894 269,060,000當(dāng) 月 流 失 老 帳 戶 數(shù) 6,572,087 6,006,582 5,466,807 8,217,569當(dāng) 月 老 帳 戶 流 失 率 2.59% 2.35% 2.07% 3.05%每 個(gè) 月 5001000萬 的 老 用 戶 流 失 ,一 年 老 用 戶 流 失
16、 接 近 1億 ,實(shí) 際 自 然 人 流 失 狀 況 雖 然 沒 有 這 么 嚴(yán) 重 , 但是 仍 然 是 一 個(gè) 驚 人 的 數(shù) 據(jù) ???戶 流 失 是 每個(gè) 行 業(yè) 每 天 都在 面 對 的 問 題1、 建 立 流 失 預(yù) 測 模 型 , 回 答客 戶 是 否 要 流 失 , 何 時(shí) 流 失 的問 題2、 通 過 預(yù) 測 模 型 建 立 客 戶 流失 管 理 機(jī) 制 , 更 為 有 效 地 管 理流 失 , 而 不 是 去 防 止 流 失 一 切 從 目 標(biāo) 出 發(fā)目 標(biāo) 變 量 : 即 需 要 根 據(jù) 業(yè) 務(wù) 需 求 確 定 模 型需 要 預(yù) 測 的 對 象 , 在 QQ客 戶 流 失
17、 模 型 中 即是 在 業(yè) 務(wù) 上 對 “ 流 失 ” 的 定 義 。 沉 默 客 戶 數(shù) 在 4月 后 區(qū) 域 穩(wěn) 定 模 型 選 擇 連 續(xù)沉 默 2個(gè) 月 作為 流 失 的 定 義 目 標(biāo) 變 量 的 定 義 :G ood: 在 表 現(xiàn) 窗 口 連 續(xù) 兩 個(gè) 月 有 登 陸 的 客 戶Bad: 在 表 現(xiàn) 窗 口 連 續(xù) 兩 個(gè) 月 都 沒 有 登 陸 的 客 戶Intermediate: 在 表 現(xiàn) 窗 口 其 中 一 個(gè) 月 有 登 陸 的 客 戶 打 開 觀 測 用 戶 的 窗 口訓(xùn) 練 樣 本 測 試 樣 本觀 察 窗 口 : 2007年 1月 2007年 3月 表 現(xiàn) 窗 口
18、 : 2007年 5月 2007年 6月Time Lag: 2007年 4月交 叉 校 驗(yàn) 樣 本觀 察 窗 口 : 2007年 2月 2007年 4月表 現(xiàn) 窗 口 : 2007年 6月 2007年 7月Time Lag: 2007年 5月觀 察 窗 口 表 現(xiàn) 窗 口Tim e LagMM-1M-2M-3M-4M-5 M+1 M+2 M+31 觀 察 窗 口 : 形 成 自 變 量 的 時(shí) 間 段 。表 現(xiàn) 窗 口 : 形 成 因 變 量 的 時(shí) 間 段 。23 Time Lag: 預(yù) 留 給 業(yè) 務(wù) 部 門 進(jìn) 行 相 應(yīng) 操 作 的 時(shí) 間 段 。1 23 變 化 幅 度 特 征 變
19、量 描 述 用 戶 使 用 量 上 的 變 化 幅 度 勾 勒 出 用 戶 行 為 的 特 征基 本 屬 性 變 量 描 述 用 戶 的 基 本 屬 性產(chǎn) 品 使 用 行 為 特 征 描 述 用 戶 使 用 產(chǎn) 品 的 情 況消 息 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 消 息 業(yè) 務(wù) 的 情 況音 頻 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 音 頻 業(yè) 務(wù) 的 情 況視 頻 業(yè) 務(wù) 使 用 行 為 特 征 描 述 用 戶 使 用 視 頻 業(yè) 務(wù) 的 情 況客 戶 在 線 的 行 為 特 征 從 在 線 時(shí) 長 , 登 陸 次 數(shù) , 登 陸 頻 率 等 角
20、度 研 究 用 戶 的 使 用 行 為歸 屬 地 變 化 的 行 為 特 征 描 述 用 戶 在 某 一 時(shí) 間 周 期 內(nèi) 登 陸 所 在 地 的 變 化 情 況 中 間 變 量比 例 特 征 變 量 描 述 用 戶 業(yè) 務(wù) 使 用 占 比基 礎(chǔ) 變 量 變 量 描 述行 為 趨 勢 特 征 變 量 描 述 用 戶 的 使 用 行 為 變 化 趨 勢變 量 描 述 黃 沙 吹 盡 始 到 金基 礎(chǔ) 變 量 和 中 間 變 量 數(shù) 目 約 為 224個(gè)經(jīng) 過 變 量 變 換 后 的 變 量 數(shù) 目 約 為 1700個(gè)變 量 篩 選使 用 Logistic回 歸 的 Stepwise方 法 進(jìn)
21、行 下 一 步 擬 合卡 方 統(tǒng) 計(jì) 量 Chi Square信 息 價(jià) 值 Information Value 信 息 增 益 G ain Index單 變 量 回 歸 偏 相 關(guān) 分 析 Partial Correlation Lift曲 線十 分 位 樣 本 數(shù) 量 Lift0 226,729 5.171 226,729 2.272 226,728 1.033 226,730 0.554 226,729 0.355 226,729 0.256 226,730 0.15 7 226,729 0.118 226,729 0.079 226,730 0.05Total 2,267,293 1
22、ROC曲 線 50%75% 建 立 閉 環(huán) 的 業(yè) 務(wù) 流 程 流失客戶分析數(shù)據(jù)挖掘數(shù)據(jù)分析 數(shù)據(jù)采集/ETL 現(xiàn)有流程評估計(jì)劃和設(shè)計(jì)挽留行動執(zhí)行挽留行動評估挽留結(jié)果調(diào)整應(yīng)用流程 Agenda數(shù) 據(jù) 挖 掘 是 什 么 ?1 模 型 +算 法2 數(shù) 據(jù) 挖 掘 實(shí) 踐 分 享3 心 得 與 總 結(jié)4 幾 點(diǎn) 心 得實(shí) 施 數(shù) 據(jù) 挖 掘 是 一 個(gè) 戰(zhàn) 略 性 舉 措Business First, Technique Second數(shù) 據(jù) 挖 掘 不 是 萬 能 的 , 沒 有 它 也 不 是 萬 萬 不 能數(shù) 據(jù) 挖 掘 是 一 個(gè) 循 環(huán) 探 索 的 過 程 參 考 文 獻(xiàn) 網(wǎng) 絡(luò) 資 源 u u u u u Tecent Research Question & Answer ? 聯(lián) 系 我 們RTX: simonjiang TEL: 7999RTX: florayi TEL: 8889RTX: jeavinqiu TEL: 5909RTX: neilliao TEL: 4232Thank you !
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供應(yīng)商質(zhì)量能力評審準(zhǔn)則-過程和產(chǎn)品審核部分 --songke8519
- 如何建立個(gè)人的交易系統(tǒng)PPT課件
- mapinfo數(shù)字化邯鄲地圖教程課件
- 主管的管理技能
- 峨眉山月歌ppt通用課件
- 微笑的力量-學(xué)會微笑課件
- 怎樣早期預(yù)防糖尿病并發(fā)癥課件
- 《盲人摸象》課件(精品)
- 大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)的信息系統(tǒng)
- 雙學(xué)位課件——市場營銷產(chǎn)品
- 防拐騙安全教育通用課件
- 冬陽童年駱駝隊(duì)
- 把字句和被字句的轉(zhuǎn)換
- 某針織公司組織結(jié)構(gòu)設(shè)計(jì)方案報(bào)告
- 策略培訓(xùn)英文版10