《《logistic回歸分析》PPT課件.ppt》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《《logistic回歸分析》PPT課件.ppt(81頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、1,logistic回歸分析王淑康,2,Logistic回歸(Logistic Regression)是研究因變量為二分類(lèi)或多分類(lèi)觀(guān)察結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線(xiàn)性回歸。 Logistic回歸的分類(lèi): (1)二分類(lèi)資料Logistic回歸: 因變量為兩分類(lèi)變量的資料,可用非條件Logistic回歸和條件Logistic回歸進(jìn)行分析。非條件Logistic回歸多用于非配比病例-對(duì)照研究或隊(duì)列研究資料,條件Logistic回歸多用于配對(duì)或配比資料。 (2)多分類(lèi)資料Logistic回歸: 因變量為多項(xiàng)分類(lèi)的資料,可用多項(xiàng)分類(lèi)Logistic回歸模型或有序分類(lèi)L
2、ogistic回歸模型進(jìn)行分析。,3,非條件Logistic回歸分析 條件Logistic回歸分析 無(wú)序分類(lèi)反應(yīng)變量Logistic回歸分析 有序多分類(lèi)反應(yīng)變量Logistic回歸分析 Logistic回歸分析應(yīng)用及注意事項(xiàng),4,第一節(jié) 非條件logistic回歸,5,6,7,8,9,二、 logistic回歸模型的參數(shù)估計(jì),logistic回歸模型的參數(shù)估計(jì)常采用最大似然估計(jì)。其基本思想是先建立似然函數(shù)與對(duì)數(shù)似然函數(shù),求使對(duì)數(shù)似然函數(shù)最大時(shí)的參數(shù)值,其估計(jì)值即為最大似然估計(jì)值。,10,,,,,,11,,12,13,14,例、口服避孕藥(OC)與心肌梗死(MI)關(guān)系的病例對(duì)照研究結(jié)果,,參數(shù)估
3、計(jì)為:,15,例、口服避孕藥(OC)與心肌梗死(MI)關(guān)系的病例對(duì)照研究結(jié)果,,16,17,觀(guān)察例數(shù),18,19,20,三、logistic回歸模型的假設(shè)檢驗(yàn),21,22,對(duì)所擬合模型的假設(shè)檢驗(yàn):,23,四、變量篩選,24,例 某工作者在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例。試用logistic回歸分析篩選出與癌細(xì)胞轉(zhuǎn)移有關(guān)的危險(xiǎn)因素(變量選入和剔除水平均為0.10)。,25,用逐步回歸法擬合模型,變量選入和剔除水平均為0.10,指定選項(xiàng)“des”是為了按照y=1(有轉(zhuǎn)移)的概率擬合模型。如果不加此選擇項(xiàng),則軟件會(huì)按照y=0(
4、無(wú)轉(zhuǎn)移)的概率擬合模型,此時(shí),應(yīng)變量的排序水平發(fā)生顛倒,且所有參數(shù)估計(jì)的符號(hào)相反,OR值為原來(lái)的倒數(shù)。,26,27,logistic逐步回歸分析篩選出兩個(gè)有統(tǒng)計(jì)學(xué)意義的變量為x2和x4,回歸系數(shù)分別為2.4134和2.0963,比數(shù)比分別為11.172和8.136。結(jié)果中還給出了標(biāo)準(zhǔn)化偏回歸系數(shù),腎癌細(xì)胞核組織學(xué)分級(jí)(x4)在引起癌細(xì)胞轉(zhuǎn)移中的危險(xiǎn)性大于腎細(xì)胞癌血管內(nèi)皮生長(zhǎng)因子(x2)。,28,第二節(jié) 條件logistic回歸,,29,30,31,32,33,34,例 研究肥胖(x1,肥胖為1,不肥胖為0)、口服避孕藥雌激素(x2,用藥為1,不用藥為0)與子宮內(nèi)膜癌(y,病例為0,對(duì)照為1)的
5、關(guān)系,采用1:2配對(duì)做病例-對(duì)照研究,共調(diào)查20個(gè)配比組。試分析肥胖、口服避孕藥雌激素與子宮內(nèi)膜癌的關(guān)系。,35,36,37,第三節(jié) 無(wú)序反應(yīng)變量Logistic回歸,y=1表示A類(lèi),y=2表示B類(lèi),y=0表示C類(lèi)。 設(shè)C類(lèi)為參照組。,如果反應(yīng)變量的水平數(shù)大于2個(gè),且水平間不存在等級(jí)關(guān)系,該反應(yīng)變量稱(chēng)為多分類(lèi)無(wú)序反應(yīng)變量,此時(shí)需擬合廣義logistic模型(general logistic model),38,39,例:欲研究不同社區(qū)、性別對(duì)成人獲取健康知識(shí)途徑的差別,見(jiàn)表3.1,40,data aa; do community=1 to 3; do sex=0 to 1; do method
6、=1 to 3; input x; output; end;end;end; cards; 20 35 26 10 27 57 42 17 26 16 12 26 15 15 16 11 12 20 ; proc logistic; freq x; class community sex; model method (ref=3)=community sex/link=glogit aggregate scale=none; run;/*link=glogit擬合無(wú)序分類(lèi)logistic回歸模型,ref指明參照的類(lèi)別*/,,41,LOGISTIC過(guò)程語(yǔ)句,可用于model語(yǔ)句的常用選項(xiàng)有:,過(guò)
7、度離散和擬合優(yōu)度選項(xiàng) AGGREGATE|AGGREGATE=(variable-list)規(guī)定計(jì)算Pearson卡方檢驗(yàn)統(tǒng)計(jì)量和似然比卡方檢驗(yàn)統(tǒng)計(jì)量的子總體,會(huì)輸出Pearson擬合優(yōu)度統(tǒng)計(jì)量。 SCALE=scale提供離散參數(shù)的值,或規(guī)定估計(jì)離散參數(shù)的方法。并同時(shí)顯示“偏差和Pearson擬合優(yōu)度統(tǒng)計(jì)量”表。scale有效值為: D|DEVIANCE:離散參數(shù)的估計(jì)為偏差除以自由度; P|PEARSON:離散參數(shù)估計(jì)為Pearson卡方統(tǒng)計(jì)量除以自由度; N|NONE:對(duì)離散參數(shù)不予修正; WILLIAMS:Williams方法用于過(guò)離散模型 LACKFIT對(duì)于兩分類(lèi)反應(yīng)變量模型執(zhí)行Ho
8、smer和Lemeshow擬合優(yōu)度檢驗(yàn)。 RSQUARE擬合模型的廣義決定系數(shù)。,42,43,44,45,以educate為參照結(jié)果,,,所對(duì)應(yīng)的logistic模型為:,46,以educate為參照結(jié)果,社區(qū)為1時(shí),community1=1,community2=0; 社區(qū)為2時(shí),community1=0,community2=1; 社區(qū)為3時(shí),community1=-1,community2=-1;,47,以educate為參照結(jié)果,社區(qū)為1時(shí),community1=1,community2=0; 社區(qū)為2時(shí),community1=0,community2=1; 社區(qū)為3時(shí),communi
9、ty1=-1,community2=-1;,說(shuō)明性別相同的社區(qū)1的居民與社區(qū)3的居民相比,通過(guò)media獲取知識(shí)的可能性是educate的0.518倍,即更多是從educate獲取相關(guān)知識(shí)。,,48,以educate為參照結(jié)果,社區(qū)為1時(shí),community1=1,community2=0; 社區(qū)為2時(shí),community1=0,community2=1; 社區(qū)為3時(shí),community1=-1,community2=-1;,49,以educate為參照結(jié)果,社區(qū)為1時(shí),community1=1,community2=0; 社區(qū)為2時(shí),community1=0,community2=1; 社區(qū)
10、為3時(shí),community1=-1,community2=-1;,說(shuō)明性別相同的社區(qū)1的居民與社區(qū)3的居民相比,通過(guò)network獲取知識(shí)的可能性是通過(guò)educate獲取知識(shí)的1.020倍,兩種途徑相差不大。,,50,以educate為參照結(jié)果,男性時(shí),數(shù)據(jù)集定義為0,結(jié)果中為sex=1; 女性時(shí),數(shù)據(jù)集定義為1,結(jié)果中為sex=-1;,說(shuō)明相同社區(qū)的居民中,男性與女性相比通過(guò)media獲取知識(shí)的可能性是通過(guò)educate獲取知識(shí)的2.887倍;同理通過(guò)network的可能性是educate的2.055倍,即男性與女性相比更喜歡通過(guò)大眾傳媒和網(wǎng)絡(luò)獲取知識(shí)。,,51,52,53,無(wú)序多分類(lèi)反應(yīng)變
11、量logistic回歸SAS的輸出概率:,54,第四節(jié) 有序反應(yīng)變量Logistic回歸,假設(shè)反應(yīng)變量 y為k個(gè)等級(jí)的有序變量,k個(gè)等級(jí)分別用1,2,,k表示。 累積概率(cumulative probability),,j,55,,,反應(yīng)變量 y 取某一分類(lèi)的概率為:,有序反應(yīng)變量Logistic回歸分析要求每一個(gè)模型中相對(duì)應(yīng)的自變量的偏回歸系數(shù)都相同,因此對(duì)數(shù)據(jù)要進(jìn)行平行性檢驗(yàn)。,56,data aa; do sex=0 to 1; do treat=0 to 1; do effect=1 to 3; input count; output; end; end; end; cards; 1
12、 0 10 5 2 7 6 7 19 16 5 6 ; proc logistic; freq count; model effect=sex treat/scale=none aggregate; run;,57,58,59,,,女性顯效的可能性是男性的3.739倍;也表示女性至少有效的可能性是男性的3.739倍。 新藥顯效的可能性是傳統(tǒng)藥的6.033倍;新藥至少有效的可能性是傳統(tǒng)藥的6.033倍。,60,data bb; do IQ=1 to 4; do education=0 to 3; input count; output; end; end; cards; 22 57 11 1
13、81 236 112 4 30 135 105 10 3 26 17 7 ; proc logistic des; freq count; model IQ=education / aggregate; run;,只是例題!,61,,,62,,,,,,63,有序多分類(lèi)反應(yīng)變量SAS輸出的預(yù)測(cè)概率:,64,第六節(jié) Logistic模型回歸診斷,Logistic回歸數(shù)據(jù)結(jié)構(gòu)問(wèn)題有過(guò)離散、空單元、完全分離、多元共線(xiàn)性、特異值及強(qiáng)影響點(diǎn)等等。,65,Logistic模型回歸診斷,66,Logistic模型回歸診斷,5、特異值和強(qiáng)影響值:SAS中對(duì)特異值和強(qiáng)影響值的診斷指標(biāo)有:,67,Logisti
14、c模型回歸診斷,5、特異值和強(qiáng)影響值:SAS中對(duì)特異值和強(qiáng)影響值的診斷指標(biāo)有:,68,6、非線(xiàn)性和非加性:,69,第七節(jié) logistic回歸的應(yīng)用及其注意事項(xiàng),70,71,如果藥物或毒物不止一種,也可以用logistic模型分析其聯(lián)合作用。,72,4預(yù)測(cè)與判別 logistic回歸模型是一個(gè)概率型模型,對(duì)非條件Logistic回歸,在給定的條件下可通過(guò)logistic回歸模型計(jì)算某事件發(fā)生的概率。因此可以利用它預(yù)測(cè)某事件發(fā)生的概率。在臨床上也可以根據(jù)疾病與臨床檢查指標(biāo)資料,建立logistic回歸模型,對(duì)新的對(duì)象可根據(jù)其臨床檢查指標(biāo),計(jì)算其患某種疾病的概率的大小,進(jìn)行判別分析。,73,二、l
15、ogistic回歸分析應(yīng)用的注意事項(xiàng),74,75,設(shè)y=1表示患冠心病,y=0表示未患冠心病??床煌淖兞抠x值的結(jié)果。,76,Logistic方程:lnp/(1-p)=-1.3863+2.0794black+1.6094others,黑人與白人的OR值為:OR=exp(2.0794)=8.000 其他人與白人的OR值為:OR=exp(1.6094)=5.000,第一種賦值方法結(jié)果:,77,Logistic方程為:lnp/(1-p)=0.6931black-1.3863white+0.2231others,黑人和白人的OR值為:OR=2.000/0.250=8.000 或者:lnOR=lnp1/(1-p1)/ p2/(1-p2)=0.6931-(-1.3863..)=2.0794; OR=exp(2.0794)=8.000,第二種賦值方法結(jié)果:,78,79,設(shè)立啞變量方法,80,81,