SPSS統計分析 第六章 回歸分析.ppt
《SPSS統計分析 第六章 回歸分析.ppt》由會員分享,可在線閱讀,更多相關《SPSS統計分析 第六章 回歸分析.ppt(47頁珍藏版)》請在裝配圖網上搜索。
1、第六章 回歸分析 變量之間的聯系 確定型的關系:指某一個或某幾個現象的變動必然會 引起另一個現象確定的變動,他們之間的關系可以使 用數學函數式確切地表達出來,即 y=f(x)。當知道 x的 數值時,就可以計算出確切的 y值來。如圓的周長與 半徑的關系:周長 =2r。 非確定關系:例如,在發(fā)育階段,隨年齡的增長,人 的身高會增加。但不能根據年齡找到確定的身高,即 不能得出 11歲兒童身高一定就是 1.40米公分。年齡與 身高的關系不能用一般的函數關系來表達。研究變量 之間既存在又不確定的相互關系及其密切程度的分析 稱為相關分析。 回歸分析 如果把其中的一些因素作為自變量,而另一 些隨
2、自變量的變化而變化的變量作為因變量, 研究他們之間的非確定因果關系,這種分析 就稱為 回歸分析 。 回歸分析是研究一個自變量或多個自變量與 一個因變量之間是否存在某種線性關系或非 線性關系的一種統計學方法。 線性回歸分析; 曲線回歸分析; 二維 Logistic回歸分析; 多維 Logistic回歸分析; 概率單位回歸分析; 非線性回歸分析; 權重估計分析; 二階段最小二乘分析; 最優(yōu)編碼回歸。 一、線性回歸 (一)一元線性回歸方程 直線回歸分析的任務就是根據若干個觀測( xi, yi) i=1 n 找出描述兩個變量 x、 y之間關系的直線回歸方程 y=a+bx。 y
3、是變量 y的估計值。求直線回歸方程 y=a+bx,實際上是用 回歸直線擬合散點圖中的各觀測點。常用的方法是最小二乘 法。也就是使該直線與各點的縱向垂直距離最小。即使實測 值 y與回歸直線 y之差的平方和 (y-y)2達到最小。 (y-y)2 也稱為剩余(殘差)平方和。因此求回歸方程 y=a+bx的問 題,歸根到底就是求 (y-y)2取得最小值時 a和 b的問題。 a稱 為截距, b為回歸直線的斜率,也稱回歸系數。 1、一元線性回歸方程的適用條件 線形趨勢 :自變量與因變量的關系是線形的,如果不 是,則不能采用線性回歸來分析。 獨立性 :可表述為因變量 y的取值相互獨立,它們之 間沒有聯系
4、。反映到模型中,實際上就是要求殘差間 相互獨立,不存在自相關。 正態(tài)性: 自變量 x的任何一個線形組合,因變量 y均服 從正態(tài)分布,反映到模型中,實際上就是要求隨機誤 差項 i服從正態(tài)分布。 方差齊性 :自變量的任何一個線形組合,因變量 y的 方差均齊性,實質就是要求殘差的方差齊。 2、一元線性回歸方程的檢驗 檢驗的假設是總體回歸系數為 0。另外要檢驗回歸方 程對因變量的預測效果如何。 ( 1)回歸系數的顯著性檢驗 對斜率的檢驗,假設是:總體回歸系數為 0。檢驗該 假設的 t值計算公式是; t=b/SEb,其中 SEb是回歸系 數的標準誤。 對截距的檢驗,假設是:總體回歸方程
5、截距 a=0。檢 驗該假設的 t值計算公式是: t=a/SEa,其中 SEa是截 距的標準誤。 ( 2) R2判定系數 在判定一個線性回歸直線的擬合度的好壞時, R2系 數是一個重要的判定指標。 R2判定系數等于回歸平方和在總平方和 中所占的比率 , 即 R2體現了回歸模型所能解釋的因 變量變異性的百分比。 如果 R2=0.775,則說明變量 y 的變異中有 77.5是由變量 X引起的。當 R2 1時, 表示所有的觀測點全部落在回歸直線上。當 R2=0時, 表示自變量與因變量無線性關系。 為了盡可能準確的反應模型的擬合度, SPSS輸出中 的 Adjusted R
6、 Square是消除了自變量個數影響的 R2 的修正值。 )( )( 2 2 2 yy yyR i i ( 3)方差分析 體現因變量觀測值與均值之間的差異的偏差平方和 SSt是由兩個部分組成: SSt=SSr SSe SSr:回歸平方和,反應了自變量 X的重要程度; SSe :殘差平方和,它反應了實驗誤差以及其他意外 因素對實驗結果的影響。 這兩部分除以各自的自由度, 得到它們的均方。 統計量 F=回歸均方殘差均方。當 F值很大時,拒 絕接受 b=0的假設。 ( 4) Durbin Watson檢驗 在對回歸模型的診斷中,有一個非常重要的 回歸模型假設需要診斷,那就是 回
7、歸模型中 的誤差項的獨立性 。如果誤差項不獨立,那 么對回歸模型的任何估計與假設所作出的結 論都是不可靠的。其參數稱為 DW或 D。 D的 取值范圍是 0 D 4,統計學意義如下: 當殘差與自變量互為獨立時 D2; 當相鄰兩點的殘差為正相關時, D2 ( 5)殘差圖示法 在直角坐標系中,以預測值 y為橫軸,以 y與 y之間的誤差 et為縱軸 (或學生化殘差與擬和 值或一個自變量),繪制殘差的散點圖。如 果散點呈現出明顯的規(guī)律性則 ,認為存在自相 關性或者非線性或者非常數方差的問題。 (二)多元線性回歸 多元線性回歸:根據 多個自變量 的最優(yōu)組合建立回歸 方程來預測因變量的回歸分析
8、稱為多元回歸分析。多 元回歸分析的模型為: y=b0+b1x1+b2x2+ +bnxn 其中 y為根據所有自變量 x計算出的估計值 , b0為常 數項 , b1、 b2 bn稱為 y對應于 x1、 x2 xn的偏回歸 系數。 偏回歸系數表示假設在其他所有自變量不變 的情況下,某一個自變量變化引起因變量變化的比 率。 多元線性回歸模型也必須滿足一元線性回歸方程中所 述的假設理論。 2.多元線性回歸分析中的參數 ( l) 復相關系數 R 復相關系數表示因變量 xi 與他的自變量 y之間 線性相關密切程度的指標,復相關系數使用 字母 R表示。 復相關系數的取值范圍在 0 1之間。其
9、值越 接近 1表示其線性關系越強,越接近 0表示線 性關系越差。 ( 2) R2判定系數與經調整的判定系數 與一元回歸方程相同,在多元回歸中也 使用判定系數 R2來解釋回歸模型中自變量的變異在因變量變異中 所占比率。 但是,判定系數的值隨著進入回歸方程的自變量的 個數(或樣本容量的大小 n)的增加而增大。因此, 為了消除自變量的個數以及樣本量的大小對判定系數 的影響,引進了經調整的判定系數( Adjusted R Square)。 )1( )1(1 )( )( 2 2 2 ni kni yy yyA d j u s t e d R K為自變量的個數, n為觀 測量數目。自變
10、量的個數 大于 時,其值小于判定系 數。自變量個數越多,與 判定系數的差值越大。 ( 3)零階相關系數、部分相關與偏相關系數 零階相關系數( Zero Order)計算所有自變量與因 變量之間的簡單相關系數。 部分相關( Part Correlation)表示:在排除了其他自 變量對 xi的影響后,當一個自變量進入回歸方程模型 后,復相關系數的平均增加量。 偏相關系數( Partial Correlation )表示:在排除了 其他變量的影響后;自變量 Xi與因變量 y之間的相關 程度。部分相關系數小于偏相關系數。偏相關系數也 可以用來作為篩選自變量的指標,即通過比較偏相關 系數的大小
11、判別哪些變量對因變量具有較大的影響力。 3、多元線性回歸分析的檢驗 建立了多元回歸方程后,需要進行顯著性檢 驗,以確認建立的數學模型是否很好的擬和 了原始數據,即該回歸方程是否有效。利用 殘差分析,確定回歸方程是否違反了假設理 論。對各自變量進行檢驗。 其假設是總體的 回歸方程自變量系數或常數項為 0。 以便在回 歸方程中保留對因變量 y值預測更有效的自變 量。以便確定數學模型是否有效。 ( l)方差分析 多元回歸方程也采用方差分析方法對回歸方程進行 檢驗, 檢驗的 H0假設是總體的回歸系數均為 0(無效 假設), H1假設是總體的回歸系數不全為 0(備選假 設)。 它是對整個回歸方程
12、的顯著性檢驗。使用統 計量 F進行檢驗。原理與一元回歸的方程分析原理相 同。 )1( )( )( MS 2 i 2 i pnyy yy F MS 殘差 回歸 ( 2)偏回歸系數與常數項的檢驗 在多元回歸分析中,可能有的自變量對因變 量的影響很強,而有的影響很弱,甚至完全 沒有作用,這樣就有必要對自變量進行選擇, 使回歸方程中只包含對因變量有統計學意義 的自變量; 檢驗的假設是:各自變量回歸系數為 0,常數 項為 0。它使用的統計量是 t; t=偏回歸系數 /偏回歸系數的標準誤 ( 3)方差齊性檢驗 方差齊性是指殘差的分布是常數,與預測變 量或因變量無關。即殘差應隨機的
13、分布在一 條穿過 0點的水平直線的兩側。在實際應用中, 一般是繪制因變量預測值與學生殘差的散點 圖。在線性回歸 Plots對話框中的源變量表中 , 選擇 SRESID(學生氏殘差)做 Y軸;選擇 ZPRED(標準化預測值)做 X軸就可以在執(zhí) 行后的輸出信息中顯示檢驗方差齊性的散點 圖。 共線性診斷 在回歸方程中,雖然各自變量對因變量都是有意義的, 但 某些自變量彼此相關,即存在共線性的問題。 給 評價自變量的貢獻率帶來困難。因此,需要對回歸方 程中的變量進行共線性診斷;并且確定它們對參數估 計的影響。 當一組自變量精確共線性時,必須刪除引起共線性 的一個和多個自變量,否則不存在系數唯一的
14、最小 二乘估計。因為刪除的自變量并不包含任何多余的 信息,所以得出的回歸方程并沒有失去什么。當共 線性為近似時,一般是將引起共線性的自變量刪除, 但需要掌握的原則是:務必使丟失的信息最少。 進行共線性論斷常用的參數有 ( l)容許度( Tolerance) 在只有兩個自變量的情況下,自變量 X1與 X2之間共 線性體現在兩變量間相關系數 r12上。精確共線性時 對應 r122 1,當它們之間不存在共線性時 r122 0。 r122越接近于 1,共線性越強。 多于兩個自變量的情況, Xi與其他自變量 X之間的復 相關系數的平方體現其共線性,稱它為 Ri2。它的 值 越接近 1,說明自變
15、量之間的 共線性程度越大 。 容許度定義為 Toli l一 Ri2 當容許度的值較小時,自變量 Xi 與其他自變量 X之間 存在共線性。 使用容許度作為共線性量度指標的條件是,觀測量 應大致近似于正態(tài)分布,但在大多數情況下觀測量的 正態(tài)分布的假設是不被接受的。而且,由于容許度中 相關系數對極端值極為敏感 , 所以用它來作為共線性 的量度指標是不適合的。 ( 2)方差膨脹因子( VIF) 方差膨脹因于( VIF)定義為 VIF 1/(l一 Ri2 ),即它是 容許度的倒數。 它的值越大,自變量之間存在共線性的 可能性越大。 ( 3)條件參數( Condition Index) 條件參
16、數是在計算特征值時產生的一個統計量,其具體 含義尚不大清楚,但己經提出一些原則: 其數值越大, 說明自變量之間的共線性的可能性越大; 有些學者提議, 條件參數 30時認為有共線性存在的可能性,但理論上 并沒有得到證明。 特征值( Eigenvalue)如果很小,就 應該懷疑共線性的存在。 例 題 Data09-03美國某銀行雇員情況調查,建立一 個使用初始工資( salbegin)、工作經驗 ( prevexp)、工作時間( jobtime)、工作 類型( jobcat)、受教育年限( educ)預測 當前工資( salary)的回歸方程。 1變量間線性關系的初步探索 在獲得數據后
17、,應將所得到的數據繪圖,探索因變量 隨自變量變化的趨勢。以便確定數據是否適合線性模 型。如果數據之間大致呈線性關系,可以建立線性回 歸方程。如果圖中數據不呈線性分布,那么還可以根 據其他回歸方程模型的觀測量分布圖形特點以及建立 各方程后所得的判定系數 R2進行比較后確定一種最 佳模型。見曲線擬合及非線性回歸。 通過散點圖還可以發(fā)現奇異值,如圖中畫圈的觀測值 要認真檢查數據的合理性。 2、選擇自變量和因變量 3、選擇回歸分析方法 Enter選項,強行進入 法 ,即所選擇的自變量 全部進人回歸模型,該 選項是默認方式。 Remove選項,消去法, 建立的回歸方程時,根 據設定的條件剔除
18、部分 自變量。 Forward選項,向前選擇 法, 根據在 option對話框中 所設定的判據,從無自變 量開始。在擬合過程中, 對被選擇的自變量進行方 差分析,每次加入一個 F值 最大的變量,直至所有符 合判據的變量都進入模型 為止。第一個引入歸模型 的變量應該與因變量間相 關系數絕對值最大。 Backward選項,向后 剔除法 ,根據在 option 對話框中所設定的判據, 先建立全模型,然后根 據設置的判據,每次剔 除一個使方差分析中的 F值最小的自變量,直 到回歸方程中不再含有 不符合判據的自變量為 止。 Stepwise選項,逐步進入法 ,它 是向前選擇變量法與向后剔除變
19、量 方法的結合。根據在 option對話框 中所設定的判據,首先根據方差分 析結果選擇符合判據的自變量且對 因變量貢獻最大的進入回歸方程。 根據向前選擇變量法則選入變量。 然后根據向后剔除法,將模型中 F 值最小的且符合剔除判據的變量剔 除出模型,重復進行直到回歸方程 中的自變量均符合進入模型的判據, 模型外的自變量都不符合進入模型 的判據為止。 4、選擇參與回歸的觀測量 根據變量值選擇參與回 歸分析的觀測量,將作 為參照的變量進入 Selection Variable框中, 單擊 Rule按鈕。打開 Set Rule對話框。 5、 Statistics按鈕 Estimates:輸
20、出回歸系數 B、 B的標準誤、標準回歸 系數 beta、 B的 t值及 t值的雙側檢驗的顯著性水平; Confidence interval:輸出每一個非標準化回歸系數 95的可信區(qū)間; Covariance maxtrix:輸出非標準化回歸系數的協方 差矩陣、各變量的相關系數矩陣; Model fit(模型擬合):輸出引入模型與從模型中剔除的變量, 提供復相關系數 R, R2及其修正值,估計值的標準誤,方差分 析表; R squared change:表示回歸方差中引入或剔除一個自變量后 的 R2變化量; Descriptives:輸出合法觀測量的數目、變量的平均值、標準差、 相關
21、系數矩陣和單側檢驗顯著性水平 Part and partial correlations:輸出部分相關系數、偏相關 系數、零階相關系數; Collinearity diagnostics:輸出方差膨脹因子及特征值; Durbin Watson:輸出 Durbin Watson統計量及可能的 奇異值; Casewise diagnostics:輸出觀測量檢測表; 6、 plot按鈕 Dependent:因變量; ZPRED:標準化預測值 ZRESID:標準化殘差 DRESID:剔除殘差 ADJPRED:修正后預測值 SRESID:學生化殘差 SDRESID:學生化剔除殘差
22、 Histogrom:輸出帶有正態(tài)曲 線的標準化殘差的直方圖; Normal probability plot:殘 差的正態(tài)概率圖,檢查殘差 的正態(tài)性; Produce all partial plots:輸 出一個自變量殘差相對于因 變量殘差的散布圖。 Option按鈕 Stepping method criteria(設 置變量引入模型或從模型中 剔除的判據 ) Use probability of F:采用 F 概率作為變量引入模型或從 模型中剔除的判據。 Entry: 0.05當一個變量的 sigT值 0.05時該變量被引入 方程; Removal: 0.10當一個變量
23、的 sigT值 0.10時該變量從回 歸方程剔除。 Use F values(采用 F值作為 變量引入模型或從模型中剔 除的判據) Entry: 0.05當一個變量的 sigF值 3.84時該變量被引入 方程; Removal: 0.10當一個變量 的 sigF值 2.71時該變量從回 歸方程剔除。 練習題 為研究男性高血壓患者血壓與年齡、身高、 體重等變量間的關系,隨機測量了 32名 40歲 以上的男性患者的血壓、年齡、體重以及吸 煙史(過去吸煙或現在吸煙設置為 1,不吸煙 為 0)。試建立回歸方程。 Mreg2.sav 二、曲線回歸分析 線性回歸可以滿足許多數據分析,然而線性
24、 回歸不會對所有的問題都適用,有時因變量 與自變量是通過一個已知或未知的非線性函 數關系相聯系。盡管有可能通過一些函數的 轉換方法,在一定范圍內將它們轉變?yōu)榫€性 關系,但這種轉換有可能導致更為復雜的計 算或數據失真。 在很多情況下有兩個相關的變量,用戶希望 利用其中的一個變量對另一個變量進行預測, 此時可采用的方法也很多;從簡單的直線模 型到復雜的時間序列模型。如果不能馬上根 據觀測量數據確定一種最佳模型,可以利用 曲線估計在眾多的回歸模型中來建立一個簡 單而又比較適合的模型。 例 題 汽車每加侖汽油行駛的里程數( mpg)與汽 車重量( weight)建立回歸方程。 Data13
25、 01 線形回歸方程 Y=b0+b1X 二次回歸方程 Y=b0+b1X+b2X2 復合曲線回歸方程 Y=b0(b1X) 等比級數曲線回歸方程 對數回歸方程 三次回歸方程 Y=b0+b1X+b2X2+b3X3 三、 Logistic回歸分析 多元線性回歸要求 Y是呈正態(tài)分布的連續(xù)型隨機變量。 難以處理因變量為二值變量的情況。 在醫(yī)學中,存在 很多二值化的狀態(tài),比如生存與死亡、感染與不感 染、有效與無效、患病與不患病等等。這時,我們 往往要分析生存與死亡或感染與不感染與哪些因素 有關。而這些因素(自變量)可能是二值數據或等 級分組資料或是計量資料,此時,可以使用 logistic 回歸來分
26、析因變量(二值變量)與自變量的關系。 logistic回歸的基本概念: 設 P表示某事件發(fā)生的概率,取值范圍為 0 1, 1 P 是該事件不發(fā)生的概率,將比值 P/( 1 P)取自然 對數得 ln(P/1 P),即對 P作 logit轉換,記為 logitP, 則 logitP的取值范圍在 - , + 之間。以 logitP為因變 量,建立線形回歸方程: logitP =b0+bixi p=exp( b0 +bixi) /1+ exp (b0 +bixi) OR=e=exp 可見: b0表示一個不接觸危險因素(自變量 取值全為 0時)的個體發(fā)?。ㄋ劳龌蚋腥荆┑?比值的對數。
27、 b0是常數。 bi 表示危險因素改變一個單位時,比值的對 數的改變量。在實際比較 xi對比值的對數影響 時,應使用標準化的系數,以克服自變量不 同量綱的影響。 bi稱為 logistic回歸系數。 數據背景( data13-02) 北京醫(yī)科大學附屬人民醫(yī)院內分泌科盧紋凱教授課題。 頸總動脈中層厚度 imt0.8mm或有斑塊定義為動脈硬 化,因變量 type值為 1;非硬化 imt 0.8mm且無斑塊, 因變量 type值為 0。糖尿病患者 123例數據。研究哪 些指標可以判斷糖尿病患者是否動脈硬化。自變量 AGE年齡、 ALB尿白蛋白、 BMI體重指數、 ISI胰島素 敏感指數、 SBP收縮壓、 TG甘油三脂、 CHO膽固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、膽固醇 三項生化指標在回歸估計過程中均使用他們的對數變 量: ALBLN、 TGLN、 CHOLN。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。