《抽樣誤差與假設(shè)檢驗》由會員分享,可在線閱讀,更多相關(guān)《抽樣誤差與假設(shè)檢驗(38頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,流行病與衛(wèi)生統(tǒng)計學教研室,金英良,第四章 抽樣誤差與假設(shè)檢驗,本章主要內(nèi)容,:,第一節(jié) 均數(shù)的抽樣誤差與標準誤差,第二節(jié) 總體均數(shù)的估計,第三節(jié) 假設(shè)檢驗的意義和步驟,第一節(jié) 均數(shù)的抽樣誤差與標準誤差,假定某年某地所有13歲女學生身高服從總體均數(shù),=155.4cm,,總體標準差,=5.3cm,的正態(tài)分布,N(155.4,5.3,2,)。,隨機抽取30人為一個樣本(,n=30),,并計算樣本的均數(shù)和標準差,共抽取100次,可以得到100份樣本,每份樣本可以計算相應(yīng)的均數(shù)和標準差。,1.156.7,5.16,
2、158.1,5.21,155.6,5.32,99.154.6,5.15,100.156.6,5.25,=155.4cm,=5.3cm,X S,一百個樣本,抽樣誤差,(smpling error),這種由抽樣造成的,樣本統(tǒng)計量,與,總體參數(shù),之間的差異成為抽樣誤差,.,總體,樣本,隨機抽樣,統(tǒng)計量,參 數(shù),只要有個體變異和隨機抽樣研究,抽樣誤差就是,不可避免,的。,若從正態(tài)總體,N(,,2,),中,反復多次隨機抽取樣本含量固定為,n,的樣本,那么這些樣本均數(shù),也服從正態(tài)分布。樣本均數(shù),的總體均數(shù)仍為,,,樣本均數(shù)的標準差為,其計算公式為:,中心極限定理,SAMPLE 1,:,x,11,x,12,
3、x,13,x,14,.x,1n,SAMPLE 2,:,x,21,x,22,x,23,x,24,.x,2n,SAMPLE k,:,x,k1,x,k2,x,k3,x,k4,.x,kn,原始,總體,k,個樣本均數(shù)的頻數(shù)分布圖,標準誤,(standard error,SE),樣本均數(shù)的標準差。,它反映了來自同一總體的樣本均數(shù)之間的離散程度以及樣本均數(shù)和總體均數(shù)的差異程度,即均數(shù)的抽樣誤差的大小。,統(tǒng)計上用標準誤來衡量抽樣誤差的大?。?由于在實際工作中,總體標準差,往往未知,而是用樣本標準差,S,來代替,,,故只能求得樣本均數(shù)標準誤的估計值,S,X,,,其計算公式為:,估計,例 4.1 某市隨機抽查成年
4、男子1,40,人,得紅細胞均數(shù),4.7710,12,/L,,標準差,0.3810,12,/L,,計算其標準誤。,第二節(jié) 總體均數(shù)的估計,1.,統(tǒng)計推斷(,statistical inference,),在總體中隨機抽取一定數(shù)量觀察單位作為樣本進行抽樣研究,然后由樣本信息推斷總體特征,這一過程稱為統(tǒng)計推斷。,一、可信區(qū)間的概念,統(tǒng)計推斷,參數(shù)估計,假設(shè)檢驗,點估計,區(qū)間估計(可信區(qū)間),2.,參數(shù)估計(,parameter estimation,),是指由樣本統(tǒng)計量估計總體參數(shù),是統(tǒng)計推斷的一個重要內(nèi)容。,(,1,)點估計(,point estimation,),用樣本統(tǒng)計量直接作為總體參數(shù)的估
5、計值。,(,2,)區(qū)間估計(,interval estimation,),又稱可信區(qū)間(置信區(qū)間,,CI),按預先給定的概率,計算出一個區(qū)間,使它能夠包含未知的總體均數(shù)。,=155.4cm,身高(,cm),總體均數(shù)的95%可信區(qū)間,平均有95個可信區(qū)間包括了總體均數(shù),,,只有5個可信區(qū)間不包括,,,即估計錯誤。,進行100次抽樣,每次樣本量為,n=30,,利用樣本均數(shù)和標準差估計總體均數(shù)范圍。,3.,可信區(qū)間有兩個要素:,(,1,),準確度(,accuracy),可信度的大小,即可信區(qū)間包容,的概率大?。?-,)。,(,2,),精密度(,precision),反映在區(qū)間的長度,區(qū)間長度越小精密
6、度越高。,一般情況下,95%的可信區(qū)間更為常用。,在可信度確定的情況下,增加樣本量,可減少區(qū)間長度,提高精密度。,t,分布,是,t,檢驗的基礎(chǔ),亦稱,student t,檢驗,是計量資料中最常用的假設(shè)檢驗方法。,戈塞特,(,William Sealey Gosset),英國著名統(tǒng)計學家。出生于英國肯特郡坎特伯雷市,求學于曼徹斯特學院和牛津大學,主要學習化學和數(shù)學。,二、總體均數(shù)可信區(qū)間的計算,1899年作為一名釀酒師進入愛爾蘭的都柏林一家啤酒廠工作,在那里他涉及到有關(guān)釀造過程的數(shù)據(jù)處理問題。,由于釀酒廠的規(guī)定禁止戈塞特發(fā)表關(guān)于釀酒過程變化性的研究成果,因此戈塞特不得不于1908年,首次以“學生
7、”(,Student),為筆名,在生物計量學雜志上發(fā)表了“平均數(shù)的概率誤差”。,Gosset,在文章中使用,Z,統(tǒng)計量來檢驗常態(tài)分配母群的平均數(shù)。由于這篇文章提供了“學生,t,檢驗”的基礎(chǔ),為此,許多統(tǒng)計學家把1908年看作是統(tǒng)計推斷理論發(fā)展史上的里程碑。,隨機變量,X,N,(,m,,,s,2,),標準正態(tài)分布,N(0,1,2,),u,變換,當總體均數(shù)與標準差未知時,均數(shù),標準正態(tài)分布,N(0,1,2,),在實際工作中,往往未知,常用 代替進行變換,即,不服從標準正態(tài)分布!,而服從自由度,=n-1,的,t,分布,f,(,t,),=(,標準正態(tài)曲線,),=5,=1,0.1,0.2,-4,-3,-
8、2,-1,0,1,2,3,4,0.3,t,分布,1、以0為中心,左右對稱的單峰分布。,2、,t,分布曲線是一簇曲線,其形態(tài)變化與自由度,的大小有關(guān)系(,=,n-1)。,t,分布的特征:,自由度越小,,t,分布的峰越低,而兩側(cè)尾部翹得越高;,自由度逐漸增大時,,t,分布逐漸逼近標準正態(tài)分布,當自由度為無窮大時,,t,分布就是標準正態(tài)分布,。,為便于使用,統(tǒng)計學家編制了不同自由度,對應(yīng)的,t,界值表。,t,分布的用途:,主要用于總體均數(shù)的區(qū)間估計及,t,檢驗。,s,未知 且,n,較小,(,n50,)按,u,分布,s,已知,按,u,分布,總體均數(shù)可信區(qū)間的計算方法,隨總體標準差,s,是否已知,以及樣
9、本含量,n,的大小而異。,通常有,t,分布和,u,分布,兩類方法:,(一),已知,u,變換公式:,-1.96,+1.96,2.5%,2.5%,95%,(二),未知,1.n,較?。?n50),例4.,2,某醫(yī)生測得,25,名動脈粥樣硬化患者血漿纖維蛋白原含量的均數(shù)為,3.32g/L,,標準差為,0.57g/L,,試計算該種病人血漿纖維蛋白原含量總體均數(shù)的,95%,可信區(qū)間。,該種病人血漿纖維蛋白原含量總體均數(shù)的,95%,可信區(qū)間為,3.09g/L,3.56g/L,例4.,3,試計算例,4.1,中該地成年男子紅細胞總體均數(shù)的,95%,可信區(qū)間。,該地成年男子紅細胞總體均數(shù)的,95%,可信區(qū)間為,4
10、.7110,12,/L,4.8310,12,/L,第三節(jié) 假設(shè)檢驗的意義和步驟,一、假設(shè)檢驗的基本思想,“反證法”的思想,先根據(jù)研究目的建立假設(shè),從,H,0,假設(shè)出發(fā),先假設(shè)它是正確的,再分析樣本提供的信息是否與,H,0,有較大矛盾,即是否支持,H,0,,若樣本信息不支持,H,0,,便拒絕之并接受,H,1,,否則不拒絕,H,0,。,例4.4 以往通過大規(guī)模調(diào)查已知某地新生兒出生體重為,3.30kg.,從該地難產(chǎn)兒中隨機抽取,35,名新生兒作為研究樣本,平均出生體重為,3.42kg,標準差為,0.40kg,。,問該地難產(chǎn)兒出生體重是否與一般新生兒體重不同?,0,=3.30kg,次/分,已知總體,
11、未知總體,n=35,=3.42kg,S=0.40kg,與,0,之間的差異(不相等),有兩種可能:,1、,=,0,,,僅因為用,去估計,時存在抽樣誤差,所以導致了,與,0,之間的差異。,2、,與,0,本身就不相等,所以導致了,與,之間的差異。,假設(shè)檢驗的基本原理,:,抽樣誤差所致,P0.05,(來自同一總體),?,假設(shè)檢驗回答,本身存在差別,P,0,(,單側(cè)檢驗,),0,(,單側(cè)檢驗,),=,0.05,例如:要比較經(jīng)常參加體育鍛煉的中學男生心率是否低于一般中學男生的心率,就屬于單側(cè)檢驗。,H,1,:,0,,雙側(cè),,0,都有可能,H,1,:,0,,單側(cè),H,1,:,,,則接受,H,0,,,拒絕,H,1,檢驗水準,確定的,P,值,1.,對于,H,0,只能說拒絕與不拒絕,而對,H,1,只能說接受。,2.,P,,則拒絕,H,0,,接受,H,1,,差異有統(tǒng)計學意義,可認為,不同或不等。,3.,P,,則不拒絕,H,0,,差異無統(tǒng)計學意義,尚不能認為,不同或不等。,4.,應(yīng)事先確定,。選,0.05,只是一種習慣,而不是絕對的標準。,關(guān)于假設(shè)檢驗的幾個觀點,