社會科學研究方法(全套課件)
社會科學研究方法(全套課件),社會科學,研究,鉆研,方法,法子,全套,課件
社會科學研究方法,社會科學研究方法,主講:葉樊妮 電話:13683421055 電郵:yefanni@,當需要對某一社會整體或某一類人的整體進行描述,最準確的是對其每一個個體進行調查。但是當這個范圍很大時,受時間、經費和人力的限制,實施往往比較困難。 因此,絕大多數(shù)情況下,社會科學研究都采用抽樣。抽樣理論是建立在嚴密的數(shù)學基礎上的。,Chapter 4 抽樣,一、抽樣的基本概念,1. 總體(Population) 2. 樣本(Sample) 3. 抽樣(Sampling) 4. 抽樣單位(Sampling Unit) 5. 抽樣框(Sampling Frame) 6. 參數(shù)值(Parameter) 7. 統(tǒng)計值(Statistics) 8、置信度Confidence Level),總體:構成它的所有個體(元素、總體單位)的集合。 樣本:從總體中按一定方式抽取出的一部分個體的集合。 抽樣:從總體中按一定方式抽取樣本的過程。,一、抽樣的基本概念,研究某省大學生擇業(yè)傾向。 – 總體:該省全部大學生 – 元素:該省每一位大學生 – 樣本:從某省總數(shù)為12.8萬大學生中,按一定方式抽取1000人進行調查,這1000人構成該總體的一個樣本,抽樣單位:一次直接抽樣所使用的基本單位。 抽樣單位可以與元素相同也可以不相同。,從某省總數(shù)為12.8萬大學生中抽取1000人。 – 一次從大學生名單中中抽取1000人,抽樣單位(個人)=元素(個人) – 先抽取40個班,而以這40個班的全部學生(如果恰好是1000)作為樣本,則抽樣單位(班級)≠元素(個人),,抽樣框:一次直接抽樣中總體中所有抽樣單位的名單。,名單抽樣框: 從一所中學的全體學生中,直接抽取200人作為樣本,則該學校全體學生的名單就是樣本框。如果是先抽取部分班級,則樣本框是全校班級的名單了。 地域抽樣框: 對成都市進行調查,編制成都市地理位置抽樣框:如分成五個區(qū),然后每個區(qū)下面再分街道、社區(qū)、門牌號 時間抽樣框: 對流水線上生產的產品,按照每一小時抽取一份樣本進行質量檢查,參數(shù)值:也稱為總體值,是關于總體中某一變量的綜合描述。 統(tǒng)計值:也稱為樣本值,是關于樣本中某一變量的綜合描述,總體值只能通過對總體每一個元素進行測量才能得到。 總體值往往是未知的,需要進行估計 統(tǒng)計值是從樣本中計算出來的,可以作為總體值的估計值。,置信度:又稱為置信水平,指的是總體參數(shù)值落在樣本統(tǒng)計值某一區(qū)間內的概率或把握性程度。,常用的置信度:95%,95.45%,90%,99% 顯著性水平:5%,10%,1%,二、抽樣的作用,向人們提供一種實現(xiàn)“由部分認識總體” 的途徑和手段。 用十分有限的人力、財力、時間去了解龐雜、廣闊、紛繁、多變的社會現(xiàn)象。比如:民意測驗,要求迅速、準確,往往調查對象不到2000人。 抽樣主要解決的是調查對象的選取問題,即如何從總體中選出一部分對象作為總體的代表的問題。,,,三、概率抽樣的原理與程序,同質性:每一個成員在所有方面都相同。 異質性:個體相互之間存在著這樣或那樣的異別。 概率樣本所要反映的正是總體本身所具有的內在異質性。,1、基本原理,隨機原則:概率抽樣要求保證總體中的每一個個體都有同等的機會入選樣本;且任一個個體入選與否,與其他個體毫不相關,互不影響,即每一個個體的抽取都是相互獨立的。,2、抽樣分布,從一個總體不斷抽取樣本時,各種可能出現(xiàn)的樣本統(tǒng)計值的分布情況。 樣本不是唯一的。不同的人抽樣結果不一樣。不同的樣本數(shù)目:,,從一個紅球和一個籃球構成的總體抽取一個球作為樣本 從1、2、3數(shù)字構成的總體抽取2個數(shù)作為樣本,3、中心極限定理,中心極限定理:在一個含有N個元素且平均數(shù)為μ,標準差為σ的總體中,抽取所有可能含有n個元素的樣本(樣本數(shù)目m= )。若用X1,X2,X3,…,Xm來分別表示m個樣本的平均數(shù),則樣本平均數(shù)Xi的分布將是一個隨n越大,而越趨于具有平均數(shù)μ和標準差 的正態(tài)分布。,,簡而言之,當樣本容量較大時,可以把樣本平均數(shù)當做正態(tài)分布來處理。,,,,,,,,,,,μ,μ+SE,μ-SE,μ+2SE,μ+3SE,μ-2SE,μ-3SE,,,,,,,,,34.13%,34.13%,13.6%,13.6%,2.16%,2.16%,小概率事件區(qū),小概率事件區(qū),正態(tài)分布圖,四、抽樣的一般程序,(1)界定總體:①抽樣調查的目的所決定;②達到良好抽樣效果前提。 (2)制定抽樣框:抽集全部抽樣單位的名單。 (3)決定抽樣方案:確定抽樣方法、樣本規(guī)模。 (4)實際抽取樣本:先抽好、后調查,邊抽邊調。 (5)評估樣本質量:對樣本進行初步檢驗和衡量。,1、界定總體,1936年美國總統(tǒng)大選的民意測驗。《文摘》雜志寄出1000萬張詢問投票傾向的明信片,然后依據(jù)收回的200萬份結果極其自信地預測共和黨侯選人蘭登將以領先15%的得票率戰(zhàn)勝民主黨侯選人羅斯福而當選下屆總統(tǒng)。然而,選舉結果使預測者們大失所望,得勝者是羅斯福,且得票率反超蘭登20%!《文摘》雜志的聲譽一掃而光,不久就因此而關門了。,反面案例,,為什么? ? 非隨機抽樣,有偏,效度低 ? 郵件回收率太低20% ? 對總體缺乏清楚的認識,致使樣本有偏:抽樣框是電話號碼薄和汽車登記薄,總體是所有有錢人,而選民并沒有經濟地位的限制。恰好1933年開始的經濟大蕭條,許多選民滑落到下等階層,而民主黨更多地代表下等階層。,對成都市老年人進行“社區(qū)服務”需求調查 1、總體是什么? 2、需要界定的內容:成都市、老年人,反面案例,2、制定抽樣框,制定抽樣框是抽樣的關鍵步驟之一。 當抽樣是分段進行時,在幾個不同的抽樣層次上進行時,則要分別建立起幾個不同的樣本框。,比如:研究某市小學生的學習情況。從500所小學中抽取10所小學,再從這10所小學,每個小學抽取3個班級,被抽中的班級中再抽取10名同學。所以要有三個樣本框: – 全市學校名單 – 每所抽中學校班級名單 – 每個被抽中班級學生的名單,3、決定抽樣方案,對于具有不同研究目的、不同范圍、不同對象和不同客觀條件的社會研究,所使用的抽樣方法是不一樣的。 ? 依據(jù)研究的目的的要求、依據(jù)各種抽樣的特點,以及其他有關因素來覺得具體采用哪種抽樣方法。 ? 同時確定樣本規(guī)模以及主要的精確程度。,4、實際抽取樣本,兩種可能性: – 先抽好樣本,再到達實地 – 邊抽取樣本邊開始調查,比如:在一所大學抽取200名學生。 – 當學校規(guī)模不大時,且很容易弄到所有學生的花名冊時,就可以在調查前即用該花名冊為抽樣框,直接進行抽樣。 比如:某入戶調查 – 訪問員按照事先制定的操作方式便調查便抽樣 – 樓房按單元抽,一個單元抽一戶;每個調查員將20張寫好號碼的紙片隨身攜帶,抽中什么號碼就訪問對應的家庭,5、評估樣本質量,評估樣本:對樣本的質量、代表性、偏差等等進行初步的檢驗和衡量,其目的是防止由于樣本的偏差過大而導致的失誤。 具體方法就是用已知的反映總體某些特征及其分布資料和所獲得樣本的同類資料進行比較。若差別小,則說明樣本具有代表性。,舉例:從一所4000名大學生中抽取200名學生作為樣本,同時,從學校的有關部門哪里得到下列統(tǒng)計資料:全校男生占學生總數(shù)的78%,則女生22%;本省學生占64%,外省占36%。 抽取的200名學生中:男生占76%,女士占24%;本省占67%,外省占33%。 通過比較可以看出資料間的差異很小,所以,該次抽取的樣本具有很好的代表性。,五、概率抽樣方法,1、簡單隨機抽樣 2、系統(tǒng)抽樣 3、分層抽樣 4、整群抽樣 5、多段抽樣 6、PPS抽樣 7、戶內抽樣,,1、簡單隨機抽樣(Simple Random Sampling) 也稱作純隨機抽樣,它是概率抽樣中最基本的一種抽樣方法。 (1)直接抽取法 (2)抽簽法 (3)隨機數(shù)表法,簡單隨機抽樣,抽樣方法:對總體單位逐一編號,然后按隨機原則直接抽取若干單位構成樣本。 特點:最基本的組織方式,適用于總體規(guī)模不大,內部差異較小的情況。,好樣本,壞樣本,產生隨機樣本的方式,隨機數(shù)表法 ——當總體單位數(shù)較大時,采用抽簽法顯然費時費力,這時可采用隨機數(shù)字表來抽取樣本。隨機數(shù)字表是一連串的0、1、2、……到9這10個數(shù)字排列形成的,在表中,任一位置的出現(xiàn)0-9中某一數(shù)字的概率相同,且不同位置之間是相互獨立的。這種方法同樣要事先對總體單位進行編號,然后利用隨機數(shù)表抽取樣本。,步驟1:公司將50家客戶進行編碼。50家客戶需要2位數(shù),所以編碼為:01,02,…,49,50。 步驟2:利用隨機數(shù)數(shù)表選取代碼,抽取樣本。假如下列數(shù)字為隨機數(shù)表的部分數(shù)字; 19223 90534 05756 28713 96409 12531 42544 82853 73676 47150 99400 01927 27754 42648 82425 36290 根據(jù)上表數(shù)據(jù),其中頭10個“2位數(shù)字組”為: 19 92 22 23 39 90 05 53 34 40 其中該公司的代碼只用了01-50,所以我們只選擇50以內的2位數(shù)。這樣得到的頭5個在01-50之間的代碼,就是代表我們抽選的樣本,他們是代碼為19,22,23,39,05所代表的客戶。,某公司共有客戶50家,為了采取有效措施增加客戶滿意度,公司決定從客戶中選擇5家進行訪談。為了避免偏差,公司采用隨機數(shù)表進行簡單隨機抽樣。,,,總體 N,樣本 n,等額,等比例,,,,,,,,,,,···,···,2、分層抽樣,抽樣方法:將總體全部單位按照某個標志分成若干組(層),在從每一組中抽取樣本 特點:抽樣誤差小于簡單隨機抽樣,抽樣推但的效果好,分層抽樣方法有兩個優(yōu)點。 其一是在不增加樣本的規(guī)模的前提下降低抽樣誤差,提高抽樣的精度; 其二就是非常便于了解總體內不同類型和層次的情況。,從一個企業(yè)抽取職工樣本。 – 先將職工劃分成工人、干部、技術人員三種類型 – 分別編制它們的樣本框 – 分別用簡單隨機抽樣或其他抽樣方法在各類型中抽取子樣本 – 將三個子樣本合在一起,就構成了該企業(yè)的全體職工的樣本,分層的標準問題,一般依據(jù): A.主要變量或相關的變量; B.突出變量:層內強同質性、層間強異質性; C.已有明顯層次區(qū)分的變量;,,研究居民的消費狀況和消費傾向, 則以家庭人均收入為分層標準 研究不同職業(yè)的人員對社會經濟改革的看法,則以人們的職業(yè)為分層標準。,3、等距抽樣,抽樣方法:將總體各單位按某一標志順序排列,然后按照一定的間隔抽取樣本單位。 特點:容易實施,但應避免抽樣間隔和現(xiàn)象本身的周期性相同。,(總體單位按某一標志排序),,,,,,,,,······,·,·,·,·,·,·,將總體中的每一個元素都按順序編上號碼:1—10000; 計算出抽樣間距K:已知總體規(guī)模N=10000,樣本規(guī)模n=100,那么抽樣間距K=N/n=10000/100=100; 在最前面的100戶中,采用簡單隨機抽樣的方法抽取1戶,記下這戶的編號。假設所抽取的這戶的編號是57; 在抽樣框中,自57開始,每隔100就抽1戶,即所抽取的家庭編號分別為:57,157,257,357,…,9957; 將這100戶組合起來,就構成了本次調查總體的一個樣本。,4、整群抽樣,抽樣方法:將總體劃分為若干群,然后隨機抽取某一或某些群構成樣本,對抽中群的所有單位進行全面調查,未抽中群一律不查。 特點:抽取單位集中,容易實施,但樣本代表性可能較差。,總體群數(shù)R=16 樣本群數(shù)r=4 樣本容量,,,,,,,,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,,,,,,L,H,P,D,優(yōu)點在于它不僅可以簡化抽樣的過程,而且更重要的是可以降低調查的費用。 缺點就是其樣本的分布面不大、樣本對總體的代表性相對較差。,群體可以是家庭、班級、居委會。,例如:研究某市10萬戶家庭生活狀況,抽取1000戶。若要獲得全市家庭的抽樣框幾乎是不可能的,因此無法進行簡單隨機抽樣和系統(tǒng)抽樣。 整群抽樣則輕而易舉。 假設全市有200個居委會,每個居委會有500戶左右家庭。我們只要有這200個居委會的名單,按上述兩種方法之一,抽取兩個居委會,然后該兩個居委會的所有家庭構成樣本。,5、多段抽樣(多級抽樣或分段抽樣 ),在社會研究中,當總體規(guī)模特別大時,或者總體范圍分布非常廣時,一般都要采用多段抽樣。 具體做法:先從總體中抽幾個大組,再在抽中的幾個大組中抽取幾個小組,這樣一層層抽下來,直到抽到基本的抽樣元素為止。,研究某市青年工人情況: 先以全市的企業(yè)名單為抽樣框,抽取一部分企業(yè),然后在抽中的企業(yè)里,以車間為抽樣單位,抽取若干個車間,最后再在抽中的車間里抽取青年工人。在每個階段都要采用簡單隨機抽樣或系統(tǒng)抽樣或分層抽樣的方法進行。,企業(yè),車間,工人,,如何確定各階段單位數(shù)目呢? 比如:某市3萬名教師,分布在10個區(qū)的300所學校中,現(xiàn)要抽取1200名教師。,,主要考慮因素: – 各個抽樣階段中的子總體同質性程度。 如果不同區(qū)的學校相互之間差異大,則加大第一階段的規(guī)模,方案1和3好; 如果在每一區(qū)不同學校差異較大,則加大第二階段規(guī)模,方案2和3好; 如果在每所學校內教師之間差異較大,則加大第三階段規(guī)模,方案1和2好。 – 要考慮研究者所擁有的人力和財力。 方案1和3涉及10個區(qū),調查員要奔波的范圍大,調查員的人數(shù)要求多,所以方案不好。 ? 但多段抽樣的主要缺點:精度低,即信度低。因此為了提高精度,盡可能加大前面階段的規(guī)模,則方案3好。,6、PPS抽樣——概率與元素的規(guī)模大小成比例的抽樣(Sampling with Probability Proportional to Size),假設從某大學10個不同規(guī)模院系(共10000名大學生)中,抽取200名大學生進行調查。 方案:先抽取5個院系,從每個抽中院系中抽取40人共200人構成調查樣本。 問題:第一階段沒問題;第二階段從每個抽中院系中抽取大學生時有問題。,,在多段抽樣中,其實隱含了一個假設:每一階段抽樣時,其元素的規(guī)模是相同的。因此每一階段的抽樣是等概率的。 ? 比如:第一階段抽取學院,隱含了每個學院的規(guī)模是相同的。 ? 但現(xiàn)實是,各階段各組的規(guī)模不等,因此最終每個同學被抽中的概率是不等的。,,全市有100000戶居民,分屬200個居委會??偣渤槿?000戶居民作為樣本,第一階段抽取20個居委會,第二階段從居委會中抽取50戶。 其中甲居委會規(guī)模大,有800戶居民,乙居委會規(guī)模小200戶。 如果第一階段它們都被抽中,第二階段各抽取50戶,則甲居委會中居民被抽中的概率為:(20/200)*(50/800)=1/160,而乙居委會中的居民被抽中的概率為: (20/200)*(50/200)=1/40。乙居委會中居民被抽中的概率是甲居委會中居民的四倍。,,PPS抽樣:不等概率抽樣,以階段性的不等概率換取最終的、總體的等概率。 具體做法(以兩階段抽樣為例): – 在第一階段,每個群按照其規(guī)模被給予大小不等的抽取概率。 – 在第二階段,從每個抽中的群中抽取相同數(shù)目的元素。,,甲居委會:20*(800/100000)*(50/800)=1/100。 乙居委會:20*(200/100000)*(50/200)=1/100。 所以,兩個居委會的居民被抽中的概率相等,PPS抽樣方法抽取第一階段樣本舉例,若第二階段從每個抽中的學院抽10名學生,則化工、土木要抽10*2個學生。,7、戶內抽樣(Sampling within Household),在調查研究中,不僅需要抽出家庭戶的樣本,同時還要進行戶內抽樣——從所抽中的每戶家庭中抽取一個成年人,以構成訪談對象的樣本。 Kish選擇法、二維隨機數(shù)表法,研究者首選將調查表分為(編號為)A、B1、B2、C、D、E1、E2、F,每種表的數(shù)目分別占調查表總數(shù)的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。 調查員首先要對每戶家庭中成年人進行排序和編號,排序的方法是男性在前,女性在后;年紀大的在前,年紀小的在后。然后根據(jù)調查表上的編號,選用“選擇表”,確定最后人選。,(1)KISH法,如:某家庭18歲以上成員4人,祖母、父親、母親、兒子。 – 排序結果父親、兒子、祖母、母親;,(2)二維隨機數(shù)表法,首先將戶內所有符合調查條件的成員編號排序,問卷編號為奇數(shù)的按先男后女(問卷編號為偶數(shù)的按先女后男)、同性別的按年齡從大到小的順序填入表中; 然后將表中最后一個成員所在的行(其序號數(shù)即為戶中符合條件的成員人數(shù))與事先在表中隨機確定的列(被選好的數(shù)字就是這份問卷的隨機號)交叉的數(shù)字圈出。這個數(shù)字就是所選取的調查對象的序號。,假設問卷編號為111,該份問卷的隨機號是8;所調查家庭18~69歲成員有奶奶(69)、爸爸(48)、媽媽(46)、兒子(20)共四人。 則按照二維隨機數(shù)表法,首先按照先男后女、先大后小的順序將家庭成員編號;最后家庭成員所在的行與(隨機號)8列的交叉點,就是我們應該調查的對象:編號為④的媽媽。,④,,,六、非概率抽樣方法,不是按照概率原則,而是根據(jù)人們的主觀經驗或其他條件來抽取樣本。 樣本的代表性成問題,誤差無法估計。 正式調查中很少使用非概率抽樣,常常是在探索性研究中采用。,主要的非概率抽樣方法:,1、偶遇抽樣 2、判斷抽樣 3、定額抽樣 4、雪球抽樣,1、偶遇抽樣(Accidental or Convenience Sampling),又稱為方便抽樣或自然抽樣。 指研究者根據(jù)現(xiàn)實情況,以自己方便的形式抽取偶然遇到的人作為調查對象;或者僅僅選擇那些離得最近的、最容易找到的人作為調查對象。 偶遇抽樣與簡單隨機抽樣的區(qū)別。,2、判斷抽樣(Judgmental or Purposive Sampling),又稱立意抽樣。它是調查者根據(jù)研究的目標和自己主觀的分析來選擇和確定調查對象的方法。 典型抽樣較具有代表性。 總體規(guī)模小、調查所涉及的范圍窄或調查時間、人力等條件有限而難以進行大規(guī)模抽樣的情況。,3、定額抽樣(Quota Sampling),又稱為配額抽樣。 研究者盡可能找出各種因素來對總體分層,并找出具有各種不同特征的成員所占的比例,然后去選擇調查對象。,比如:某高校4000名學生,男生60%,文科50%,一、二、三、四年級40%、30%、20%和10%。以性別、年級、專業(yè)三個變量實施定額抽樣,樣本規(guī)模為100,4、雪球抽樣(Snowball Sampling),當我們無法了解總體情況時,可以從少數(shù)成員入手,對他們進行調查,再去找他們知道的人。 所調查的對象具有較高的同質性。,七、樣本規(guī)模與抽樣誤差,1、樣本規(guī)模(Sample Size) 又稱為樣本容量,它指的是樣本中所含個案的多少。 確定樣本規(guī)模也是每一項具體的社會調查所必須解決的問題之一。 統(tǒng)計學中以30為界;社會調查中以100為界,簡單隨機抽樣中推論總體平均數(shù)的樣本規(guī)模計算公式為: n=(t2×σ2)/e2 簡單隨機抽樣中推論總體成數(shù)(百分比)的樣本規(guī)模計算公式為: n=[t2×p(1-p)]/e2 t為置信度所對應臨界值;σ為總體的標準差; e為抽樣極限誤差; P為總體的成數(shù)或百分比。,利用前人所做的關于同一總體的普查或抽樣調查資料,來計算或估計總體方差,由此得出推論總體均值的樣本規(guī)模。 在計算推論總體成數(shù)的樣本規(guī)模時,采取比較保險的辦法,取p=0.5,使n達到最大值。 n=t2/4e2,在95%置信度(t=1.96)條件下的最小樣本規(guī)模。(表中為計算方便,取t=2),2、影響樣本規(guī)模確定的因素:,總體的規(guī)模。 在一定程度上,總體越大時,則樣本也要越大。,,,總體規(guī)模,樣本規(guī)模,,,,,,,,,10000,20000,30000,40000,200,400,600,,在置信度和抽樣誤差不變的條件下,樣本規(guī)模是隨著總體規(guī)模的擴大而不斷縮小的。 在置信度為95%、置信區(qū)間±3%、總體異質性較大的情況下,總體規(guī)模與樣本規(guī)模的關系見表:,,注:當總體規(guī)模大到一定程度(例如100萬)時,樣本規(guī)模的增加對抽樣誤差的影響就微乎其微了。由此:樣本規(guī)模越大越好只是誤解。,一般情況,小型調查100-300 中型調查300-1000 大型調查1000-3000,上海外來人口(農民工)與本市居民抽樣調查說明,調查目的:為了把握上海外來人口現(xiàn)狀,搞好對外來人口的服務和管理工作,受上海市農委委托并資助,復旦大學人口研究所于2006年9月對上海外來人口和本市居民進行了抽樣調查。 對外來人口和本市居民進行同步調查 問卷涉及61個問題,,調查地區(qū)與樣本規(guī)模 由于外來人口主要分布在郊區(qū),本次調查地區(qū)確定為上海郊區(qū)10區(qū)縣 樣本規(guī)模為1000 抽樣方法:多階段、分層、簡單隨機 1)分層確定調查樣本:一層在企業(yè)工作,穩(wěn)定;一層在勞務市場尋找工作流動性強,各500人; 2)第一階段——穩(wěn)定:等額分批在10個區(qū)縣;流動:兩大主要勞務市場各200,每個區(qū)縣10個; 3)第二階段——穩(wěn)定:各區(qū)雇傭外來人口較多的企業(yè)匯總排隊,隨機抽取10家,再每家隨機抽取5人調查;流動:隨機抽樣,1 外來人口調查,,調查地區(qū)與樣本規(guī)模 與外來人口對應,在郊區(qū)10區(qū)縣調查600人,在市級黨政機關、群眾組織的管理人員和高等院校及科研院所的研究人員中調查50人 樣本規(guī)模為650 抽樣方法:多階段、等額分層、簡單隨機 1)各區(qū)縣隨機抽取3個街道或鄉(xiāng)鎮(zhèn); 2)每個街道或鄉(xiāng)鎮(zhèn)抽取2個居委會; 3)每個居委會隨機抽取10名成人 4)50人分配:黨政機關15;群眾團體15;高校19;科研院所10.隨機抽取。,2 本市居民調查,思考:這里的隨機抽取如何進行保證?,
收藏