心理測量學教案(鄭日昌版).doc
《心理測量學教案(鄭日昌版).doc》由會員分享,可在線閱讀,更多相關(guān)《心理測量學教案(鄭日昌版).doc(67頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第一章 心理測驗總論 [教學目的與要求] (1)識記并了解心理測驗的發(fā)展歷史 (2)掌握心理測驗的性質(zhì) (3)了解心理測驗的種類 [教學重點與難點]心理測驗的性質(zhì) [教學時數(shù)]2學時 第一節(jié) 心理測驗的歷史 一、中國古代的心理測驗思想 1、孔子:把人分為中人、中人以上、中人以下三個類別,“中人以上,可以語上也;中人以下,不可以語上也”。(相當于現(xiàn)代測量學中的命名量表和次序量表) 2、孟子:“權(quán),然后知輕重;度,然后知長短。物皆然,心為甚?!泵鞔_指出了心理能力和心理特征與物理現(xiàn)象一樣,具有可測量的特性。 3、(南朝)劉勰:世界上最早的“分心測驗”,認為一心不能二用。 4、(南北朝)顏之推:周歲試兒,其是1925年格塞爾嬰兒發(fā)展量表的前導。 5、“七巧板”又稱益智圖、唐圖(Tangram),為當代多數(shù)智力測驗和創(chuàng)造力測驗所使用。 6、隋煬帝科舉制度的開端,被認為是世界上最早的心理測驗的實踐。當時的考試方法:貼經(jīng)和對偶,類似于現(xiàn)代西方言語測驗中常見的填字和類比。 7、、中國古代心理測驗的思想,包含著典型的東方文化特點: A、他們都是描述性的,沒有定量的標準; B、往往將心理特點與道德觀念聯(lián)系起來(局限性) 二、科學心理測驗產(chǎn)生的原因 (一)對智力落后著分類和訓練的早期關(guān)注 1、心理測驗產(chǎn)生的最初原因:對智力落后和精神病人治療的需要。 2、法國醫(yī)生埃斯克羅:1838年出版了兩卷本著作,第一次明確地對智力落后與精神病人作出了區(qū)分,他認為精神病是以情緒障礙為標志。(發(fā)現(xiàn)一個人的語言能力是他智力水平的最可靠的指標) 3、法國醫(yī)生塞國恩(E.Sequin):訓練智力落后者的先驅(qū)。1837年,他創(chuàng)建了第一座教育智力落后兒童的學校,1846年出版了《白癡:用生理方法進行診斷和治療》。其首創(chuàng)方法感官訓練(sense-training)、肌肉訓練(muscle-training)至今仍在全世界范圍內(nèi)的智力落后兒童教育機構(gòu)。其Sequin Form Board拼圖板被心理測驗的非語言測驗所采用,其操作方法是要求受測者盡快地將不同形狀的圖片嵌入適當?shù)陌疾蹆?nèi)。 4、法國心理學家比奈開始致力于推動建立鑒別不能適應正常學校學習但是可教育兒童的方法,鑒別出后安排接受一系列特殊教育課程。比奈與“兒童心理學研究會”的同事們努力推動法國公共教育部開展一項促進智能不足兒童學習能力計劃,并成立了專門的研究小組,這個小組的成立是心理測驗發(fā)展史上一個極為重大的歷史事件。 (二)實驗心理學的發(fā)展 1、馮特:1879年他在德國萊比錫大學建立了心理學史上第一個實驗室,引發(fā)了個別差異的研究。 2、實驗心理學的誕生和發(fā)展,給心理測驗帶來了另一個副產(chǎn)品:嚴格的標準化程序。 三、心理測驗的發(fā)展(金瑜P7-9) 1、高爾頓:英國生物學家和心理學家高爾頓是倡導測驗運動的主要人物。他設(shè)計了測量差異的方法,1884年,他在倫敦國際博覽會中專門設(shè)立了個“人體測量學實驗室”六年中積累了9337人的資料,雖不是正式的心理測驗,但可視為心理測驗的開端。他還是評定量表和問卷法應用的先驅(qū),他的另一個重要貢獻是為心理測驗奠定了統(tǒng)計學基礎(chǔ),并第一個提出了相關(guān)的概念。(皮爾遜相關(guān)) 2、卡特爾:美國心理學家,從師馮特。1890年,卡特爾在《心理》雜志上發(fā)表“心理測驗與測量”,這是心理測驗第一次出現(xiàn)于心理學文獻中。 3、世界上第一個智力測驗:比內(nèi)與助手西蒙在《心理學年報》上發(fā)表了一篇文章,題為:“診斷異常兒童智力的新方法”,是世界上第一個正式的心理測驗。比內(nèi)-西蒙量表自1905年發(fā)表后,在1908年修訂,1908年量表題目總數(shù)達到了59個,所有測題按年齡分組,組別從3-13歲,測驗的結(jié)果用“智力水平”表示,但其通常翻譯和提法為“智力年齡”。后又經(jīng)1911年修訂一次。 4、心理測驗的蓬勃發(fā)展: (1)操作測驗的發(fā)展:理論上的缺陷和實際上的需要,所以就有操作測驗的問世和發(fā)展。 (2)團體智力測驗的發(fā)展:這是心理測驗方式的極大進步,也擴大了測驗的應用范圍。 (3)能力傾向測驗的發(fā)展:韋克斯勒所編的學前兒童、學齡兒童、成人智力量表。 (4)人格測驗的發(fā)展:心理測驗的另一領(lǐng)域是涉及情感或行為等非智力方面的人格評估,通常包括對性格、氣質(zhì)、情緒狀態(tài)、人際關(guān)系、動機、興趣和態(tài)度的測量。 (5)現(xiàn)代西方心理測驗的發(fā)展,受到計算機的產(chǎn)生和發(fā)展,以及統(tǒng)計方法的改進的極大影響。 四、現(xiàn)代心理測驗在中國的發(fā)展:以1949年中華人民共和國成立為分期 (一)中華人民共和國成立前心理測驗的發(fā)展 1、1916年,樊炳清先生首先介紹了比內(nèi)-西蒙智力量表; 2、 1920年,廖世承和陳鶴琴在南京高等師范學校開設(shè)心理測驗課,并用心理測驗試測投考該校的學生,這便是中國正式開始的科學心理測驗; 3、1921年,他倆正式出版《心理測驗法》一書,成為中國最早的心理測驗專著; 4、1922年,中華教育改進社聘請美國教育心理測驗專家麥考爾來華講學,并主持編制心理測驗事宜; 5、 1924年,陸志韋發(fā)表了《訂正比內(nèi)西蒙智力測驗說明書》,30年代又與吳天敏再次做了修訂; 6、 1931年,由艾偉、陸志韋、陳鶴琴、蕭孝嶸等倡議,組織并成立了中國測驗學會; 7、1932年,《測驗》雜志創(chuàng)刊。 (二)中華人民共和國成立后心理測驗的發(fā)展 1、 1979年,林傳鼎、張厚粲等以國外資料為參考,編制了少年兒童學習能力測驗; 2、 1989年,成立中國心理學會心理測驗專業(yè)委員會,標志著中國心理測驗已進入了一個新的高速發(fā)展時期。 第二節(jié) 心理測驗的性質(zhì) 一、測量的基本問題 (一)測量的定義 1、定義:測量就是根據(jù)一定的法則,用數(shù)字對事物加以確定。 a一定的法則:是指測量行為發(fā)生時采用的規(guī)則或方法。 b事物:是指我們要測量的感興趣的事物的屬性或特征。 c數(shù)字:可以表示數(shù)量,也可以不表示數(shù)量。 d通常人們所說的測量,指的是給事物確定出一種數(shù)量化的價值。 2、測量的要素:一是參照點,二是單位 a參照點:一種是絕對的零點;一種是相對參照點,是認為確定的。最理想的參照點是絕對零點,心理測驗中所用的參照點都是相對的,因而測量的結(jié)果常常不能以“倍數(shù)”的方式解釋。 b理想的單位的條件:有明確的意義和有相等的價值。 3、測量的量表:量表就是有參照點和單位的連續(xù)體。斯蒂文斯將量表由低到高依次為: a命名量表:是水平最低的一種測量量表,用數(shù)字來代替事物或?qū)κ挛镞M行分類; b順序量表:不僅表明類別,還能表明不通類別的大小等級,或具有某種屬性的程度; c等距量表:不僅有大小關(guān)系,而且又有相等的單位,因此可以加減運算,但沒有絕對零點,所以不能做乘除運算; d比例量表:是最精確的測量,既有相等的單位,又有絕對零點。 二、心理測量的基本概念 1、定義:是根據(jù)一定的法則用數(shù)字對人的行為加以確定,即依據(jù)一定的心理學理論,使用一定的操作程序,給人的行為和心理屬性確定出一種數(shù)量化的價值。 2、特點: (1)心理測量的間接性 (2)心理測量的相對性 3、心理測量的水平 心理測量,不論是對智力,還是對能力傾向或人格的測量,都只具有等級量表的特征。測驗分數(shù)一般只能顯示個體智力、能力、人格上的等級位次,而沒有一個相等的單位,故它不是一個等距量表。但由于多數(shù)心理特征具有常態(tài)分布的特征,且沒有絕對零點,所以我們也可以把測量后直接得到的原始分數(shù)轉(zhuǎn)化為常態(tài)分布下的標準分數(shù),把這些量表當作等距量表來處理。 三、心理測驗的基本問題 (一)心理測驗和心理測量的的聯(lián)系和區(qū)別 心理測驗是了解人心理的工具,主要在名詞上使用。而心理測量則是運用測驗為工具,達到了解人類心理的實踐活動,它主要是在“動詞”意義上使用。因此,相對而言,心理測量的意義范圍更廣一些。能被應用于實際心理測量的心理測驗才是真正有效的測驗工具才是真正有效的測驗工具。 (二)心理測驗的定義 心理測驗就是通過觀察人的少數(shù)有代表性行為,對于貫穿在人的全部行為活動中心理特點作出推論和數(shù)量化分析的一種科學手段。 心理測驗即是依據(jù)一定的心理學理論,使用一定的操作程序,給人的行為確定出一種數(shù)量化的價值。 (三)心理測驗的要素 1、行為樣本:對少數(shù)經(jīng)過慎重選擇的樣本進行觀察,來間接推知被試的心理特征。 2、標準化:是指測驗編制、實施、記分以及測驗分數(shù)解釋程序的一致性,標準化的量一個重要步驟是建立有代表性的常模。 3、客觀性:在不受被試主觀判斷支配的范圍內(nèi),測驗的實施、評分、解釋應是客觀的,要盡量減少主試和被試的隨意程度??陀^性另一個主要方面是測題或整個測驗的難度水平的確定必須客觀。神經(jīng)心理測驗客觀性最高,智力測驗較高,人格問卷次之,投射測驗的客觀性較低。 (四)心理測驗的性質(zhì) 1、心理測驗的間接性; 2、心理測驗的相對性; 3、心理測驗的客觀性:心理測驗標準化包括: ①測驗用的項目或作業(yè)、實測說明、實測者的言語態(tài)度及實測時的物理環(huán)境等,均經(jīng)過標準化。 ②評分記分的原則和手續(xù)經(jīng)過了標準化,對反應的量化是客觀的。 ③分數(shù)轉(zhuǎn)換和解釋經(jīng)過了標準化,對結(jié)果的推論是客觀的。 第三節(jié) 心理測驗的種類 一、按測驗功能分類: 1、能力測驗:智力測驗:比內(nèi)-西蒙智力測驗、韋克斯勒兒童和成人智力量表。特殊能力測驗:如音樂、繪畫等 2、成就測驗:用于測量個人(團體)經(jīng)過某種正式教育或訓練之后對知識和技能掌握的程度。學科測驗 3、人格測驗:用于測量性格、氣質(zhì)、興趣、態(tài)度、品德、情緒、動機、信念、價值觀等方面的個性心理特征,即個性中除能力以外的部分。明尼蘇達多項人格調(diào)查表(MMPI)、16種人格因素問卷(16PF)、艾森克人格問卷(EPQ)、羅夏墨跡測驗、主題統(tǒng)覺測驗(TAT)。 二、按測驗對象分類 1、個別測驗:優(yōu)點:主試可以仔細觀察被試的言語情緒,并有充分的機會與被試合作,所以其結(jié)果正確可靠。缺點:時間不經(jīng)濟,不能在短時間呢您收集到大量的資料。 2、團體測驗:優(yōu)點:時間經(jīng)濟,主試不必接受嚴格的專業(yè)訓練即可擔任。缺點:主試對被試的行為不能作切實的控制,所得結(jié)果不及個別測驗正確可靠。 三、按測驗方式分類: 1、紙筆測驗:言語作為刺激。MMPI、EPQ、16PF及韋克斯勒兒童和成人智力量表中的言語量表部分。 優(yōu)點:實施方便,團體測驗多用,有肢體殘疾而無言語困難的病人只能用此。 缺點:受被試文化程度的影響。 2、操作測驗:也稱非文字測驗。羅夏墨跡測驗、主題統(tǒng)覺測驗、瑞文測驗及韋克斯勒兒童和成人智力量表中的操作量表部分。 優(yōu)點:不受文化因素的限制。 3、口頭測驗 4、電腦測驗 四、按測驗目的分類: 1、描述性測驗:目的在于對個人或團體的能力、性格、興趣、知識水平等進行描述。 2、診斷性測驗:目的在于對個人或團體的某種行為問題進行診斷。 3、預示性測驗:目的在于通過測驗分數(shù)預示一個人將來的表現(xiàn)和所能達到的水平。 五、按測驗難度分類 1、速度測驗 2、難度測驗 六、按測驗要求分類 1、最高作為測驗 2、典型作為測驗 七、按測驗性質(zhì)分類 1、構(gòu)造性測驗:在此種測驗中,所呈現(xiàn)的刺激和被試的任務是明確的。 2、投射性測驗:在此種測驗中,刺激沒有明確意義,問題模糊,對被試的反應也沒有明確規(guī)定。 八、按測驗解釋分類 1、常模參照測驗 2、標準參照測驗 九、按測驗應用分類 1、教育測驗 2、職業(yè)測驗 3、臨床測驗 第四節(jié) 心理測驗的功能與應用 一、心理測驗的功能:最基本的功能是測量個體差異或行為反應。 (一)從實際應用角度看: ①人才選拔; ②崗位安置 ③臨床診斷; ④教育評價; ⑤心理咨詢和治療 (二)從理論研究角度看: ①搜集材料:心理測驗是收集個體差異資料最快捷的辦法。 ②提出和驗證假設(shè) ③實驗分組 二、測驗的應用 (一)錯誤的測驗觀 1、測驗萬能論 2、測驗無用論: ①某些人格測驗侵犯了個人隱私; ②測驗為宿命論和種族歧視提供了心理學依據(jù)。 3、心理測驗即智力測驗 (二)正確的測驗觀 1、重要的心理學研究方法和決策的輔助工具:心理測驗法的出現(xiàn)是心理科學發(fā)展史上的一大進步,是心理學研究中不可缺少的研究方法之一。 2、作為研究方法和測量工具尚不完善:過分夸大心理測驗的科學性和準確性是不對的。 3、科學地看待心理測驗,防止亂用測驗: ①測驗使用者必須具備一定的資格; ②慎重選擇測驗量表; ③與被試建立良好的協(xié)調(diào)關(guān)系; ④正確解釋測驗結(jié)果; ⑤注意測驗的保密。 第二章 心理測驗的編制 [教學目的與要求] (1)掌握心理測驗編制的一般程序 (2)心理測驗的難度與區(qū)分度的定義及 [教學重點與難點]心理測驗的項目分析 [教學時數(shù)]4學時 第一節(jié) 編制測驗的一般程序 一、確定測驗目的 (一)心理測驗的對象:首先要明確測量的對象,也就是測驗編成后要用于哪些團體。 A年齡 B教育水平:在編制兒童測驗時,要同時考慮教育水平和年齡的影響。在承認測驗中,一般只考慮教育水平的影響。 C文化背景 (二)測驗的目標:是指編制的測驗是測什么的,即用來測量什么樣的心理變量或行為特征。目標分析以測驗不同而異,一般分為三種情況: A工作分析:主要任務是對所預測的行為活動作具體分析,我們稱之為任務分析或工作分析。 B對特定概念下定義:如果測驗是為了測量某種特殊的心理品質(zhì)或特點,那么測驗編制者就必須給所要測量的心理或行為特質(zhì)下定義,然后必須發(fā)現(xiàn)該特質(zhì)所包含的維量將通過什么行為表現(xiàn)出來或怎樣進行測量。 C確定測驗的具體內(nèi)容:如果測驗是描述性的顯示測驗,它的目標分析的主要任務則是確定顯示的內(nèi)容和技能。 (三)測驗用途:所編出的測驗是要對被試做描述,還是做診斷,抑或是選拔和預示。 二、擬定編制計劃 編制計劃,實際上是對測驗的總體設(shè)計,指出測驗的內(nèi)容結(jié)構(gòu)和項目形式等,以及對每個內(nèi)容、目標的相對重視程度。 根據(jù)布魯姆最早提出教育目標的分類問題。他把學習的心理活動分成認知、精神運動和情感三個領(lǐng)域,又把認知領(lǐng)域具體分為知識、理解、應用、分析和綜合、評價。 三、設(shè)計測試項目 (一)搜集有關(guān)資料 1、資料要豐富 2、資料要有普遍性 (二)選擇項目形式 1、測驗的目的和材料性質(zhì) 2、接受測驗的團體的特點 3、各種實際因素:時間,人數(shù)、經(jīng)費等 (三)編寫和修訂項目 1、項目的范圍要與測驗計劃相一致 2、項目的數(shù)量要比最后所需的數(shù)目多一倍至幾倍,以備篩選和編制復本 3、項目的難度必須符合測驗目的需要 4、項目的說明必須清楚 四、項目的試測和分析 (一)試測 1、預測對象應取自將來正式測驗準備應用的群體 2、預測的實施過程與情境應力求與將來正式測試時的情況相近似 3、預測的時限可稍寬一些,最好使每個被試都能將項目做完,以搜集較充分的反應資料,使統(tǒng)計分析的結(jié)果更為可靠。 4、在預測過程中應隨時記錄被試的反應情形,如在不同時限內(nèi)一般被試所完成的題數(shù)、題意不清之處及其他有關(guān)問題。 (二)項目分析 包括質(zhì)的分析和量的分析 質(zhì)的分析是從內(nèi)容取樣的適當性、題目的思想性以及表達是否清楚等方面加以分析。 量的分析是對預測結(jié)果進行統(tǒng)計分析,確定項目的難度、區(qū)分度、備選答案的適宜性等。 五、合成測驗 1、項目的選擇:要考慮測驗的目的、性質(zhì)與功能,區(qū)分度,難度 2、項目的編排:由易到難,有并列直進式,混合螺旋式 A一般原則:a測題的難度排列易逐步上升;b盡可能將同類型的測題組合在一起;c各種類型測題本身的特點; B常見試題排列方式:a并列直進式b混合螺旋式 3、編造復本 測驗的各份復本必須等值,所謂等值需符合下列幾個條件: (1)各份測驗測量的是同一種心理特質(zhì); (2)各份測驗包含相同的內(nèi)容范圍,但題目不應有重復; (3)各份測驗題型相同,題目數(shù)量相等,并且有大體相同的難度分布。 六、測驗使用的標準化 1、施測過程標準化 2、評分計分標準化 3、分數(shù)解釋標準化 七、搜集信度、效度資料 (一)信度 指的是測量的可靠性或一致性。 (二)效度 指的是測量的有效性或正確性。 A搜集有關(guān)資料:題目的有關(guān)來源 a已出版的標準測驗 b理論和專家的經(jīng)驗 c臨床觀察和記錄 B命題的原則及編寫要領(lǐng) a命題的原則(理解): ○1內(nèi)容方面:符合測驗的目的,取樣有代表性,相互獨立,互不牽掛; ○2文字方面:準確,簡明扼要,少使用雙重否定句; ○3理解方面:不要超出受測團體的知識水平和理解能力,不要有爭議誤解; ○4社會敏感性方面:應盡量避開社會敏感性問題,如涉及社會禁忌或個人隱私的題目不應使用。 菲利普對于涉及社會敏感性問題,怎樣鼓勵被試作出真實回答的策略: ◇1命題時假定被試具有某種行為,使他不得不在確實沒有該行為時才否定,可避免否定過多的傾向。 ◇2命題時假定規(guī)范不一致。 ◇3指出該行為是常見的,雖然是違規(guī)的。 b測題的編制要領(lǐng):根據(jù)被試的要求不同分為 ○1提供型:要求被試給出正確答案。 ○2選擇題:要求被試在有限幾個答案中選擇正確的答案。由題干和選項構(gòu)成。 題干:呈現(xiàn)一個問題的情境,一般由直接問句或不完全的陳述句構(gòu)成。 選項:問題的多種可能答案,常常是包含一個正確答案,若干(一般是1~5個)錯誤答案,其中的錯誤的答案叫做“誘答”。 八、編寫測驗手冊 1、本測驗的目的和功用 2、測驗的理論背景以及選擇項目的根據(jù) 3、測驗的實施方法、時限及注意事項 4、測驗的標準答案和記分方法 5、常模表或其他有助于分數(shù)轉(zhuǎn)化與解釋的資料 6、測驗的信度、效度資料,包括信度系數(shù)、效度系數(shù)以及這些數(shù)據(jù)是在什么情境下得到的 第二節(jié) 測驗的項目分析 一、項目的難度分析 (一)定義: 1、難度:是指項目的難易程度。P在能力測驗中通常需要一個反映難度水平的指標,在非能力測驗中,類似的指標是“通俗性”,即取自相同總體的樣本中,能在答案方向上回答該題的的人數(shù)。 2、難度的指標: 以通過率表示難度時,通過人數(shù)越多,即P值越大,難度就越低;P值越小,難度越高。 因為P值大小與難度高低成反比,有人將其稱作易度。 (二)難度的計算 1、原始定義法 (1)客觀試題(二分法記分): R:答對該題的人數(shù);N:參加測驗的總?cè)藬?shù) 由于選擇題允許猜測,所以通過率可能因機遇作用而變大。備選答案的數(shù)目越少,機遇的作用越大,越不能真正反映測驗的難度。為此,吉爾福特提出了一個P值校正公式。 CP:校正后的難度值;P:實際得到的通過率;K:選項數(shù)目 例題:假定某題有75%的被試通過,若該題有5個備選答案,則校正后的通過率為: 當有4個備選答案時,CP=0.67;有3個,CP=0.63;有2個,CP=0.54) b非二分記分:例題某一數(shù)學能力測驗題的滿分為20分,全體被試在該題上的平均分數(shù)為15分,則該題的難度為: P=15/20=0.75 例:一個題目的難度值為0.75,分別計算此題有四個選項、三個選項、兩個選項時大的難度值 (2)主觀題的平均數(shù)法 2、極端分組法 (1)客觀題的極端分組法 根據(jù)測驗分數(shù)按高低排序,用兩個極端組在某項目上的平均通過率表示項目的難度 PH、PL分別為高分組與低分組的通過率。 步驟: A、按測驗總分由高到低排序 B、從高分段向下選出全部試卷的27%作為高分組 C、從低分段向上選出全部試卷的27%作為低分組 D、按照上述公式計算項目難度值 例:100人參加某測驗,高分組與低分組各取27人,其中第一題高分組20人答對,低分組10人答對。這道題的難度系數(shù)是多少? (2)主觀題的極端分組法 步驟: A、按測驗總分由高到低排序 B、從高分段向下選出全部試卷的25%作為高分組 C、從低分段向上選出全部試卷的25%作為低分組 D、按照上述公式計算項目難度值 XH:高分組所得總分; XL:低分組所得總分;H:該題最高分;L:該題最低分;N:考生總?cè)藬?shù)的25% (三)難度對測驗的影響 1、難度對測驗分數(shù)分布的影響 (1)P值越小 →測驗項目越難→測驗分數(shù)集中在低分端→分數(shù)分布呈正偏態(tài)分布。 (2)P值越大→測驗項目越易→ 測驗分數(shù)集中在高分端→分數(shù)分布呈負偏態(tài)分布。 即:測驗項目過份容易或過份難,都會造成測驗分數(shù)偏離正態(tài)分布,而使測驗分數(shù)的離散程度變小。 2、難度對測驗鑒別力的影響 測驗的主要功效之一就是鑒別考生實際水平的高低。自欺欺人適量難度可以加大考生得分的差異,從而提高測驗的鑒別力。 P值越接近0.50,試題的鑒別能力就越高;相反,P值越接近1.00或0,試題的鑒別能力就越低。 3、難度與測驗目的的關(guān)系 項目難度應根據(jù)測驗目的來確定,不能認為測驗項目都必須保持值等于0.50最好。事實上,一方面,如果每個項目的難度都等于0.50,測驗項目之間存在高度相關(guān),會使測驗分數(shù)的分布呈雙峰狀態(tài),即有5%的人所有題目都答對,得滿分,另外5%的人全部答錯,得0分。 為此,難度水平的確定應根據(jù)測驗的目的,性質(zhì)及題目的形成。 (1)對于一般的常模、參照測驗而言,其目的在于測量個體差異,一般只要求測驗題目的平均難度為0.50,而個題難度可在0.50+0.20之間 。 (2)當測驗用與選拔或診斷時,題目的難度值應更多地接近錄取率。 (3)就選擇題而言,P值應大于概率水平。P值若等于概率,說明被試純粹憑猜測作答;P值若小于概率,說明題目很可能存在問題。 (4)整個測驗的難度水平取決于組成測驗的題目的難度。 (四)難度的轉(zhuǎn)換 難度指出的僅僅是題目的相對難度,不能客觀地指出題目難度之間差異大小 P向Z的轉(zhuǎn)換 n假定每個試題所要測量地潛在特質(zhì)或能力是呈正態(tài)分布的,可將P值作為正態(tài)曲線下的概率面積,以此轉(zhuǎn)換成Z分數(shù) 二、項目的區(qū)分度D (一)區(qū)分度的概念 區(qū)分度是測驗對被試實際水平的區(qū)分程度。是測驗項目分析的重要內(nèi)容 是作為評價項目質(zhì)量、篩選項目的主要指標與依據(jù) 通常用D表示,取值范圍為+1.00至-1.00 D越高時,試題的質(zhì)量越好,D值范圍在-1.00和+1.00之間,值越大,試題的區(qū)分能力越強。當D為正值時,說明試題是積極區(qū)分,即高分組通過率高,低分組通過率低。為D負值時,說明試題有消極區(qū)分,高組通過率低,低組通過率高。D為0時,說明試題無區(qū)分用 (二)區(qū)分度對測驗的影響 1.區(qū)分度與難度的關(guān)系 l試題的區(qū)分度與難度有密切關(guān)系。試題難度過大或過小,其區(qū)分度都較低。當難度值為1.00或0時,高分組和低分組或全部通過得滿分,或全部未通過得0分,這時區(qū)分度都為0分。這兩種情況,都表示試題沒有鑒別考生水平高低的能力。所以,調(diào)整試題難度是提高試題區(qū)分度的重要方法。右表可說明難度與區(qū)分度的關(guān)系。 A、假如樣本中通過某一項目的人數(shù)比率為1.00或0,說明高分組與低分組在通過率上不存在差異,因此D為0;假如項目的通過率為0.50,則可能是高分組的所有人都通過了,而低分組卻無人通過,這樣D的最大值可能達到1.00。 B、為了使整個測驗項目的潛在區(qū)分度最大,似乎應該使每個項目的難度處于0.50水平,但事實并非如此簡單。如果每一個項目的難度均處于0.50,由于項目難度相同,有可能大多趨向于有關(guān)的內(nèi)容或技能,結(jié)果造成項目同質(zhì)性提高。在極端情況下,有可能50%的被試全部通過各項目得滿分,另外50%的被試全部為0分,形成U形分布,這樣反而降低總分的區(qū)分能力。如果測驗的所有項目都是中等難度,只有項目的內(nèi)在相關(guān)為0時,整個測驗才能產(chǎn)生常態(tài)分布。考慮到一般測驗項目之間具有某種程度的相關(guān)難度的分布要廣一些,梯度多一些,是合乎需要的。 2.區(qū)分度與信度的關(guān)系 一個良好的測驗,信度必須要高。測驗的信度與項目的區(qū)分度有著密切的關(guān)系,事實上,由試題的區(qū)分度還可以估計測驗的信度。整個測驗中各試題的區(qū)分度值的平均數(shù)越高,測驗的信度就越高。值的平均數(shù)與信度的關(guān)系如右表。 (三)區(qū)分度計算方法 1、極端分組法 (1)客觀性試題區(qū)分度的計算公式: D=PH-PL 按測驗總分從高到低排序 確定測驗總分最高的27%的被試作為高分組,最低的27%的被試為低分組 分別求出這兩組被試通過試題的百分比 (2)主觀性試題區(qū)分度的計算公式: 說明: XH:高分組所得總分;XL:低分組所得總分;H:該題最高分;L:該題最低分;N:考生總?cè)藬?shù)的25% 步驟: 按測驗總分由高到低排序;分別確定測驗總分的25%、25%作為高低分組;列出試題分析表;將數(shù)據(jù)帶入以上公式加以計算 2、相關(guān)法 考慮中間數(shù)據(jù) 以項目分數(shù)與效標分數(shù)(效標分數(shù)不易得到時,以測驗總分代替)的相關(guān)作為項目區(qū)分度的指標 相關(guān)越高,區(qū)分能力越好 具體方法: ①點二列相關(guān):適用于一類變量為二分稱名變量,另一類變量為連續(xù)變量的成對變量的相關(guān)計算。 ②二列相關(guān):適用于兩個連續(xù)變量,但其中一個變量被人為分成兩類。 ③ 相關(guān):適用于兩個變量均為二分稱名變量。 積差相關(guān)法,點二列相關(guān),二列相關(guān),Φ相關(guān) (一) (二) (三) 提高區(qū)分度的方法 1、 使試題的難度適中,使整個考試難度適中 2、 著重考察復雜的學習結(jié)果 (四) 區(qū)分度的評價標準 以上標準僅作參考,不是絕對的。事實上,項目區(qū)分度的要求應根據(jù)測驗目的而定,若測驗目的在于選人,主要評判被試的個別差異,那么區(qū)分度要求高些;若測驗只是考察被試對所學知識的掌握情況,可不過多考慮區(qū)分度。 三、項目分析的特殊問題 (一)選擇題反應模式的分析 對于選擇題,除了分析其難度的區(qū)分度外,還要分析被試對每個備選答案的反應情況。一般要做以下分析: 1、如果正確的備選答案被所有被試所選擇,則說明該題目太易或者題目中可能提供了某種暗示; 2、如果某個錯誤答案沒有一個被試選擇,說明該選項不具迷惑性,錯得過于明顯,一般說來,除非有2%以上的人選擇,否則這個備選答案就應該修改。 3、如果所有被試的選擇了同一個錯誤答案,可能是編制測驗時把答案定錯了,也可能是教學中發(fā)生了錯誤。 4、如果所有被試的選擇集中在兩個答案上,二者選擇率相近,,說明該題可能有兩個正確答案或另一個答案也有一定道理。 5、如果高分組對正確答案的選擇與低分組相等或低于,說明所考察的東西與水平無關(guān)。 6、如果一個題目被試未答人數(shù)過多或選擇各個備選答案人數(shù)相等則說明題目過難或題意不清。 (二)標準參照測驗的項目分析 標準參照測驗主要用于判斷被試是否掌握了某些知識技能,是達到了一個事先確定的標準,測驗結(jié)果只與既定標準比較而不在被試之間作比較。因此測驗分數(shù)的變異性不是標準參照測驗的必要條件。所以,常模參照測驗的項目分析方法不完全適用于標準參照測驗。 1、難度分析 標準參照測驗可以采用常模參照測驗的方法計算難度,但是在篩選項目時,對難度水平的要求與常模參照測驗不同。 由于標準參照測驗的目的是為了考察被試對某方面的知識技能的掌握情況,因此,只要能反映教育目標或教育者認為重要的內(nèi)容,無論其難度為多少,都可以編入測驗。 2、區(qū)分度分析 標準參照測驗一般分數(shù)變異較小,不適合用相關(guān)法來計算區(qū)分度,但是可以采用鑒別指數(shù)的方法計算,即比較兩組的通過率。 方法一 根據(jù)測驗分數(shù)將被試分為達標組與未達標組,然后分別計算它們在某一項目上的通過率,兩組考生通過率之差,便是該項目的區(qū)分度,其公式為: D=ps-pn 式中ps、pn為達標組與未達標組在某一項目上的通過率。 這種方法主要的問題是分組標準不同,得到的區(qū)分度值不同。 方法二 用同一測驗對同一組被試在教學前后各施測一次,分別統(tǒng)計各項目前后測的通過率,二者之差便是項目的區(qū)分度。其公式為: D=ppost-ppre D值越高,說明項目對教學效果越敏感,所以有人將其稱做教學效果敏感指數(shù),其公式也可寫為 其中S 為敏感指數(shù),RA、RB分別為前測、后測通過人數(shù),N為總?cè)藬?shù)。 此種方法的主要缺點是:(1)同一測驗施測兩次可能會產(chǎn)生練習效應,成績的提高究竟是由教學引起的,還是由練習引起的難以分辨;(2)只有等兩次施測后才能進行項目分析;(3)當D值低時,難于做出明確的解釋,無法確定是由試題不良還是由教學不當所致。 式中ppost、ppre分別為項目在后測和前測中的通過率。 方法三 取兩組條件相近的考生,一組接受過同測驗有關(guān)的學科教學,另一組沒有接受過此種教學。施測同一測驗后,分別統(tǒng)計每組考生答對某題的人數(shù),兩組考生通過率之差便是該題的區(qū)分度。公式為D=pi-pu 式中pi、pu分別為教學組和未經(jīng)教學組對某題的通過率。 此方法的缺點是,兩組考生除在教學方面不同外在其他有關(guān)方面必須同質(zhì),而這一點是難以做到的。 項目特征曲線:是項目特征函數(shù)或項目反應函數(shù)的圖解形式,它反映了被試對某一測驗項目的正確反應概率與該項目所對應的能力或特質(zhì)的水平之間的一種函數(shù)關(guān)系。這一方法不僅適用于項目分析,而且也適用于某些測驗量表的編制。 A項目特征曲線可圖解測驗的鑒別力,項目鑒別力的高低主要在于其曲線的傾斜度,曲線坡度越陡,鑒別能力越好,預測的誤差越小。 B項目特征曲線可以圖解項目難度。 C項目特征曲線還可以圖解選擇題的誘答反應。 第三章 測量的誤差及其檢驗 [教學目的與要求] (1)了解測量誤差的種類與來源 (2)掌握信度的定義、意義及其估計方法 (3)掌握效度的定義、意義及其估計方法 [教學重點與難點]信度與效度的估計 [教學時數(shù)]4學時 第一節(jié) 測量的誤差 一、誤差的種類 (一)誤差的定義 誤差是在測量中與目的無關(guān)的因素所產(chǎn)生的不準確的或不一致的結(jié)果。 (二)誤差的種類 1、隨機誤差:與測量目的無關(guān)的偶然因素引起的變化規(guī)律的誤差,使得多次的測量結(jié)果不一致,這種誤差的大小和方向是隨機的。既影響測量的準確性又影響一致性。 2、系統(tǒng)誤差:與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差,它穩(wěn)定地存在于每一次測量中。只影響測量的準確性。 二、誤差的來源 (一)測驗自身引起的誤差 主要來源于測驗的編制過程,其中項目取樣影響最大。 (二)施測過程引起的誤差 1、測試環(huán)境 2、測試時間 3、主試因素 4、意外干擾 5、評分記分 (三)被試引起的誤差 1、應試動機 2、測驗焦慮 3、測驗經(jīng)驗 4、練習效應 5、反應傾向 6、生理變因 三、真分數(shù) (一)含義 真分數(shù)是指測量沒有誤差時所得到的真值。其操作定義是無數(shù)次測量結(jié)果的平均值。 (二)數(shù)學模型及其假設(shè) 1、CTT模型——經(jīng)典測驗理論假定,觀察分數(shù)(X)與真分數(shù)(T)之間是一種線性關(guān)系,并只相差下個隨機誤差(E),即X=T+E這里的測量誤差E指的是引起測量不一致的變因所產(chǎn)生的效應,即指隨機誤差,不包括系統(tǒng)誤差。 分析假設(shè)公理: (1)若一具人的某種心理特質(zhì)可以用平行的測驗分數(shù)反復測量足夠多次,則其觀察分數(shù)的平均值會接近于真分數(shù)。即E(X)=T或E(E)=1 0 (2)真分數(shù)和誤差分數(shù)之間的相關(guān)為零。 即P(T,E)=0 (3)各平行測驗上的誤差分數(shù)之間的相關(guān)為零。 2、引申: (1)在一次測量中,被試觀察分數(shù)的方差等于其真分數(shù)方差與誤差分數(shù)方差之和。S2X=ST2+S2E (2)真分數(shù)可以分成兩部分:與測量目的有關(guān)變異S2V和與測量目的無關(guān)的變異S2I,即:ST2=S2V+S2I (3)一次測驗中,一個團體的實測分數(shù)之間的變異性是由與測量目的有關(guān)的變異數(shù)SV2、穩(wěn)定的但出自無關(guān)來源的變異數(shù)SI2和測量誤差的變異數(shù)SE2所決定的。 即:S2X=SV2+SI2+SE2 第二節(jié) 信度(reliability) 一、什么是信度 定義:指的是測量結(jié)果的穩(wěn)定性程度(或叫可靠性)。也指同一被試在不同時間內(nèi)用同一測驗(或用另一套相等的測驗)重復測量,所得結(jié)果的一致程度。 1、理論定義:傳統(tǒng)的信度理論認為,每一個測驗的實得分數(shù)(X)總是由真實分數(shù)(T)和誤差(E),兩個部份構(gòu)成的,公式為: X=T+E 討論一組測驗分數(shù)的特性時,可用方差導標具體分數(shù),公式: (測驗實得分數(shù)的方差)= (測驗真分數(shù)的方差)+(測驗誤差的方差) 2、操作定義: 定義1:一組測量分數(shù)的真分數(shù)變異數(shù)(方差)與總變異數(shù)(總方差、實得分數(shù)的方差)的比率,或者是真實分數(shù)方差占總方差的的百分比。計算公式: rxx=ST2/SX2 定義2:信度乃是一個被試團體的真分數(shù)與實得分數(shù)的相關(guān)系數(shù)的平方。即 rxx=ptx2 定義3:信度乃是一個測驗X(A卷)與它的任意一個“平行測驗”X/(B卷)的相關(guān)系數(shù)。即rxx=pXX`2 二、信度的指標 (一)信度系數(shù):大部分情況下,信度是信度系數(shù)為指標,它是一種相關(guān)系數(shù)。理論上說就是真分數(shù)方差與實得分數(shù)的方差的比值,公式是:rxx=ptx2 (二)信度指數(shù):是真分數(shù)標準差與實得分數(shù)的標準差的比值,公式是: 信度指數(shù)的平方就是信度系數(shù) rxx=ST2/SX2 (三)標準誤:指出個人測驗分數(shù)的變異量。信度系數(shù)表示一組測量的實得分數(shù)與真分數(shù)的符合程度,標準誤表示個人測驗分數(shù)的變異量。 用一組被試兩次測量結(jié)果來代替同一個人反復實測,有了信度的另一個指標: 測量標準誤。測量的標準誤與信度之間呈反比關(guān)系:標準誤越小,信度越高;標準誤越大,信度越低。 三、信度與測驗分數(shù)的解釋 (一)解釋真實分數(shù)與實得分數(shù)的相關(guān) (二)比較信度可以接受的水平 (三)解釋個人分數(shù)的意義: (四)比較不同測驗分數(shù)的差異: 四、信度的類型及估計方法 (一)重測信度(再測信度): 1、含義與計算 又稱穩(wěn)定性系數(shù)。他的計算方法是采用重測法,即使用同一測驗,在同樣條件下對同一組被試前后施測兩次測驗,求兩次得分間的相關(guān)系數(shù)。 2、使用的前提條件 (1)所測量的心理特性必須是穩(wěn)定的。 (2)遺忘和練習的效果基本上相互抵消。 (3)在時間間隔中沒有學習另外的與測驗有關(guān)的東西,或者說每人學習其他東西的程度都一樣。 3、優(yōu)缺點: 優(yōu)點: (1) 它最符合重復測驗的涵義,是重復測驗最簡單最明確的方式 (2)首測和再測只需要一套測驗題目,省時、省力 (3)同一套題目無論施測幾次,所測的屬性是完全相同的。 缺點: (1)同一組被試對同一個測驗先后兩次作答相互之間是不獨立的。 (2)如果兩次施測時間間隔較長,在此期間被試的身心發(fā)展,新知識的獲得,都會使兩次測驗結(jié)果不相同。 (3)同一個被試對現(xiàn)一個測驗先后兩次作答,對測驗的興趣不同,影響測驗結(jié)果。 (4)兩次施測的環(huán)境不同,也是產(chǎn)生測量誤差的因素。 (二)復本信度(Alternate-form reliability) 1、含義與計算: 含義:又稱等值性系數(shù)。它是以兩個平行或復本的測驗(等值但題目不同)來測量同一群體,然后求得被試在兩個測驗上得分的相關(guān)系數(shù),這個相關(guān)系數(shù)就代表了復本信度的高低。復本信度反映的是測驗在內(nèi)容上的等值性,故稱等值性系數(shù)。復本信度的高低關(guān)鍵取決于復本測驗的選擇。 2、使用的前提條件: (1)要兩份或兩份以上真正平行的測驗 (2)被試要有條件接受兩個測驗。主要取決于時間、經(jīng)費等幾方面。 3、優(yōu)缺點: 優(yōu)點: (1)一個測驗的復本使得測驗數(shù)目的增加,對于所欲測量的屬性相聯(lián)系的行為總體代表性強,因此,一個測驗的兩個復本在兩三天至一周對同一組被試施測時,獲得的復本信度系數(shù)是相當準確的。 (2)測驗的兩個復本,如果在不同時間使用,其信度不僅可以反映在不同時間的穩(wěn)定性,而且還可以反映對于不同測題的一致性。 (3)兩個復本在同時使用時,可以避免再測驗信度的缺點。 缺點: (1)編制兩個完全相等的測驗是很困難的, (2)復本法只能減少而不能完全排除練習和記憶的影響。 (3)被試同時接受性質(zhì)相似的兩個測驗可能減少完成測驗的積極性。 4、 適用范圍 (1)如果兩個復本的施測相隔一段時間,則稱穩(wěn)定與等值系數(shù)。穩(wěn)定與等值系數(shù)既考慮了測驗在時間上的穩(wěn)定性,也考慮了不同題目樣本反應的一致性,因而是更為嚴格的信度考察方法,也是應用較為廣泛的方法。 (2)在實際應用時,為了抵消施測順序的效應,應該有半數(shù)的被試先作A本再作B本,另一半被試先作B本再作A本。 (3)復本測驗不僅適用于難度測驗,也是估計速度測驗信度的最好方法。 (三)分半信度(split-half reliability) 1、含義與計算 指采用分半法估計所得的信度系數(shù)。這種方法估計信度系數(shù)只需一種測驗形式,實施一次測驗。通常是在測驗實施后將測驗按奇、偶數(shù)分為等值的兩半,并分別計算每位被試在兩半測驗上的得分,求出這兩半分數(shù)的相關(guān)系數(shù)。 常見的是將測題按其序列號的奇偶分,這種分法的前提是:測題并非隨機排列,而是按某種順序(如難度)排列;如果隨機排列的題目,則必須是所有題目平等的(要么難度相等,要么性質(zhì)一樣);如果測驗有多個分量表,應該在分量表內(nèi)部排好順序,再把各分量表分兩半組合起來求相關(guān)。 2、計算 (1)兩半測驗分數(shù)的變異數(shù)相等(方差齊性) 先計算兩半測驗的積差相關(guān)系數(shù),再進行校正。常用的修正公式是:斯皮爾曼-布朗公式: (2)兩半測驗分數(shù)的變異數(shù)不等(方差不齊),可采用: 弗朗那根公式 或盧倫公式中的任一一個。 例題:對初一年級學生進行地理成績測驗,每答對1題得1分,答錯1題得0分,測題從易到難排列如表所示,試估計該測驗的分半信度。 學生 1 2 3 4 5 6 7 8 9 10 奇數(shù)題得分X 1 0 2 2 1 3 2 2 1 3 偶數(shù)題得分Y 0 1 0 1 1 2 3 2 2 3 總分 1 1 2 3 2 5 5 4 3 6 3、使用條件及范圍 分半信度通常是在只能施測一次或沒有復本的情況下使用。而且,在使用斯皮爾-布朗公式時要求全體被試在兩半測驗上得分的變異數(shù)要相等。當一個測驗無法分成對等的兩半時,分半信度不宜使用。 (四)同質(zhì)性信度(homogeneity reliability) 1、含義:指測驗內(nèi)部所有題目間的一致性。 題目的一致性有兩層含義:其一是指所有題目都測的是同一種心理特質(zhì);其二是指所有題目之間都具有較高的正相關(guān)??傊?,同質(zhì)性信度就是一個測驗所測內(nèi)容或特質(zhì)的相同程度。 2、測量同質(zhì)性的基本公式: 3、庫德-理查遜公式:適用于客觀性試題(0、1記分) 3、克倫巴赫系數(shù)(多重記分測驗) 例題:某態(tài)度量表共7題,100個被試在各題上的得分方差分別是0.81,0.82,0.79,0.83,0.85,0.76,0.77,測驗總分的方差為14.00,則此測量的的信度為0.70. 4、注意: 當各個測題的得分有較高的正相關(guān)時,不論題目的內(nèi)容和形式如何,測驗即為同質(zhì)的;若所有題目看起來好像測量的是同一特質(zhì),但相關(guān)很低或為負相關(guān)時,測驗即為異質(zhì)的。 對于一些復雜的、異質(zhì)的心理學變量,采用單一的同質(zhì)性測驗是不行的,因而常常采用若干相對異質(zhì)的分測驗,并使每個分測驗內(nèi)容具有同質(zhì)性,這樣每個分測驗就能用來預測異質(zhì)效標的某一方面。 (五)評分者信度(scorer reliability) 1、含義與計算:指的是多個評分者給同一批人的答卷進行評分的一致性程度。是用于測量不同評分者之間所產(chǎn)生的誤差。 式中W為和諧系數(shù),K為評分者的人數(shù),N為被評對象數(shù),RI為每一對象被評的等級總和。 例子:假設(shè)有三位專家給六篇論文評等級,結(jié)果如表所示,試計算此次評分者的評分者信度。 專家 1 2 3 4 5 6 1 2 4 1 5 6 3 2 3 4 1 5 6 2 3 3 5 1 4 6 2 Ri 8 13 3 14 18 7 2、注意的問題:為了衡量評分者之間的信度高低,可隨機抽取若干份測驗卷,由兩位評分者按評分標準分別給分,然后再根據(jù)每份測驗卷的兩個分數(shù)計算相關(guān),即得評分者信度。一般要求在成對的受過訓練的評分者之間平均一致性達0.90以上,才認為評分是客觀的。當多個評分者評定多個對象 ,并以等級法記分時,可采用肯德爾和諧系數(shù)作為評分者信度的估計。 五、標準參照測驗的信度估計 1、對相關(guān)法信度系數(shù)進行校正 為了對標準參照測驗的信度做出較為準確的估計,利文斯頓提出了對相關(guān)法信度系數(shù)的校正公式: 2、用決策的一致性作為信度指標 林德曼與梅倫達的一致性公式: C為一致性,n為在兩次施測中均未達到標的人數(shù),b為在兩次施測中均已達標的人數(shù),f為只在第一次施測中達標的人數(shù),s為只在第二次施測中達標的人數(shù),v為f或s中較小的值。 六、各種信度系數(shù)相應誤差方差的來源 信度系數(shù)類型 誤差方差來源 重測信度 時間取樣 復本信度(連續(xù)施測) 內(nèi)容取樣 復本信度(間隔施測) 時間和內(nèi)容取樣 分半信度 內(nèi)容取樣 同質(zhì)性信度 內(nèi)容的異質(zhì)性 評分者信度 評分者之間的差異 七、影響信度的因素 (一)樣本的特征:信度常用信度系數(shù)來表示,信度系數(shù)就是相關(guān)系數(shù),相關(guān)系數(shù)受樣本團體得分分布、樣本是否異質(zhì)及樣本團體平均能力水平的影響。 1、樣本團體分數(shù)分布的影響:當分布范圍增大時,其信度估計就較高;當分布范圍減小時,相關(guān)系數(shù)隨之下降,信度值則較低。 2、樣本團體異質(zhì)性的影響:若獲得信度的取樣團體較為異質(zhì)的話,往往會高估測驗的信度,相反則會低估測驗的信度。 3、樣本團體平均能力水平的影響:對于不同水平的團體,題目具有不同的難度,每個題目在難度上的微小差異累計起來便會影響信度。 (二)測驗的長度: 1、測驗越長,測驗的測題取樣或內(nèi)容取樣越有代表性。 2、測驗越長 ,被試的猜測因素影響就越小。 3、測驗的項目越多,在每個項目上的隨機誤差就可以相互抵消。 (三)測驗的難度:難度對信度的影響只存在于某些測驗中,如智力測驗、成就測驗、 能力傾向測驗等。如果一個測驗對某團體而言太容易,會使所得分數(shù)都集中在高分端;當題目太困難時,得分就會集中在低分端。兩種情況均會使信度樣本的分數(shù)范圍變窄,從而使測驗變得不夠可靠。從理論上說,只有難度水平為50%時,才能使測驗分數(shù)分布范圍最大,求得的信度也最高。 (四)測驗的時間間隔:以再測法或復本法求信度,兩次測驗相隔時間越短,其信度系數(shù)越大;間隔時間越久,其它變因介入的可能性越大,受外界的影響越大,信度系數(shù)便越低。 第三節(jié) 測驗的效度 在測量活動中,測量者對所使用的測量工具非常信任,他會采取復測行為以判斷測量有無誤差;如果測量者對所使用的測量工具發(fā)生懷疑,那他往往會去找一公認非常準確的測量工具對先前的測值進行檢驗。這種在原測量工具之外尋求新的證據(jù)來肯定或否定某一測量工具準確性的做法就是在研究測量的效度問題。心理測量是一種間接測量,心理測量更重視測量的效度研究。 一、效度(validity) (一)定義:效度是指所測量的與所要測量的心理特點之間符合的程度,或者簡單地說是指一個心理測驗的準確性。或是指一個測驗或量表實際能測出其所要測的心理特質(zhì)的程度。 1、關(guān)于效度的概念,我們要特別注意以下幾點: (1)效度是一個相對的概念。這種相對性表現(xiàn)在兩個方面: ①效度是相對于一定的測量目的而言的。 ②心理特質(zhì)是較隱蔽的特性,只能通過他的行為表現(xiàn)來進行推測,因此,心理測量不可能達到百分之百的準確,而只能達到某種程度的準確。 (2)效度是測量的隨機誤差和系統(tǒng)誤差的綜合反映。任一誤差的存在,測量的效度都會受到影響 (3)判斷一個測量是否有效要從多方面收集證據(jù) 2、在測驗理論中,效度被定義為在一組測量中,與測量目標有關(guān)的真實方差(或稱有效方差,由所要測量的變因引起的有效變異)與總方差(實得變異數(shù))的比率,即 3、一組測驗分數(shù)的總方差等于真實方差與誤差方差之和,而真實方差又可分為兩部分,即有關(guān)的方差和無關(guān)的但穩(wěn)定的方差,后者也就是所謂系統(tǒng)誤差帶來的方差 S2X=SV2+SI2+SE2 由于有效方差是一個理論值,無法測量,所以效度和信度一樣是一個理論上的概念。 二、效度和信度的關(guān)系 (一)信度是效度的必要而非充分條件。 (二)效度是受信度制約的:信度系數(shù)的平方根是效度系數(shù)的最高限度, 可見,一個測驗的效度總是受它的信度所制約。 三、效度的類型及評估方法 (一)內(nèi)容效度(Content Validity) 1、定義:指的是項目對欲測的內(nèi)容或行為范圍的取樣的適當程度。也即測驗題目對有關(guān)內(nèi)容或行為取樣的適用性,從而確定測驗是否是所欲測量的行為領(lǐng)域的代表性取樣。 一個測驗要具備較好的內(nèi)容效度必須滿足兩個條件: (1)要確定好內(nèi)容范圍,并使測驗的全部項目均在此范圍內(nèi)。所謂內(nèi)容范圍可以是具體知識或技能,也可以是復雜的行為。要對所測量的心理特性有個明確的概念,并劃定出哪些行為與這心理特性有關(guān)。 (2)測驗題目應是所界定的內(nèi)容范圍的代表性取樣。 2、內(nèi)容效度的評估方法: (1)專家判斷法: (2)統(tǒng)計分析法 (3)經(jīng)驗推測法: 3、內(nèi)容效度的應用 (1)是編制任何測驗應加以考慮的基本方面。 (2)較適用于評價教育成就測驗和職業(yè)選拔測驗。 (3)對標準參照測驗更為重要,是因為在標準參照測驗中我們主要關(guān)心的是被試對一定范圍的知識、技能掌握得如何。 (4)注意內(nèi)容效度與表面效度的關(guān)系(5)它缺乏可靠的數(shù)量指標,因而妨礙了各測驗間的相互比較。 (二)構(gòu)想效度(construct Validity) 1954年提出,有人翻譯為構(gòu)思效度,也有叫結(jié)構(gòu)效度。它是指測驗能夠測量到理論上的構(gòu)想和特質(zhì)的程度,即測驗的結(jié)果是否能證實或解釋某一理論的假設(shè)、術(shù)語或構(gòu)想,解釋的程度如何。 1、構(gòu)想效度的特點: (1)其大小首先取決于事先假定的心理特質(zhì)理論 (2)當實際測量的資料無法證實我們的理論假設(shè)時,并不一定就表明該測驗結(jié)構(gòu)效不高,因為還有可能是理論假設(shè)不成立,或者該實驗設(shè)計不能對該假設(shè)作適當?shù)臋z驗等情況,當然這就使得結(jié)構(gòu)效度的獲取更為困難。 (3)結(jié)構(gòu)效度通過測量什么、不測量什么的證據(jù)累積起來給以確定,因而不可能有單一的數(shù)量指標來描述結(jié)構(gòu)效度。 結(jié)構(gòu)效度主要應用于智力測驗、人格測驗等一些心理測驗方面。 2、結(jié)構(gòu)效度的確定方法: (1)提出理論假設(shè),并把這一假設(shè)分解成一些細小的綱目,以解釋被試在測驗上的表現(xiàn)。 (2)依據(jù)理論框架,推演出有關(guān)測驗成績的假設(shè)。 (3)用邏輯和實證的方法來驗證假設(shè)。 3、構(gòu)想效度的估計方法: (1)測驗內(nèi)法(對測驗本身的分析): (2)測驗間的相互比較: ①相容效度 ②區(qū)分效度是構(gòu)思效度的又一個證據(jù)。 ③因素效度:(3)效標關(guān)聯(lián)法,效度的研究證明:一個測驗若效標度理想,那么該測驗所預測的效標的性質(zhì)和種類就可以作為分析測驗構(gòu)思效度的指標,另一種證實構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。 (4)實驗法和觀察法證實:觀察實驗前和實驗后分數(shù)的差異是驗證構(gòu)思效度的方法。 3、對構(gòu)想效度的評價 (1)構(gòu)想效度促使研究者把著眼點放在提出假設(shè)上、檢驗假設(shè)上,使得測驗成為理論研究的重要工具,而不再只是實際決策的輔助工具,從而使測驗有了更廣闊的發(fā)展情景。 (2)主要缺點是,有些構(gòu)想概論模糊,沒有一致的定義,確定效度時沒有明確的操作步驟,沒有單一的數(shù)量指標來描述有效程度。 (三)效標效度 1、定義:又稱實證效度,反映的是測驗預測個體在某種情境下行為表現(xiàn)的有效性程度。被預測的行為是檢驗效度的標準,簡稱效標。由于這種效度是看測驗對效標預測如何,所以叫效標效度。這種效度需在實踐中檢驗,所- 1.請仔細閱讀文檔,確保文檔完整性,對于不預覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 心理測量學 教案 鄭日昌版
鏈接地址:http://www.820124.com/p-6683871.html