教育測量與評價教案.doc
《教育測量與評價教案.doc》由會員分享,可在線閱讀,更多相關(guān)《教育測量與評價教案.doc(145頁珍藏版)》請在裝配圖網(wǎng)上搜索。
教育測量與評價教案 第一篇 教育評價的基本原理與方法 第一章 教育測評概述 第一節(jié) 教育測量概述 一、測量的定義 一般認(rèn)為,測量系根據(jù)法則給事物分派數(shù)字。 這里包含了測量三個方面的特性: 法則,指測量的標(biāo)準(zhǔn),也就是測量的依據(jù)和準(zhǔn)則,即我們根據(jù)什么原理來進行測量。 法則也有好壞之分,使用好的法則可以得到比較理想的測量結(jié)果,而較差的法則只能導(dǎo)致不準(zhǔn)確的測量結(jié)果。要尋找和建立較好的測量法則是一件極為困難的事情。但不管什么法則的建立都是一個漸進的過程。 事物,指測量的對象,也就是對什么進行測量,更明確地說,就是引起我們興趣的事物的屬性或特征。不同的事物具有不同的屬性或特征,所測量的事物是否具有一致性,這是影響測量結(jié)果是否精確的一個重要原因。 數(shù)字,這是測量結(jié)果的表現(xiàn)形式,是區(qū)別測量與定性評價的一個標(biāo)志。數(shù)字大多時候具有量的意義,這樣它是代表一定的數(shù)值。這些數(shù)值具有自然數(shù)的特點,如區(qū)分性、序列性或等級性、等距性和可加性。這些性質(zhì)是我們進行運算的基礎(chǔ)。 必須指出,在測量中,我們是根據(jù)事物的屬性和屬性的大小來分派數(shù)字的,因此,必須考慮數(shù)字是否具有如上性質(zhì),同時還要考慮事物的性質(zhì)和指派數(shù)字的原則。 二、測量的三要素 1、單位。是我們用于計算的標(biāo)準(zhǔn)。 理想的單位必須具備兩個條件:一是要有確切的意義,即對同一單位,所有人的理解意義要相同,不能出現(xiàn)不同的解釋;二是要有相等的價值,即等值性,也就是相鄰兩個單位點之間的差別是相等的。 2、參照點。是計算的起點。 一般分為絕對零點和相對零點。 絕對零點指客觀地存在著“0”這個數(shù)字,即完全沒有;相對零點則是人們?yōu)榱藚^(qū)分或分出等級人為地指定出一個零點,即即使在“0”這個位置,也不說明事物的屬性是不存在的。 3、量表。這是測量的工具,是具有一定單位和參照點的連續(xù)體。 由于制訂量表的單位和參照點不同,量表的種類也不同,一般從低到高,分為四種水平:類別量表水平(稱名量表)、順序量表水平(等級量表)、等距量表水平(等距量表)、比率量表水平(比率量表)。 類別量表是最低水平的一種測量量表,它只是用數(shù)字代表事物和事物的歸類,沒有任何數(shù)量的意義,如對性別、民族等可分類事物進行分類。其產(chǎn)生的數(shù)值不能用于數(shù)量化分析,不能進行數(shù)學(xué)運算,最多只能進行百分比分類。 順序量表比類別量表要精確一些,其中數(shù)字不僅指明了事物類別,同時指明不同類別的大小等級或具有某種屬性的程度。 等距量表不僅有大小關(guān)系,而且有相等的單位和相對的零點。這時數(shù)值可以進行加減運算,但由于只是相對零點,所以不能進行乘除運算。 比率量表是最高級和體現(xiàn)最精確的測量水平的一種測量量表。它既有等距的單位,又有絕對零點,因此可以加減乘除。大多數(shù)物理測量量表是比率量表,而教育測量中的量表很難達到這一水平。 三、什么是教育測量 教育測量是根據(jù)測量學(xué)的原理和方法對教育現(xiàn)象及其屬性進行數(shù)量化研究的過程。主要包括對學(xué)生內(nèi)在的精神屬性的測量,如測量學(xué)生的學(xué)習(xí)成績、智力水平、品德狀況、人格特征等。 這里,要注意的是 第一,教育測量是一個數(shù)量化研究過程。所以,在進行教育測量時,要解決的第一個問題是如何將我們所要測量到的人的各種屬性量化表示的問題。 在教育問題中,有許多往往很難加以量化,有時即使加以量化,但量化水平只能停留在類別變量或順序變量的層次,難以實現(xiàn)數(shù)量化分析,意義。這也是我們現(xiàn)在教育測量和教育評價在社會上討論非常激烈,人們十分關(guān)注,但又成效不大的原因所在。 第二,教育測量主要測學(xué)生內(nèi)在的精神屬性,因而具有間接性。這就導(dǎo)致了誤差甚至錯誤的存在。 (一)、教育測量的特點 1、測量結(jié)果的間接性。我們無法直接測量學(xué)生的內(nèi)在心理特征,而只能通過其外顯行為,來間接測量其心理活動的特點與水平。也就是說,我們只能通過學(xué)生對測驗韙的反應(yīng)和一些行為表現(xiàn),運用推理、判斷的方法,來間接地測量出他們的知識水平、智力高低和品德好壞。 2、度量單位的相對性。教育測量的另一個特點是它的度量單位一般是相對的,即是相對零點,必須經(jīng)過轉(zhuǎn)換后才能進行相應(yīng)的數(shù)學(xué)分析。 3、測量對象的復(fù)雜性。首先,學(xué)生的精神屬性是內(nèi)在的,不能直接測量;其次,它是多變的,因為學(xué)生是發(fā)展的;第三,有些主、客觀因素也會影響測量的結(jié)果,如精神狀態(tài)、注意力、天氣因素、緊張等。 4、測量目的的針對性。 四、教育測量的誤差問題 測量中,誤差是不可避免的。產(chǎn)生誤差的原因主要有: (一)測量的儀器和設(shè)備。測量工具的精度會影響測量的精確程度。 (二)所測量的事物的一致性程度。 (三)測量者的因素。 五、教育測量學(xué)的作用 (一)有利于提高教育教學(xué)水平 (二)有利于提高教育管理水平 (三)有利于發(fā)展教育研究方法 第二節(jié) 教育評價概述 一、什么是評價 “評價”一詞早在900多年前我國北宋時期就已出現(xiàn)。 評價就是根據(jù)某種價值觀對事物及其屬性進行判斷、衡量,也就是對人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等判斷。 這里,價值觀在評價中起著十分重要的作用。價值觀不同,對同一事物會有不同的評價。價值是客觀的,但評價帶有主觀性。在哲學(xué)史上有幾種不同的價值觀:一種是客觀主義的價值觀,認(rèn)為價值是客觀對象所固有的本性,是純客觀的東西;一種是主觀主義的價值觀,認(rèn)為價值是用來表達個人對事物的好惡情感的,是純主觀的東西;另一種是辯證唯物主義的價值觀,認(rèn)為價值是一種表明客體對主體的特殊效用性,是主觀性與客觀性的統(tǒng)一。客觀事物的效用性與主觀的需要和愿望相結(jié)合,就具有了一定的價值,符合的程度大,價值就越大。 二、教育評價的定義 (一)早期的界說 泰勒在20世紀(jì)40年代初將教育評價解釋為:“確定教育目標(biāo)在實際上被理解到何種程序的過程。” 后來日本學(xué)者進一步把它界定為:“教育評價就是系統(tǒng)地、有步驟地從數(shù)量上測量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果,據(jù)此判定是否達到了所期望的教育目標(biāo)的一種手段?!? 這種解釋和界說,認(rèn)為以教育目標(biāo)為依據(jù),評量學(xué)習(xí)結(jié)果達到目標(biāo)的程度,就是教育評價。 (二)60年代的界說 克龍巴赫對教育評價的闡釋是基于突破行為目標(biāo)模式的觀點,提出“評價是為決策提供信息的過程”,后來有人對這一界說做了具體的描述:“教育評價是一種有系統(tǒng)地去尋找并搜集信息資料,以便協(xié)助決策者在諸種可行的途徑(方案)中擇一而行的歷程?!? 這種觀點強調(diào)了評價的信息作用,擴大和拓寬了評價的功能、范圍,從廣義上、宏觀上對評價進行了創(chuàng)造性的解釋。 (三)較深層的定義 斯克里文和豪斯的定義:“評價是一種對優(yōu)缺點和價值的評估,是一種既有描述又有判斷的活動?!? 日本心理學(xué)家大橋正夫認(rèn)為:“教育評價就是對照教育目標(biāo),對教育行為產(chǎn)生的變化進行價值上的判斷?!? 這種評價觀點認(rèn)為教育評價的著眼點在于教育現(xiàn)象的價值,也就是評價應(yīng)當(dāng)著重判斷教育的效果,看其是否具有價值。這里的關(guān)鍵主要是價值判斷。盡管各國評價學(xué)者對教育評價有不同的界說,但在這一點已相當(dāng)一致。 (四)對教育評價的初步界定和理解 20世紀(jì)80年代以來,我國教育界也對教育評價理論進行了初步探討,對教育評價的概念也進行了專門研究,在系統(tǒng)地學(xué)習(xí)、借鑒國外評價理論的同時,力圖從我國實際出發(fā),對教育評價的含義作了一些描繪和闡釋。在這些觀點中,有些共同的認(rèn)識:(1)承認(rèn)評價是一個過程;(2)價值判斷是評價的本質(zhì)特征;(3)以一定的教育價值觀為依據(jù);(4)采用一切可行的科學(xué)手段。 根據(jù)上述觀點,我們把教育評價界定為“教育評價是根據(jù)一定的價值觀或教育目標(biāo),運用可行的科學(xué)手段,通過系統(tǒng)地搜集信息、分析解釋,對教育現(xiàn)象進行價值判斷,從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程?!? 這一概念,包含以下幾個方面: 1、教育評價的對象、范圍和地位 其對象不僅包括學(xué)生學(xué)習(xí)結(jié)果,而指以教育的全部領(lǐng)域為對象(不僅包括現(xiàn)象,還包括結(jié)果、計劃、活動、過程等)。 2、教育評價的目的和作用 它涉及評價的指導(dǎo)思想和教育觀等基本理論問題。教育評價是為鑒定、考核,還是為了推動、改進;是為了選拔、淘汰,還是為了教育、發(fā)展,這是兩種不同的教育觀和評價觀。 過去的教育評價偏重于鑒定、篩選的功能,其目的是為了“選拔適合教育的兒童”,是為“應(yīng)試教育”服務(wù)的。而現(xiàn)代教育評價則強調(diào)評價的反饋、矯正功能即調(diào)控功能,其目的是為了“創(chuàng)造適合兒童的教育”,即評價是為了診斷評價對象的現(xiàn)狀,以便發(fā)現(xiàn)問題,使教育教學(xué)工作不斷改進、不斷完善,不斷適合教育對象的需要,為促進兒童個性全面發(fā)展和提高教育質(zhì)量服務(wù)。 教育評價的目的是為教育決策提供信息和依據(jù),為改進教育服務(wù),也是為不斷完善和改進教育過程、為提高教育質(zhì)量服務(wù)。 3、教育評價的依據(jù) 價值判斷是教育評價的本質(zhì)特征,是教育評價的核心。根據(jù)什么進行價值判斷?如何進行判斷?這就是價值判斷的實質(zhì)和關(guān)鍵。也就是必須一個衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn),是教育價值目標(biāo)和標(biāo)準(zhǔn)問題。它涉及什么是價值、教育價值、教育價值觀的問題。 我們應(yīng)當(dāng)根據(jù)馬克思主義價值觀和社會主義現(xiàn)代化建設(shè)的需要,根據(jù)人才成長發(fā)展規(guī)律,確立我們的教育價值觀和價值取向,確定教育評價的價值目標(biāo)和標(biāo)準(zhǔn)。從這個意義上說,教育方針、政策和教育目標(biāo)就是我們的教育價值觀的集中體現(xiàn),我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評價的目標(biāo)和標(biāo)準(zhǔn)。 4、教育評價的手段 (五)教育評價與教育測量的關(guān)系 測量是工具,評價是目標(biāo)。 三、教育評價的功能和意義 (一)教育評價的系統(tǒng)結(jié)構(gòu) 1、價值目標(biāo)和標(biāo)準(zhǔn) 2、組織機構(gòu)和人員 3、評價方法和技術(shù) 4、評價對象與評價人員的心理調(diào)控 (二)教育評價的功能 根據(jù)系統(tǒng)論的觀點,評價功能是教育評價系統(tǒng)結(jié)構(gòu)的內(nèi)在機制,是構(gòu)成評價系統(tǒng)的各個要素的組成形式在運動狀態(tài)下所發(fā)揮的功效,是評價系統(tǒng)內(nèi)部所固有的一種潛在能量。這種潛能只有在評價實踐中才能表現(xiàn)或釋放出來,這種功能的外在表現(xiàn)即是作用。 1、教育評價的意義 (1)教育評價是教育管理的重要組成部分。教育管理的各個環(huán)節(jié)都需要評價。沒有評價的管理是一個開放式的管理系統(tǒng),無反饋機制,這是一種不科學(xué)、不健全的管理。 (2)教育評價是深化教育改革的重要措施。要進行一項教育改革,首先要進行改革方案的可行性評估;在改革進程中,必須加強形成性評價;在某一改革告一段落時必須進行終結(jié)性評價。只有這樣才能避免盲目性,確保教育改革沿著健康的軌道發(fā)展。 (3)教育評價是全面提高教育質(zhì)量的重要手段。 (4)教育評價是教育科學(xué)研究的重要內(nèi)容。 2、教育評價的功能 (1)導(dǎo)向功能。(2)監(jiān)督檢查功能。(3)激勵功能。(4)篩選擇優(yōu)功能。(5)診斷改進功能。 四、教育評價的種類 (一)根據(jù)評價對象和范圍不同,可分為宏觀教育評價、中觀教育評價和微觀教育評價。 宏觀教育評價是以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對象的教育評價,或?qū)σ粋€具有相當(dāng)規(guī)模的地區(qū)的教育進行的評價,屬于總體的、全局性的、高層次的評價。 中觀教育評價是以學(xué)校為對象,對學(xué)校內(nèi)部各方面的工作進行的評價。 微觀教育評價是以學(xué)生為對象的教育評價。 (二)根據(jù)評價的時間和作用不同,可分為診斷性評價、形成性評價和總結(jié)性評價 (三)根據(jù)評價的基準(zhǔn)不同,可分為相對評價和絕對評價 相對評價指在評價對象團體中確定一個基準(zhǔn),或以某一團體的評價狀況為基準(zhǔn),對團體中的個體成員在這個團體中所處的相對位置進行評價。其特點是:評價基準(zhǔn)是在評價對象團體內(nèi)部確定的;參照的標(biāo)準(zhǔn)是對團體進行測量以后確定的;它關(guān)心的是團體成員在該團體中所處的相對位置。 絕對評價指以預(yù)先制訂的目標(biāo)為評價基準(zhǔn),評價每個對象達到目標(biāo)或基準(zhǔn)的程度,也稱目標(biāo)參照評價。其特點是:評價基準(zhǔn)是在評價對象團體以外確定的;參照標(biāo)準(zhǔn)是在對團體進行測量以前確定的;它關(guān)心的是評價對象達標(biāo)的程度。 (四)根據(jù)評價的性質(zhì)不同,可分為需要性評價、可行性評價和配置性評價 需要性評價是指根據(jù)某種需要,對新提出的教育目標(biāo)、計劃方案的必要性作出價值判斷。其目的是要判斷新提出的教育目標(biāo)、計劃方案或活動是否有必須進行或開展。一般是在某種教育改革項目開始前或?qū)逃顒诱麄€過程進行總體反思時進行。 可行性評價是指對教育目標(biāo)、計劃、方案實現(xiàn)的條件、可行性程度的評價。目標(biāo)是了解實施教育目標(biāo)、計劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟效益。 配置性評價是指對教育目標(biāo)、計劃、方案所需要的資源條件、人員與技術(shù)條件的配置進行價值判斷。目的是合理安排和利用人力、物力和財力。 (五)根據(jù)評價的主客體不同,可分為自我評價和他人評價 自我評價指被評者按照一定的評價目的與要求,對自身的工作、學(xué)習(xí)和品德等方面的表現(xiàn)進行價值判斷。他人評價指被評者以外的人進行的評價,也叫外部評價。 第三節(jié) 教育測評的發(fā)展階段 一、 教育測量的發(fā)展階段 (一)教育測量的萌芽階段(1864年以前) 根據(jù)《學(xué)記》記載,我國早在西周時期,就實行了教育考評。 自隋煬帝大業(yè)三年(公元606年)始置進士科開始的科舉制度,到清末光緒三十一年(1905年)廢止,正好1300年,對我國進一步完善高等學(xué)校招生制度乃至整個干部選拔制度,都有重要的借鑒意義。 科舉制度的特點:第一,要經(jīng)過嚴(yán)格的政治條件方面審查;第二,要進行嚴(yán)格的文化考查;第三,歷代對考生都有健康方面的標(biāo)準(zhǔn)。 科舉制度可取之處:第一,政治理論考試是最主要的考試項目;第二,文化素養(yǎng)特別是寫作能力是必考項目;第三,注意考查分析問題和解決問題的能力。 錄取原則:第一,對已被錄取者一律要進行復(fù)試;第二,對落選者要給予其他出路;第三,錄取時要參考平時成績。 注意的問題:第一,考生入場挾帶文書,是歷代都極為注意的;第二,考場秩序也是歷代都極為重視的問題;第三,試卷是評定成績高低,錄取與否的唯一依據(jù),它屢經(jīng)考生和各類考試工作人員之手,如不嚴(yán)格管理,很容易使舞弊者有機可乘。 科舉制度實際上就是一個關(guān)于學(xué)生學(xué)力檢測、評價制度,但是它缺乏對人全面的、科學(xué)的考察,并且存在著許多弊端。 在18世紀(jì)以前的西方各國,由于學(xué)校尚未普及,學(xué)??荚囍饕强谠?。1702年,英國劍橋大學(xué)首先以筆試代替口試,開西方學(xué)??荚囅群印? 1845年,美國初等學(xué)校普及,學(xué)生數(shù)激增,對畢業(yè)生一一口試已不可能,于是,波士頓市教育委員會率先在美國相繼以筆試代替口試。 由于筆試客觀性、可靠性比口試高,并且節(jié)約時間,測試結(jié)果大大優(yōu)于口試,但因為評分易受主觀偏見影響,況且題目太少,不足以反映學(xué)生所獲知識與能力的全貌,因此,為矯正弊端,力求考試客觀化,于是測驗方法隨之出現(xiàn)。 (二)教育測量的蓬勃興起階段(1864——1940年) 1864年英國格林威治醫(yī)院附屬學(xué)校一位名叫費舍的教師收集了許多學(xué)生成績樣本,匯集了一本《量表集》,作為度量學(xué)生各科成績的標(biāo)準(zhǔn)??梢哉f是客觀標(biāo)準(zhǔn)化測量的萌芽。 1897年萊斯發(fā)表了他對20所學(xué)校3000余名學(xué)生所作的拼字測驗研究結(jié)果,測驗表明:8年中每天花45分鐘時間進行拼字練習(xí)同每天花15分鐘進行練習(xí)的成績并沒有多大差別。這一結(jié)論盡管遭到了不少人反對,但它引起了人們對測驗問題的普遍關(guān)心,推動了教育測驗問題的研究。 中世紀(jì)以后,西方自然科學(xué)由于在方法論上引入了測定、觀察和實驗,一些傳統(tǒng)科學(xué)取得了長足發(fā)展。1879年馮特在德國萊比錫建立了第一個心理學(xué)實驗室,為進一步揭示人的心理本質(zhì)而設(shè)計了種種周密的實驗方案與實現(xiàn)方案的各種嚴(yán)密的測量方法。所有這些方法論的變革促進了教育測量運動的興起。 1882年英國高爾頓受達爾文影響,在倫敦建立了人類學(xué)測驗實驗室,與德國馮特的心理學(xué)實驗室相對峙。德國實驗心理學(xué)派通過專門研究人類的一般行為規(guī)律來進一步揭示人的心理本質(zhì),而英國人類學(xué)派則對人類個別差異寄予了關(guān)心。高爾頓在統(tǒng)計學(xué)家皮爾遜的幫助下,設(shè)計了許多統(tǒng)計方法。這些統(tǒng)計方法不僅對美國的人事工程思想甚有幫助,而且一些教育家借鑒這些方法,在教育上把不同學(xué)生的學(xué)習(xí)能力與學(xué)習(xí)效果量化,并加以客觀比較,促進了教育測量運動的發(fā)展。 19世紀(jì)末,法國在“自由”“平等”“博愛”等進步思想的影響下,提出社會不僅要對身體有缺陷的兒童加以關(guān)懷,還要結(jié)心理、精神智能有缺陷的兒童給予關(guān)懷。恰好當(dāng)時巴黎一帶的學(xué)校有許多學(xué)習(xí)效果低劣的孩子很成問題,比納想鑒別這些孩子是因為懶惰,還是因為智能低下而不能適應(yīng),并且想在教育上嘗試如何加以輔救。因此,1895年,比納等設(shè)計了一套智力測驗的方法,1905年在西蒙的協(xié)助下,制成了著名的比納—西蒙智力量表。 20世紀(jì)20年代,美國的教育測驗運動蓬勃發(fā)展起來。可分為三個時期: 開拓期(1904-1915),這一段時間是方法的探索與初步的發(fā)展時期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上,1904年桑代克發(fā)表了《精神與社會測驗學(xué)導(dǎo)論》,這是一本在測驗學(xué)史上劃時代巨著,標(biāo)志教育測驗運動的開始。桑代克在書中宣稱:“凡是存在的東西都有數(shù)量;凡是有數(shù)量的東西都可測量?!? 興盛期(1915-1930),這一時期對桑代克提出的信條不但在技術(shù)方面努力求得正確應(yīng)用,而且不斷提高到理論上加以證實。這一時期已發(fā)展了三種不同性質(zhì)的測驗,即學(xué)力測驗、智力測驗和人格測驗。 批判期(1930-1940),隨著教育測驗運動的不斷發(fā)展,人們逐漸認(rèn)識到,教育測驗盡管能使考試客觀化、標(biāo)準(zhǔn)化,并能把人的能力換算成數(shù)字,甚至個別差異的程度也可以量化,但它畢竟不能測出人的全部,即使是研究最多最富成果的學(xué)力測驗也不能測得學(xué)力的全部領(lǐng)域。在人格測驗方面,單純的測驗是無法把握的,如社會態(tài)度、興趣、情緒、鑒賞力等。1931年,塞蒙茲發(fā)表了《人格與行動的診斷》一書,主張人格測量應(yīng)用評定法、問卷法、軼事記錄法等,從而從思想上否定了單純的人格測量法。從此,教育測量運動逐步過渡到教育評價時期。 (三)教育測量的深入發(fā)展階段(1940至今) 在經(jīng)過以上批判期以后,現(xiàn)代教育測量在以下方面有了新的發(fā)展: 第一,開始重視學(xué)生智力和思想品德的測量。 第二,現(xiàn)代教育測量量表的編制突破了過去單一答案的求同式思維題,發(fā)展為包括多種答案的求異式思維題和論文式試題。 第三,教育測量的范圍由過去偏重于學(xué)生學(xué)習(xí)成績的測量,發(fā)展到涉及到課程設(shè)置、教材、教育改革方案等效益方面的測量。 第四,現(xiàn)代的教育測量由過去單一的常模參照性測驗?zāi)J桨l(fā)展到常模參照性測驗與目標(biāo)參照性測驗相結(jié)合的模式。 第五,教育測量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測驗等值、項目反應(yīng)理論(IRT)、測驗信度、評分誤差控制的研究等都有了較大的發(fā)展。 二、教育評價的發(fā)展階段 教育評價作為科學(xué)概念,是20世紀(jì)30年代在美國進步主義教育聰明的新教育課程的改革實驗“八年研究”中正式誕生的。 (一)教育評價產(chǎn)生的歷史淵源與社會背景 1、我國古代教育考試制度 自人類社會形成,人類祖先為了生存、延續(xù),自發(fā)地產(chǎn)生了原始生產(chǎn)經(jīng)驗和生活規(guī)范的傳遞,這種傳遞就是教育的萌芽。隨著社會經(jīng)濟、政治和文化的發(fā)展,特別是由于古文字的出現(xiàn),產(chǎn)生了學(xué)校。各種教育機構(gòu)都有了相應(yīng)的教育內(nèi)容,從而產(chǎn)生了衡量教育結(jié)果的手段和規(guī)定。 從我國教育史上看,早在西周時代,已經(jīng)形成了較為完備的考試制度,如《學(xué)記》中記載的“比年入學(xué),中年考?!本褪堑湫屠印8嗟目婆e制度更是歷時1300年。 2、西方教育測量運動的興起 古代西方教育盛行以口頭提問和實際操作來評定學(xué)生的學(xué)業(yè)。 從中世紀(jì)到19世紀(jì)的學(xué)?;疽钥谠囎鳛榭疾閷W(xué)生成績的方法。 進入資本主義發(fā)展時期以后,由于社會需要大量掌握讀寫算的人力,學(xué)校和學(xué)生激增,口試被筆試取代。但筆試也有很多弊端。為追求測驗、考試的客觀性,受實驗心理學(xué)、個別差異研究和智力測驗的影響,20世紀(jì)初,在美國,教育測量取代了傳統(tǒng)的考試,并形成了一種趨勢和運動;20年代末,由于新教育思潮的出現(xiàn),教育測量已不能完全適應(yīng)教育發(fā)展的需要,因而出現(xiàn)了對教育測量的批判。 3、社會背景 20世紀(jì)20年代末30年代初,美國爆發(fā)了空前的經(jīng)濟危機,許多工廠倒閉,工人失業(yè),大批青年為了加強勞動力市場的競爭能力,重新涌入中學(xué)學(xué)習(xí),謀求新職業(yè)。但當(dāng)時美國的中學(xué)所開設(shè)的課程是為了升大學(xué)服務(wù)的,不適應(yīng)整個社會與失業(yè)青年的需要,這就使學(xué)生與學(xué)校課程之間發(fā)生了尖銳矛盾。在這種情況下,美國一些受杜威教育思想影響的教育家,組織了進步主義教育同盟(PEA),他們提出教育的目的在于生活,在于兒童,反對舊的傳統(tǒng)的死記硬背的考試測驗。 他們以新教育理論為依據(jù),以全面發(fā)展人的才能為主要目標(biāo),設(shè)計了一套新的課程,并在7所大學(xué)30所中學(xué)進行教育實驗。為達到實驗?zāi)繕?biāo),需要研究一套新的考查教育成就的方法,經(jīng)推薦,組成了以泰勒為首的評價委員會,時間從1933年到1940年,歷時8年,史稱“八年研究”。 1940年,泰勒教授提出了第一個報告,第一次提出了“教育評價”這個概念,認(rèn)為實施教育評價首先必須分析教育應(yīng)達到的目標(biāo),再用這個目標(biāo)來評價教育的效果,運用評價來促進教育活動向理想的目標(biāo)逼近。被人們稱為“劃時代的教育評價宣言”。 (二)現(xiàn)代教育評價的發(fā)展階段 1、教育評價的開創(chuàng)時期(1930-1958) “八年研究”后,現(xiàn)代教育評價正式誕生,終于取代了教育測量成為考查教育效果,促進教育改革的重要理論和手段。 在這一階段中,教育評價方法論的實證化特點非常明顯。主要表現(xiàn)在目標(biāo)導(dǎo)向評價模式之中。首先,泰勒認(rèn)為開展評價的論據(jù)是把所要評價的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo),以便在評價中能夠圍繞這些行為目標(biāo)進行觀察和測定。其次,泰勒在他的評價模式中非常強調(diào)對學(xué)習(xí)和教育結(jié)果進行客觀的測量、統(tǒng)計。他提出三種評價手段:專家測驗、情境考察、提問作答。并提出運用時三個重要準(zhǔn)則:客觀性、信度和效度。 2、大發(fā)展時期(1958-1972) 1957年前蘇聯(lián)的人造衛(wèi)生上天后,美國朝野一片震驚,并對教育進行了深刻的反思。在加大教育投資力度的同時,教育評價很快從過去僅是學(xué)術(shù)機構(gòu)和民間的研究轉(zhuǎn)而被納入各級政府和各地方教育當(dāng)局的議事日程。1963年美國政府正式提出要對教育的效能和質(zhì)量進行評價,并撥出大量專款用于教育評價理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評價工作人員。 1963年,克龍巴赫發(fā)表《通過評價改革課程》,提出評價的內(nèi)容不應(yīng)僅僅是課程或教學(xué)目標(biāo)及其被達到的程度,而應(yīng)更關(guān)心對教育決策及其所依據(jù)的準(zhǔn)則的評價。為決策提供信息更應(yīng)是評價的中心。 1963年格拉澤發(fā)表文章,在指出相對評價的不足時,提出在學(xué)校教育中應(yīng)著重絕對評價。 1967年斯克里芬發(fā)表評價史上具有深遠影響的《評價方法論》,指出過去的評價不僅在理論上而且在實踐中都很不全面。他第一次對形成性評價與終結(jié)性評價、專業(yè)性評價與業(yè)余性評價、對目標(biāo)到達程度的評價與對目標(biāo)本身價值及比較性評價與非比較性評價等作了明確的闡述和區(qū)分。 1969年,艾斯納對泰勒的目標(biāo)評價理論進行了抨擊,認(rèn)為對教育本質(zhì)的不同理解,可以造成對目標(biāo)的不同表述,泰勒的評價方法不一定適用于教育實際,因為它既沒有提供評價目標(biāo)本身的方法,也沒有提出判斷評價目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。從此,以目標(biāo)為中心的評價模式不再是唯一的了。其它評價模式相繼出現(xiàn),目標(biāo)的價值結(jié)構(gòu)受到了挑戰(zhàn)。在這一段時間里,出現(xiàn)了40多種評價模式,各適用于不同的范圍,采取不同的方式方法。 3、專業(yè)時期(1973至今) 在這一階段中,教育評價方法論的人文化特點得到迅速發(fā)展并有超過實證化傾向的勢頭。這些評價模式的共同特點就是在評價中不只是單純從評價者的需要出發(fā),而是考慮到所有參與人的需要,強調(diào)個體的經(jīng)驗、活動和主觀認(rèn)識的作用,不過分追求客觀化,并試圖摒棄數(shù)量特征,而是從人的角度出發(fā),重視人文社會科學(xué)方法在評價中的運用。如應(yīng)答評價模式的應(yīng)答,就是讓評價對象和其他與評價有關(guān)人員提出他們關(guān)心的問題,并表達他們各自的意見,在評價過程中,評價者的職責(zé)就是把收集到這些資料與眾人討論,并以磋商的形式,逐漸消除分歧,最近達成共同的、公認(rèn)的、統(tǒng)一的觀點。 第二章 教育測量的基本問題(添加內(nèi)容) 一、測驗必須注意的問題 我們前面已經(jīng)說過,教育測量實際上是基于心理結(jié)構(gòu)的分析而進行的間接測查,這一特點給相應(yīng)的測量工具的設(shè)計帶來了幾個難題,如人事部門的一位心理學(xué)家想編制用于測試某工廠求職人員機械能力的測驗,一位學(xué)校心理學(xué)家想編制教師對身體殘疾學(xué)生的態(tài)度量表,一位教師想編制一套五年級學(xué)生解答多位數(shù)除法技能的單元測驗……這里,每個人要測的東西結(jié)構(gòu)上完全不同,那么應(yīng)該怎么來設(shè)計呢? 其實,對于所有的心理測評,測驗編制者至少要考慮五個問題: 首先,對任何結(jié)構(gòu)的測量不存在普遍認(rèn)同的一種方法,因為對某種心理結(jié)構(gòu)的測量總是建立在被認(rèn)為與該結(jié)構(gòu)相關(guān)的行為研究的基礎(chǔ)上間接進行的,當(dāng)人們談到同一結(jié)構(gòu)時卻往往選擇不同類型的行為給該結(jié)構(gòu)下操作性定義,也可能要求學(xué)生解答一系列問題,也可能要求學(xué)生寫出每一步的結(jié)果,也可能要求他們找出答錯的題目中的錯誤,也可能要求學(xué)生用多種方法解答,因而不同的操作性定義會得出不同的測量程序,這又很可能導(dǎo)致對學(xué)生知識水平的不同評價。 其次,心理測量通常是基于有限的行為樣組的。我們不可能考核所有我們要考查的行為,只能從其中抽樣,這就涉及測量題目的數(shù)量和內(nèi)容廣度,這是產(chǎn)生一個良好測量的最主要的步驟。 第三,測量的結(jié)果總?cè)耸艿秸`差的影響。 第四,測量量表缺乏定義清晰的單位。受測者未能回答出多位數(shù)除法測驗的任一測題是否意味著他們沒有這種技能?如果一位同學(xué)答對了5個題,另一同學(xué)答對了10個題,第三位同學(xué)答對了15道題,是否能認(rèn)為前兩位同學(xué)之間的差異與第二、三位同學(xué)之間的差異一樣呢?三個學(xué)生在測驗所測驗的能力連續(xù)體上的差距是否相等? 第五,心理結(jié)構(gòu)不能僅以操作定義來界定,還必須說明它與其他結(jié)構(gòu)或可觀察現(xiàn)象間的關(guān)系。雖然心理測量建立在可觀察到的反應(yīng)基礎(chǔ)之上,但只有它能夠按照所依賴的理論結(jié)構(gòu)進行合理解釋時,它才具有意義。因此(1)必須根據(jù)可觀察行為來界定結(jié)構(gòu),這類定義具體說明了如何進行測量;(2)必須在理論系統(tǒng)內(nèi)根據(jù)它與別的結(jié)構(gòu)間的邏輯或數(shù)學(xué)關(guān)系來界定結(jié)構(gòu),這類定義為的獲得的測量結(jié)果的解釋提供了基礎(chǔ)。 測驗理論在研究和評估中的作用為了闡明測驗理論在廣義的研究和評估方法學(xué)中的作用,把教育和社會科學(xué)研究看作是由幾個明確界定的步驟所組成的調(diào)查過程,將有助于問題的說明。這個過程可以分為以下幾個步驟: 1.簡潔明白地陳述研究的問題或假設(shè); 2.通過決定在研究中如何控制和測量變量,對假設(shè)中的每個變量下操作定義;(即選擇模型) 3.編制或選擇獲取和量化每一變量觀察值的工具及程序;(確定測驗分?jǐn)?shù)的使用目的-確定代表該結(jié)構(gòu)的行為(包括內(nèi)容分析、研究回顧、關(guān)鍵事件、直接觀察、專家判斷、教學(xué)目標(biāo)等方法)-領(lǐng)域取樣(包括隨機抽樣、系統(tǒng)抽樣、多階段抽樣、分層抽樣、整群抽樣、分層整群抽樣、重復(fù)抽樣、配額抽樣、判斷抽樣等多種方法)-準(zhǔn)備測驗說明書-項目編制(包括最佳行為測驗法(包括是非、多選、配對)、調(diào)查問卷項目形式(包括二分法、五級連續(xù)法、兩極形容詞列表法))) 4.檢查所使用的工具和程序的準(zhǔn)確性及敏感性;(注意精確性、與測驗說明相符或相關(guān)程度、項目編制的技術(shù)性缺點、語法、攻擊性語言或“偏見”的出現(xiàn)、可讀性水平等問題,然后進行試測檢查,進行項目分析,得出項目的相關(guān)指標(biāo),即信度、效度、難度、區(qū)分度等) 5.收集實驗設(shè)計框架內(nèi)的實驗資料,以回答最初提出的問題; 6.用數(shù)學(xué)方法處理數(shù)據(jù)資料,適當(dāng)?shù)乩媒y(tǒng)計檢驗去判斷觀察結(jié)果歸因于機遇的可能性。 在這個過程中,測驗理論的內(nèi)容與步驟2、步驟3和步驟4有很大關(guān)系。有必要指出,在進行大范圍的實驗研究(步驟5和6)之前,步驟4通常要求收集預(yù)試樣組試測結(jié)果的數(shù)據(jù)并進行統(tǒng)計分析,以確保工具的有效性。編制和預(yù)試研究工具失敗的部分原因是與教育和社會科學(xué)研究經(jīng)常具有矛盾和模糊的結(jié)果的特點有關(guān)。在物理和生物科學(xué)中,測量程序在實驗使用之前全都要經(jīng)過檢驗。一位生物化學(xué)家在沒花大量時間校準(zhǔn)分光儀,以保證它能夠提供精確的波長讀數(shù)時,是絕不會試圖去分析實驗室中未知的化合物的。然而,相比之下社會科學(xué)家們更經(jīng)常地嘗試通過實際上從未試用過的測驗去評估實驗程序如何影響了一個復(fù)雜的變量,如心理病人的焦慮水平或?qū)W前兒童的語言發(fā)展。從提出研究問題和定義變量直接跳到收集實驗資料的研究者很可能會一無所獲。假如研究者沒有觀察到各種處理之間的差異,那么他們也就不可能知道是各種處理無效,還是測量不那么精確以致處理的真實效果未被覺察到。在實施最后的正式實驗前,嚴(yán)格地遵照優(yōu)秀測驗編制程序和在實踐中試測的原則將對提高教育學(xué)和心理學(xué)研究的總體質(zhì)量大有裨益。 三、測驗理論中的統(tǒng)計概念(主要是復(fù)習(xí)) (一)頻數(shù)表和分布圖 (二)集中量數(shù)(眾數(shù)、中位數(shù)、平均數(shù)) (三)差異量數(shù)(全距、離差、方差、標(biāo)準(zhǔn)差) (四)Z分?jǐn)?shù)(后面還會再講) (五)正態(tài)分布 (六)用于描述兩個變量間關(guān)系的量(散點圖、相關(guān)系數(shù),包括皮爾遜積差相關(guān)、斯皮爾曼等級相關(guān)、點二列相關(guān)、列聯(lián)相關(guān)等) (七)用于預(yù)測個體表現(xiàn)的量(回歸分析、估計的標(biāo)準(zhǔn)誤等) 第二章 教育測量的質(zhì)量指標(biāo) 第一節(jié) 信度 一、 信度的概念 信度指測量結(jié)果的穩(wěn)定性或可靠性程度,亦即測量的結(jié)果是否真實、客觀反映了老先生的實際水平??蓮娜齻€方面來考慮: 第一,信度指實測值和真值相差的程度 測量的目的之一,就是希望通過測量得到的實測值能夠接近事物的真值。但由于各種原因,實測值與真值之間必然存在誤差。但誤差越小,說明信度越高。 x(實測值) = T(真值) + E(誤差) 由于真值是未知的,因此誤差值是大是小也是未可知的。一般為求得最接近的實測值都是通過多次實測取其平均值來作為真值的近似值。但這一方法缺乏實際可操作性,也無法求得信度的大小。 第二,信度是指統(tǒng)計量與參數(shù)之間的接近程度 統(tǒng)計量和參數(shù)是統(tǒng)計學(xué)中的兩個基本概念。統(tǒng)計量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計量越接近參數(shù),這個統(tǒng)計量的可靠性程度就越高,因此信度越高。 而要知道統(tǒng)計量與參數(shù)的接近程度高,可以對參數(shù)進行區(qū)間估計,這種方法對估計真分?jǐn)?shù)有用,但仍然無法計算出信度。 第三,信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度。 如果對同一對象進行兩次重復(fù)測量或者等值測量后,計算兩次測量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說明測量的信度越高;反之,信度越低。 但應(yīng)注意的是,重復(fù)測量會受到被試的經(jīng)驗、知識的增長等因素的影響,等值測量又較難編制,因此,采用這種方法計算信度時,也是有誤差的。 信度是任何一個測量的必要條件,對于教育測量來說,它具有更為重要的意義。因為教育測量的對象主要是精神現(xiàn)象,所測量的特性不易把握,為了能真實地反映測量對象的某種特點,更加需要注意測量的信度。 二、信度的理論公式 見P32。 這里需要注意的是,對實得分?jǐn)?shù)進行分解后,可以分解成真分?jǐn)?shù)的方差、隨機誤差的方差兩部分。很明顯,隨機誤差的方差越小,測量的信度就越高。 信度取值范圍為[0,1]。 三、信度的類型 用上面的理論公式計算不了信度,因為真分?jǐn)?shù)根本不知道,如果知道就不用算了。 實際中常用以下幾種方法(也就是幾種不同的信度): (一)穩(wěn)定性系數(shù)(重測信度) 指用同一測驗試卷,在先后兩個不同時間內(nèi)對同一組被試進行測驗,兩次測驗實得分?jǐn)?shù)的相關(guān)系數(shù)。這是最簡單的估量信度的方法。 要注意的是:(1)重測法只適用于速度測驗而不適用于難度測驗;(2)所測的信度大小,常常受到兩次測驗時間間隔長短影響;(3)第二次測驗沒有吸引力,不易引起被試的興趣;(4)要實施兩次測驗,耗費人力、物力和時間較多。 (二)等值性系數(shù) 當(dāng)同一測驗的一種型式不能或不適合實施兩次時,就需要采用該測驗的另一個平等測驗或者復(fù)份(復(fù)本)。復(fù)份要求在測驗的內(nèi)容、題數(shù)、格式、難度、平均數(shù)、標(biāo)準(zhǔn)差等方面應(yīng)與原測驗一樣,否則,估計的等值系數(shù)就會出現(xiàn)較大誤差。 決定等值系數(shù)的方法是,先實施第一次測驗,然后在最短時間內(nèi)實施第二份等值的測驗,再求它們的相關(guān)系數(shù),這個相關(guān)系數(shù)就是信度的等值性系數(shù)。 采用復(fù)份法估計信度系數(shù)要注意:(1)兩次測驗試卷要等值,即在內(nèi)容范圍、題型、題數(shù)、難度、區(qū)分度等方面要基本相同;(2)兩次測驗要盡可能在較短的時距內(nèi)進行;(3)確定兩次測驗是否等值,還要考察兩次測驗結(jié)果的平均數(shù)與標(biāo)準(zhǔn)差。但在實際操作中,要編制兩份等值的測驗是非常困難的。 (三)內(nèi)部一致性系數(shù) 前面兩種估計信度系數(shù)的方法都是要測驗兩次的,但在實際的測驗之中,一方面教師很難編制兩份等值的試卷,學(xué)生也沒有那么多時間和精力重復(fù)參加測驗。因此需要根據(jù)一次測驗來估計測驗的信度系數(shù)。這就是內(nèi)部一致性系數(shù),即把一次測驗人為地分成兩個部分,比較兩個部分的一致程度,從而估計信度系數(shù)。 按照分成兩個部分的不同,內(nèi)部一致性系數(shù)的估計方法有兩種: 1、分半信度 這種方法是將一次測驗分成兩個假定相等而獨立的部分來記分,通常是以題目的奇數(shù)為一組,偶數(shù)為一組,計算兩組的相關(guān)系數(shù),最后用斯皮爾曼—布朗公式校正,求得整個測驗的信度系數(shù)。(公式見教材) 2、庫德爾—理查森公式法 用這種方法只需要測驗一次,然后以各個問題的正確反應(yīng)數(shù)為基礎(chǔ)(此可視為各題難度的信息),或根據(jù)各人部分的平均數(shù)和標(biāo)準(zhǔn)差,計算信度系數(shù)。庫德爾—理查森公式有好幾個,最常用的是rKR20和rKR21。 rKR20的用法:以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計算(每題只有通過或未通過兩種分?jǐn)?shù))。具體公式見教材。 rKR21的用法:這個公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計算,無需各題難度的信息。公式見教材。 計算內(nèi)部一致性系數(shù),需要注意下列問題: A、若用分半法時,以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個測驗分為前后兩半,一方面前半部試題與后半部試題未必等值,另一方面被試者在完成后半部試題時,可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。 B、若速率是測驗的重要因素,則不宜用分半法,因為速度測驗中試題的難度低,被試者得分多少,在很大程度上是因為答題的多少,分半法易使得分相同,從而夸大分半法的信度估計。 C、如果答案多種多樣,得分也多種多樣時(如論文式考試),則不能用上列公式計算一致性系數(shù)。 (四)論文式測驗的信度系數(shù) 論文式測驗的評分,沒有嚴(yán)格的評分標(biāo)準(zhǔn),以致同樣一個題目,不同的應(yīng)試者的回答和得分都不一樣,所以無法用前面的公式,而要用克龍巴赫所創(chuàng)的α系數(shù)公式(見教材)。 (五)評分者信度 一般論文式考試,只能提供列出答案要點的參考答案而無固定的標(biāo)準(zhǔn)答案,因而不同的評分者對同一份試卷往往給分不同,甚至有很大懸殊。在作文測驗、投射測驗、品德測驗、創(chuàng)造力測驗等的評分中,都存在這個問題。 計算這種信度需要區(qū)分評分者的人次數(shù)。 若為2人評N份試卷,可用斯皮爾曼等級相關(guān)計算; 若為三人以上評N份試卷,則用肯德爾和諧系數(shù)計算。 四、提高信度的方法 (一)信度以多大為宜:對于學(xué)科測驗,要求達到0.9以上;智力測驗要求達到0.8以上;品德測驗?zāi)苓_到0.6以上就不錯了。 (二)測量誤差的來源 1、測驗本身所引起的誤差: 測驗本身的有些因素會直接產(chǎn)生誤差:如題目格式中的判斷題猜測的可能性會很大;規(guī)定的時限;用詞不準(zhǔn)確引起的誤解;題目的多少等。 測驗所包括的測題樣本也會引起測量誤差。 2、測驗的實施所引起的誤差: 如指導(dǎo)語錯誤,對答案紙的錯劃、時間記錄的錯誤、主試本身的主觀影響、記分誤差等。 3、被試引起的誤差: 這是最難控制的誤差,具體表現(xiàn)為動機的作用;學(xué)習(xí)、發(fā)展和教育的影響;對于測驗的經(jīng)驗;測驗的焦慮;生理因素等。 (三)提高測驗信度的方法 1、適當(dāng)增加測驗題目的數(shù)量,即可提高信度也可提高效度; 2、測驗的難度要適中,這樣信度能達到最大,也能使測驗區(qū)分度達到最大; 3、測驗的內(nèi)容應(yīng)盡量同質(zhì); 4、測驗的程序應(yīng)統(tǒng)一,包括試卷統(tǒng)一、測驗開始時的指導(dǎo)語、回答問題的方式、分發(fā)及收回試卷的辦法、測驗時間的掌握等,特別應(yīng)該提到的是,考試的組織問題、監(jiān)考問題等,這是關(guān)系到測驗信度的重要因素; 5、測驗的時間要充分; 6、評分要盡量做到客觀化、減少評分誤差。 第二節(jié) 效度 一、 概念 指測量結(jié)果的準(zhǔn)確性和有效性的程度,亦即測量是否達到了預(yù)期目的。 首先,測量的效度始終是對一定的測量目的而言的。一般而言,任何測量都有某種特定的目的和功能,判斷效度高低,就是判斷測驗達到目的的程度。 其次,測量的效度也是對測量的結(jié)果而言的。一種測量工具只能經(jīng)過實際測量,才能根據(jù)出來的結(jié)果判斷它的效度。所以也可以把效度理解為測量的結(jié)果正確反映所欲測量的特性或功能的程度。對于任何一種測量來說,只有當(dāng)它的測量結(jié)果真實、正確地反映所欲測量的功能和特性時,才能認(rèn)為這種測量是較為有效地或效度較高的。 第三,一種測量的效度只是高或低的問題。因為,一種測量在編制時,總是針對一定目的而編制的。不存在無效度的測量,只是高或低的問題而已。 第四,在教育測量中,效度問題比在其他領(lǐng)域的測量更為重要。因為,首先,教育測量的對象大多是精神現(xiàn)象,只能通過對其具有可測性的外部表現(xiàn)(如言語或動作等)的測量,以間接認(rèn)識其心理活動、心理特征或知識水平等。其次,學(xué)生的心理活動、心理特征與其外部表現(xiàn)之間,一般僅具有相關(guān)關(guān)系而無函數(shù)關(guān)系,外部行為并不能準(zhǔn)確無誤地反映某種心理狀態(tài)。此外,教育測量的對象不是物而是具有主觀能動性的人,人能有意識地調(diào)節(jié)自己的外部行為,掩蓋自己的內(nèi)心活動,這就增加了認(rèn)識其精神現(xiàn)象的難度。 二、效度的理論公式 實得分?jǐn)?shù)可分解為潛在真分?jǐn)?shù),系統(tǒng)誤差,隨機誤差三部分。 具體關(guān)系見教材P43。 三、效度的分類及估計 (一)、內(nèi)容效度 指測驗?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達到的程度,也就是測量內(nèi)容的代表性程度。 在編制測驗時,內(nèi)容效度是一個相當(dāng)復(fù)雜和不易解決的問題。以成績測驗來說,固然要求測驗題目能代表所學(xué)習(xí)過的全部內(nèi)容,但僅僅在形式上做到這一點還不能保證足夠的內(nèi)容效度,因為學(xué)習(xí)成績的高低要從學(xué)習(xí)內(nèi)容的鞏固程度、理解程度和應(yīng)用能力幾種行為反應(yīng)去考察。如果測驗題目大多是只需要牢記教材就可以回答的問題,那么,對全面測驗學(xué)生的成績這一目的來說,內(nèi)容效度仍然不高。 估計內(nèi)容效度的方法: 1、邏輯分析的方法。這是根據(jù)教育學(xué)和心理學(xué)的理論,根據(jù)教學(xué)大綱要求,勾畫出學(xué)生掌握知識內(nèi)容的范圍和深度,提出應(yīng)形成的技能名稱,然后以邏輯分析的方法估計測驗在多大程度上代表了這些內(nèi)容,在多大程度上能夠測量出所要測量的特性和功能。 2、用測驗題目與教材內(nèi)容比較的方法。這需要先制兩個表:一個是測驗的雙向細目表(見第三章),分別列出所要測驗的各單元教材內(nèi)容在考題中應(yīng)占的百分比和所要求的各種行為的反應(yīng)在全部反應(yīng)中的百分比。另一個表是測驗試題分類表,根據(jù)各單元教材內(nèi)容列出試題,并注明該題所要求的行為反應(yīng)及其應(yīng)占的百分比。然后對照這兩個表,根據(jù)各個部分相符合的程度判斷內(nèi)容效度的高低。 (二)效標(biāo)關(guān)聯(lián)效度 又稱經(jīng)驗效度或統(tǒng)計效度,是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗的效度高低的。 效標(biāo)就是足以顯示測驗所欲測量的特性的變量或足以顯示測驗所欲測量的特性的變量,作為檢定效度的參照尺度。 效標(biāo)關(guān)聯(lián)效度又可分為同時效度和預(yù)測效度。 同時效度指測驗與當(dāng)前效標(biāo)之間的關(guān)系程度;預(yù)測效度指測驗與將來的效標(biāo)之間的關(guān)聯(lián)程度。如用全國高考的成績作為效標(biāo)來檢驗高中畢業(yè)會考的成績,計算兩者的相關(guān)系數(shù)就是會考的同時效度;而用大學(xué)一年級的成績作為效標(biāo)來檢驗高考的成績,兩者的相關(guān)系數(shù)就是高考的預(yù)測效度。 效標(biāo)是用來衡量測驗效度的尺度。具體而言,效標(biāo)是辨別真?zhèn)蔚某叨?,?dāng)事物滿足該原則要求時,才能存在。效標(biāo)是不能違反的。當(dāng)然,標(biāo)準(zhǔn)可以提高,也可以降低。效標(biāo)不僅隨著測驗的種類不同而不同,也可能隨時間而改變。 選擇效標(biāo)是件困難而重要的事情。通常教育測驗所依循的效標(biāo),可采用各學(xué)科成績和教師的評定結(jié)果;智力測驗的效標(biāo),可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他相關(guān)事物;能力傾向性測驗的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績等;職業(yè)興趣測驗的效標(biāo),可采用從業(yè)人員實際服務(wù)成績或記錄;人格測驗的效標(biāo),很難找到,只能按編制者的主觀標(biāo)準(zhǔn)判斷,或以被試以后的行為或臨床資料作為效標(biāo)。 效標(biāo)關(guān)聯(lián)效度的計算主要通過計算相關(guān)系數(shù)求得,可用積差相關(guān)、二列相關(guān)或點二列相關(guān)、四格相關(guān)和多元相關(guān)系數(shù)等。(參見有關(guān)教育統(tǒng)計學(xué)教材)。 (三)結(jié)構(gòu)效度 指一個測量能實際測量出理論上的概念或心理特性的程度。它的目的在于用心理學(xué)的概念來說明分析測驗分?jǐn)?shù)的意義,也就是說從心理學(xué)的理論觀點就測驗的結(jié)果加以解釋和探討。 結(jié)構(gòu)效度的研究是較困難和有爭議的,至今從概念上和數(shù)學(xué)上作了部分解釋。確定一個測量的結(jié)構(gòu)效度之所以困難,是因為效標(biāo)、構(gòu)想不是直接可測的,因而不能計算測量與效標(biāo)的相關(guān)。 結(jié)構(gòu)效度確定的方法如下: 首先從某一結(jié)構(gòu)理論出發(fā),導(dǎo)出各項關(guān)于心理功能或行為的基本假設(shè); 據(jù)此編制測驗; 然后由果溯因,以相關(guān)、實驗和因素分析的方法,檢驗測驗結(jié)果是否符合心理學(xué)上的理論見解。 例如,從現(xiàn)代智力理論,可以推斷四項主要功能上的假設(shè):(1)智力隨年齡增長;(2)智商是相對穩(wěn)定的;(3)智力受遺傳影響;(4)智力與學(xué)業(yè)成就有密切關(guān)系。因此,在根據(jù)上述的假設(shè)編制智力測驗后,就要從上述四個方面進行檢驗。由此可見,結(jié)構(gòu)效度是由累積的證據(jù)來評價,不可能有單一的結(jié)構(gòu)效度指標(biāo)。 確定一個測量的結(jié)構(gòu)效度需要兩個重要步驟。首先,必須指出,這個測量和所用理論上認(rèn)為應(yīng)與之有關(guān)的其它測量,有顯著的相關(guān)。其次,必須指出,必須指出這個測量與所有理論上認(rèn)為不應(yīng)與之有關(guān)的其它測量,沒有明顯相關(guān)。 四、提高效度的辦法 (一)各種效度的要求 不同測驗對效度系數(shù)有不同要求。例如,智力測驗分?jǐn)?shù)與教師對學(xué)生的等級評定之間的效度系數(shù)一般在0.3—0.5的范圍內(nèi);相同科目的標(biāo)準(zhǔn)測驗成績與教師對學(xué)生名次排列之間的相關(guān)系數(shù)一般應(yīng)達到0.60—0.70之間;兩種不同的智力測驗或標(biāo)準(zhǔn)測驗之間的相關(guān)系數(shù)應(yīng)達到0.60-0.80,才能符合要求。 對效度系數(shù)大小的要求,也受原始與獲得效標(biāo)的測驗之間的相似性制約。若二者不相似,則效度系數(shù)偏低;若相似,則效度系數(shù)會高些。 (二)影響效度的因素 1、測驗組成方面:測題的性能是影響測驗效度的因素之一,如測驗的取材、長度、辨別力、難度及其編排方式等都和效度有關(guān)。 2、測驗實施方面:一個測驗的效度要保證,主試應(yīng)適當(dāng)控制測驗情境,遵照測驗守則的各項規(guī)定實施。 3、被試主觀狀態(tài)方面:被試的動機、興趣、情緒、態(tài)度和身體健康及是否充分合作與盡力而為等都能影響結(jié)果的可靠性和正確性。 4、估計效度所依循的效標(biāo):選擇適當(dāng)?shù)男?biāo)是統(tǒng)計效度的先決條件。如因所選效標(biāo)不當(dāng),以致測驗的效度不能顯出,則測驗的價值可能被淹沒。一個測驗因其所采用的效標(biāo)不同,其效度可能大相徑庭。從統(tǒng)計觀點來看,一個效標(biāo)關(guān)聯(lián)效度受下列三個因素影響:(1)測驗信度;(2)效標(biāo)變量測量的信度;(3)測驗變量和效標(biāo)變量之間真正的相關(guān)程度。 5、樣本方面:效度確認(rèn)所依據(jù)的樣本,必須能代表某一測驗所擬應(yīng)用的全體對象。一個測驗應(yīng)用于不同的對象,由于他們在性別上、年齡上、教育程度上以及經(jīng)驗背景上的差別,其測驗功能不一致,效度也隨之而異。樣本規(guī)模大小對效度也有影響。樣本的異質(zhì)性也會影響測驗的效度系數(shù)。 總之,為了增進測驗的效度,必須要求測驗編制和實施程度的標(biāo)準(zhǔn)化,注意被試在測驗情境中的行為反應(yīng),并顧及適當(dāng)樣本和效標(biāo)的選擇,以建立符合測驗?zāi)康暮凸δ艿男Ф取? (三)提高效度的辦法 1、控制系統(tǒng)誤差。 2、精心編制量表。首先,測驗內(nèi)容要確實能反映測驗?zāi)康模黄浯?,題目表述必須清楚、簡明,所用字、詞、句能為學(xué)生理解,內(nèi)容應(yīng)能引起被試者的興趣,排列則易到難,但前面的題目不應(yīng)暗示后面的答案;再次,題目難度合適,有足夠區(qū)分度;最后試卷印刷清楚,無錯誤和遺漏,并力求精美。 3、妥善組織測驗。 4、擴充樣本的容量和代表性。 5、合理處理效度和信度的關(guān)系。信度是效度的必要條件。雖然信度高的測驗效度不一定高,但效度高的測驗,信度卻一定比較高。效度和信度的關(guān)系是:效度的最大值等信度的平方根。但是,既要有高效度同時又要有高信度是不大可能的。例如,同質(zhì)性測驗(量表的所有題目測驗相同的因素)信度較高,但對預(yù)測來說,效度卻很低。非同質(zhì)性測驗(其測驗內(nèi)容測量不同因素)預(yù)測效度高,但是信度卻比較低。所以,要提高預(yù)測效度的一個重要辦法,是增加非同質(zhì)性,即增加新因素。在處理信度和效度的關(guān)系上,首先要保證高的效度。 6、適當(dāng)增加測驗的長度 增加測驗長度可以提高信度,而效度的最大值又與信度有關(guān),所以可以提高效度。增加測驗長度對信度的影響大于對效度的影響。具體關(guān)系見教材P49表。 第三節(jié) 難度 一、 概念 難度指測驗試題的難易程度。 在教育測量中,客觀題的難度一般用正確回答試題的人數(shù)與參加測驗的總?cè)藬?shù)的比值來表示。 即P=R/N。R為答對的人數(shù),N為參加測驗的人數(shù)。 因此,這里難度實際代表的是易度。 難度是試題對學(xué)生知識和能力水平的適合程度的指標(biāo)。試題難度不但對題目的區(qū)分度有影響,而且對試卷的信度和效度也有較大影響。 很明顯,難度是一個相對概念,難度的高低與被試的水平直接相關(guān)。一種測量對這一組被試是高難度的,可能對另一組被試是低難度的。也就是說,難度是由參與測量的被試群體的整體水平?jīng)Q定的。 二、難度的計算 (一)基本公式 1、客觀題:P=R/N 2、主觀題:P=平均得分/此題的滿分 (二)用極端分組法計算試題難度 當(dāng)考生人數(shù)較多時,用基本公式計算需要對所有考生得分進行統(tǒng)計,工作量大,而且常常出錯,且需要所有學(xué)生的得分。如果條件不具備,則無法計算了。這時可以用極端分組法,無論是客觀題還是主觀題都可以使用。 1、用極端分組法計算客觀題的難度 具體步驟如下:(1)先按測驗總分的高低,按由高到低依次排列試卷;(2)從得分最高的一分試卷開始向下依次選出全部試卷的27%作為高分組;(3)從得分最低的一份試卷向上依次選出全部試卷的27%作為低分組;(4)按下列公式計算難度。 P=(PH+PL)/2 其中PH為高分組難度,PL為低分組難度。高低分組的難度按基本公式計算。 2、用極端分組法計算主觀題的難度 論文式試題一般不能簡單地判定對與錯或通過與不通過,難度計算比較復(fù)雜。具體步驟如下:(1)按測驗得分排列試卷,確定高分組與低分組,各占總?cè)藬?shù)25%(具體辦法同前);(2)分別為高分組與低分組編制每道試題的分析表;(3)按下列公式計算難度。 P=(XH+XL-2nl)/ 2n(H- L) 這里公式的意義應(yīng)搞清楚! 其中XH代表高分組得分總和,XL代表低分組得分總和,n代表總?cè)藬?shù)的25%,H為這道題的最高得分,L為這道題的最低得分。 三、難度對測驗的影響 1、測驗難度影響測驗分?jǐn)?shù)的分布形態(tài) 難度過大或過小,都會造成測驗分?jǐn)?shù)的偏態(tài)分布。難度值越接近0,測驗的難度就越大,正確回答試題的人數(shù)就越少,測驗分?jǐn)?shù)就越是集中在低分段,其分?jǐn)?shù)分布呈正偏態(tài);相反,難度值越接近1,其難度越小,正確回答試題的人就越多,測驗分?jǐn)?shù)集中在高分段,分?jǐn)?shù)分布呈現(xiàn)負(fù)偏態(tài)。 2、測驗難度影響測驗分?jǐn)?shù)的離散程度 測驗難度直接影響測驗分?jǐn)?shù)的離散程度,因為難度過大或過小,測驗分?jǐn)?shù)的分布都呈偏態(tài)分布,亦即測驗分?jǐn)?shù)都分布在高分段或低分段,這樣,測驗分?jǐn)?shù)的離散程度就變小。而這一定符合考生的實際情況,因為考生的差異是客觀存在的。只有難度適中,其分?jǐn)?shù)的分布范圍才有可能達到最大。 3、測驗難度影響測驗的鑒別能力 指難度與區(qū)分度的關(guān)系,在區(qū)分度里再說。 四、測驗的適宜程度 從難度公式,我們得出P的取值一般在0與1之間。當(dāng)P=1時困難程度最?。此锌忌蓟卮鹫_);當(dāng)P=0時困難程度最大(即所有考生都回答錯誤)。 在常模參照性測驗中要求試題難度適中,即大多數(shù)題目的難度在0.3—0.7之間,少數(shù)題目可在這一范圍之兩邊且題數(shù)(或題分)大體相當(dāng),使整個試卷的平均難度為0.5左右(0.45—0.55)之間。只有適中的題目難度,才能使試題產(chǎn)生區(qū)- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 教育 測量 評價 教案
鏈接地址:http://www.820124.com/p-8844620.html