《信度的简介.ppt》由会员分享,可在线阅读,更多相关《信度的简介.ppt(83页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第五章 信度 导 学 信度是评价测验优劣的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决三个问题:一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差。内容细目第一节 误差的理论 第二节 信度的理论第三节 信度的估计方法第四节 影响信度的因素第五节 测量的标准误差 第一节 误差的理论一、误差的定义和种类二、误差的来源三、真分数 一、误差的定义和种类 心理测量中所指的误差就是在测量中与目的无关的变因所产生的不准确或不一致的效应。此定义包含两层意思:一是误差是由与测验目的
2、无关的变因引起的;二是误差是不准确或不一致的测量结果。误差主要有两种类型:系统误差、随机误差。系统误差 是由与测验目的无关的因子所引起的恒定的、系统的、有规律的变化,存在于每次测量中,故又称常定误差。它直接影响着测量的准确性,与效度有关。因为它们在测验中不引起测量结果的不一致性,所以与信度无关。如图所示:v 从图可看出,所有的射击几乎都落在靶心的同一外侧,射击的偏差具有一致性、系统性。随机误差 是使用测量工具进行心理测量所造成的误差,又称测量误差、观察误差、偶然误差。它是由与测验目的无关的偶然因素引起,使得几次测量结果不一致,且这种不一致是无系统的、随机的。随机误差与信度及效度都有关系,信度则
3、完全受随机误差影响。如图所示:v 由图可看出,所有的射击几乎是随机地散落在靶心的四周,不具有一致性和规律性。二、误差的来源(一)测验内部引起的误差(二)由施测过程引起的误差(三)由受测者本身引起的误差 在心理测量中,常见的误差来源于三个方面:测验内部、施测过程、受测者本身。(一)测验内部引起的误差 测验内部引起的误差主要来源于题目取样:当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大;当几个测验复本不等值时,接受不同的题目,就会获得不同的分数;测验题目格式不妥;测验的难度过高或过低;测题或指导语用词不当;测验时限过短。(二)由施测过程引起的误差 三种误差来源中,此种误差可能是最容易控
4、制和检验的。与施测过程有关的误差主要有以下几种:1.物理环境 施测现场的温度、光线、声音、桌面好坏、空间阔窄等皆有影响。2.主试者方面 主试者的年龄、性别、外表,施测时的言谈举止、表情动作等均能影响测验结果。3.意外干扰 在测验环境复杂,特别是当受试人数较多时,容易发生意外情况,这会导致测验成绩不准确。4.评分记分 评分不客观、计分、登记分数出错等也是常见的误差。(三)由受测者本身引起的误差 即使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。主要有以下几种:1.应试动机 受测者对测验的动机不同,会影响其作答
5、态度、注意力、持久性、反应速度等,从而影响测验成绩。2.测验焦虑 一般来说,适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极的影响。过高的焦虑却会使工作能力下降,注意分散,记忆中储存的东西不能提取,影响测验成绩。3.生理因素 生病、疲劳、失眠等生理因素会影响测验成绩而带来误差。4.学习、发展和教育 由一般学习经验或发展变化所引起的测验分数上的差异,在大多情况下,只构成恒定误差,但有时也构成随机误差。5.测验经验 受测者对测验的经验也会影响测验成绩,对测验的程序和技能熟悉程度不同,所得分数便不能直接比较。6.练习效应 任何一个测验在第二次应用时,都会有练习效应而使成
6、绩提高。7.反应方式 反应方式是指独立于测验内容的反应倾向。这种反应倾向也会影响测验成绩。三、真分数 所谓真分数就是一个测量工具在测量没有误差时,所得到的纯正值。其操作定义是:经过无数次测量所得到的平均值。真分数的定义表明,一个人在一个测验上所得的分数,即是它的真分数的函数,也是测量误差的函数,用公式表示如下:X=T+E(5.1)这里 X为实得分数或观测分数,T是假设的真分数,E是测量误差。需要说明的是,这里的测量误差(E)指的是引起测量不一致性的变因产生的效应,即指随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。在公式(5.1)中E可能是正的,也可能是负的。即一个人的实得分
7、数可能大于真实量,也可能小于真实量,总是围绕真值上下波动。真分数理论的三个基本假设:误差分数的平均数是零(由于测量误差具有随机性);误差分数与真分数相互独立,即相关为零;两次测量的误差分数之间的相关为零。对于一个团体来说,实得分数、真分数和测量误差之间有如下关系:SX 2=S T2+SE2(5.2)即实得分数的变异数等于真分数的变异数加上误差变异数。(推导公式)SX 2=S T+E2=S T2+SE2+2r TES TSE=S T2+SE2 公式(5.2)只涉及随机误差的变异,系统误差的变异包含在真分数的变异中,即ST 2=S V2+SI2(5.)式中S V2是与测量目的有关的(有效的)变异数
8、,SI2 是与测量目的无关但却是稳定的变异数。可得公式:SX 2=S V2+SI2+SE2(5.4)这就是说,一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和测量误差变异数所决定的。SV2 SI2 SE2 Sx2 ST2第二节 信度的理论 一、信度的定义 二、信度系数 三、信度与测验分数的解释 一、信度的定义 信度又叫可靠性。指的是测量的一致性程度。一个好的测验必须稳定可靠,即多次测量的结果要保持一致。在测量理论中,信度被定义为:一组测验分数的真变异数与总变异数(实得变异数)的比率。即 rxx=ST2/Sx2 式中rxx代表测量的信度,ST2代表真分数的变异数
9、,Sx2代表是实得分数的变异数,即总变异数。该定义有两点需要注意:第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;第二、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估计。信度涉及的主要问题是对测验分数意义的概化能力,即从一次测量来推论总体能达到何种正确程度。二、信度系数 大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数(rxx)。对信度系数要注意三点:第一,在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数;第二,信度系数只是对测
10、量分数不一致程度的估计,并没有指出不一致的原因;第三,获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。信度系数要达到多高才可以接受呢?一般能力与学绩测验的信度系数在0.90 以上;人格测验的信度系数通常在0.80 以上。当rxx 0.70时,不能用测验对个人作评价,也不能在团体间作比较;当 rxx 0.70时,可用于团体间比较;当rxx 0.85 时,可用于鉴别个人。第三节 信度的估计方法 一、重测信度(一)定义与计算(二)误差来源(三)计算重测信度的几个假设(四)使用重测信度的优缺点(五)注意事项 二、复本信度(一)定义与计算(二)误差来源(
11、三)等值测验应符合的条件(四)注意事项(五)使用复本信度的局限 三、分半信度(一)定义及计算(二)分半的方法(三)校正公式 四、同质性信度(一)定义(二)计算 五、评分者信度 六、几种信度估计方法的比较信度是一个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。因为测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。下面介绍五种估计信度的方法。一、重测信度(稳定性系数)(一)定义与计算定义 用同一种测验,对同一组受试者,前后施测两次,再根据受试者两次测验分数计算其相关系数,即得再测信度。即测验时距(几
12、分几年)再测验 此种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。计算方法 计算使用皮尔逊积差相关公式的变式:rxx 式中、为同一被试的两个分数,、为两次测验的标准差,为被 试人数。(二)误差来源1.测验本身:测验所测的特性本身就不稳定,例如情绪。2.被试方面:成熟、知识的发展并非人人都等量增长,且练习因素、记忆效果也存在个体差异。3.施测情境:偶发因素的干扰,如计时错误,情绪波动,健康状况,动机变化等。重测信度高,说明分数受被试状况和测验情境变化影响小。这里题目取样并不影响重测信度。(三)计算重测信度的几个假设 所测量的特性必须是稳定的;遗忘与练习的效果相同;两次
13、施测期间被试的学习效果没有差别。(四)使用重测信度的优缺点(优点)能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。(缺点)容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。(五)注意事项两次测验的时间间隔要适当。最适宜的时距随测验目的、性质及被试特点而异;此方法适用于速度测验或人格测验,不适于难度测验;注意提高被试的积极性。二、复本信度(等值系数)(一)定义与计算 1.定义 根据一组被试在两个平行(等值)测验上的得分计算相关系数。即 测验复份A 测验复份B 因为它反映的是两个测验之间的等值程度,故又
14、称等值系数。最短时距 2.计算方法 rxx=ABABAB 式中A、B为同一被试在两个测验复 份A、B上的分数,A、B为A、B两 型测验的平均分数,A、B为A、B两型测验的标准差,N为被试人数。(二)误差来源 1.测验两种形式是否等值:(1)测题取样是否匹配;(2)格式是否相同;(3)内容、题数、难度、平均数、标准差是否一致。2.被试方面情绪波动、动机变化等。3.测验情境的变化,偶发因素的干扰。(三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使用的必须是真正的复本。复本应符合以下条件:1.各份测验测量的是同一种心理特性;2.各份测验具有相同的内容和形式;3.各份测验的题目不应有重复的
15、地方;4.各份测验题目数量相等,并且有大体相等的难度、区分度;5.分数分布(平均数和差异度)大致相等。(四)注意事项 1.两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似;2.两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生干扰。(五)使用复本信度的局限 1.只能减少但不能完全消除练习和记忆的影响;2.由于第二个测验只改变了题目的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题。3.对许多测验来说,建立复本是十分困难的。三、分半信度(一)定义和计算 在测验无复本且只能施测一次的情况下,通常用分半法估计信度,即将测题分成
16、对等的两半,根据各人在这两半测验的分数,用皮尔逊积差相关公式计算其相关系数,作为信度指标。分半信度考察的是两半题目之间的一致性,故这种信度系数也称内部一致性系数。计算分半信度仍然可用积差相关方法。(二)分半的方法 要计算分半信度,首先是如何将测验分半,以便得到最接近的可比较的两半。通常采用奇偶分半法。使用此方法应注意:1一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。2当试卷中有任选题时不宜使用分半法,速度测验也不宜用。(三)校正公式 分半法求得的相关仅是半个测验分数相关,应使用“斯皮尔曼布朗”公式加以校正,藉以估计整个测验的信度。1.斯皮尔曼布朗公式 rxx=2rhh/(1+rhh)
17、其中,rhh为两半分数的相关系数,rxx为测验在原长度时的信度估计。此法假设:两半测验分数的变异性相等,但实际资料未必符合此假设。当两半不等值时,即上述假设不满足时,可采用下面两公式之一:2弗朗那根公式:rxx=21-(Sa2+Sb2)/Sx2 其中Sa2和Sb2分别表示两半测验分数的变异数,Sx2表示测验总分的变异数。3卢伦公式:rxx=1-(Sd2/Sx2)其中Sd2表示两半测验分数之差的变异数,Sx2表示整个测验分数的变异数。四、同质性信度(一)同质性的含义 所谓同质性指的是测验内部题目的一致性。即测验里各题得分为正相关(测验里各题得分相关为零叫异质)。题目内部的一致性主要受两方面变异的
18、影响:1内容的一致性;2所研究的行为的同质性。(二)同质性信度的计算 1库德理查逊公式:(1)K-R20公式:rkk=K/(K-1)(Sx2-piqi)/Sx2)式中K表示整个测验的题数,pi为项目通过率,qi为项目未通过率,Sx2表示测验总分的变异数(方差)。(2)K-R21公式,适用于各题难度相近的情况:rkk=K/(K-1)(Sx2-K piqi)/Sx2 pi为题目的平均通过率,qi为1-pi。K-R21公式计算较为简单,但求得的信度系数有低估的倾向,当题目难度相差大时偏差更大。公式K-R20和K-R21只适用于0,1记分的测验。2克伦巴赫系数 适用于非0,1记分的一种内在一致性系数。
19、其公式如下:=K/(K-1)1-(Si2/Sx2)其中Si2为每一项目分数的变异数,其他字母意义与K-R20相同。上面这些公式均不适用于速度测验,因为只有每个人都做完全部题目时,题目的变异数才是准确的。五评分者信度 考察评分者信度的方法是:随机抽取相当份数的试卷,由两位或多位评分者按记分规则分别给分,然后根据每份试卷的分数计算其相关系数,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的。当多个评分者评多个对象,并以等级法记分时,可用肯德尔和谐系数作为评分者信度的估计:W=Rt2-(Ri)2/N/(1/12)K2(N3-N)其中,K是评分者人数,
20、N是被评的对象数,Rt是每一个对象被评等级的总和。六、几种信度估计方法的总结比较 估计信度的方法与测验复本的数目以及施测次数的关系所需要的施测次数 所需复本的数目一 二一二 分半信度 同质性信度 评分者信度再测信度 复本信度(连续施测)复本信度(间隔施测)各种信度系数相应的误差来源信度系数的类型 误差变异的来源 再测信度 时间取样 复本信度(连续施测)内容取样 复本信度(间隔施测)时间与内容取样 分半信度 内容取样 同质性信度 内容的异质性 评分者信度 评分者间的差异 随堂练习 1.假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。测验X1
21、 16 15 13 13 11 10 10 9 8 7X2 16 16 14 12 11 9 11 8 6 7被 试 1 2 3 4 5 6 7 8 9 10 2.假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果如表所示,X1,X2 分别代表A、B两型测验。求该测验的复本信度。测验 被 试 1 2 3 4 5 6 7 8 9 10X1 20 19 19 18 17 16 14 13 12 10 X2 20 20 18 16 15 17 12 11 13 9 3.假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分的评分者信度。三位专家给6篇论文的评定专家 1 2 3 4
22、5 6 1 2 4 1 5 6 2 2 3 4 1 5 5 2 3 3 4 1 4 6 2第四节 影响信度的因素 一、分数分布范围二、测验长度三、测验的难度四、间隔时间 误差变异越大,信度越低。除前面谈到的几种误差来源外,还有以下几个因素会影响信度系数的大小:一、被试样本(分数分布范围)(一)团体的异质性 信度系数受分数的分布范围(全距)的影响,而分数范围与被试团体的异质程度有关。一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示:图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在小方框中显示的是一个高度同质的亚团体,
23、两次分数几乎呈随机变化,相关接近于零.(二)团体的平均水平 对于不同的团体,题目具有不同的难度。每个题目在难度上的微小差异积累起来便会影响信度。例如,同一量表对不同年龄,不同IQ水平的被试,信度则不尽相同。因此,我们在编制测验量表,抽选被试时,往往要考虑选取不同层次的被试,以使得测验团体呈异质性,从而使得信度提高。反之,当需要同质团体的信度时,就应该尽量选取同一层次的被试。二题目的数量 一般说来,在一个测验中增加同质的题目,可以使信度提高。即测验越长,信度越高。这是因为测验加长,加大了分数分布的范围,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平。即测验的项目越多,在每个项目上的随
24、机误差就可以互相抵消。增加测验长度的效果可以用斯皮尔曼布朗的通式来计算:rkk=Krxx/1+(K-1)rxx 式中K为改变后的长度与原来长度之比,rxx为原测验的信度,rkk为测验长度是原来的K倍时的信度估计。一般来说,题目数量对相关系数的影响是递增的。如表所示:题目数量相关系数10 50 100 200 300 400 5000.50 0.83 0.91 0.95 0.968 0.976 0.980 但增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,可以通过下式确定一个测验究竟要增长多少才能达到理想的信度水平:K=rkk(1-rxx)/rxx(1-rkk)应注意一点,只有当新题目是
25、与原题目选自同一总体,增长测验才能改进信度。三、测验难度 要使信度达到最高,能产生最广分数分布的难度水平方为合适。通常这个难度为0.5。洛德提出选择题的理想平均难度是:五选题0.70、四选题0.74、三选题0.77、是非题0.85。四、间隔时间 间隔时间越短,信度系数越大;间隔时间越长,受外界影响越大,信度系数越小。第五节 测量的标准误差 一、测量的标准误差 个人在两次测验中的分数差异就是测量误差,据此可制成误差分数的分布。这个测量误差分布的标准差就是测量的标准误(SE),是表示测量误差大小的指标。测量标准误可以通过一次测验结果及信度估计得到,公式如下:SE=Sx1rxx 式中,SE为测量标准
26、误,Sx 为所得分数的标准差,rxx 为测验的信度。从信度可以解释个人分数的意义,这就是测量标准误的应用。它有两个作用:其一是估计真分数的范围;其二是了解实得分数再测时可能的变化情况。在实际中,我们往往用一组被试施测两次的结果来代替对同一个人反复施测,以估计误差变异数。测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。根据公式,知道了一组测量的标准差和信度系数,就可以求出测量的标准误,进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同置信水平上真分数的置信区间。(人们一般采用95%的置信水平,其置信区间为:X1.96SE TX1.96SE
27、)可见,测量的标准误差可以用来估计个人的真分数。例如,已知WISCR的标准差为15,信度系数为0.95,对一名12岁的儿童实施该测验后,IQ(即X)为110,那么他的真分数在95%的可靠度要求下,变动范围应是多大?解:SE=Sx1 rxx SE=Sx1rxx=1510.95=3.35 已知 X=110 将其代入X1.96 SETX1.96 SE中,则 1101.963.35 T 110+1.963.35 即 103.4 T 116.6 这就是说有95%的把握断定该儿童真分数在103.4到116.6之间。练习:在WISCR中,甲生在测验中得到78分,乙生得了81分,那么乙生比甲生的成绩高吗?(注
28、意事项)第一、SE 对真分数作的是区间估计,不可能由此得到一个确切的点。这就说明,测验分数不是一个定点,而是具有一定的分布范围,或呈带状。这样就不会对两次测验之间微小的差别作过分的解释。第二、置信水平确定后,估计的精确度主要取决于SE,SE越小,估计就越精确,相反则越粗略。第三、真分数不等同于真正能力或特质。当系统误差对实测分数产生影响时,用此方法估计出的真分数就并非代表被试的真正能力或特质。二、直接估计标准误差 用复份法和重测法估计标准误差时,可以采用公式 SE=0.707SX1-X2 SX1-X2是两次测验分数差异的标准差。随堂练习 1.假设有一个包括 10个题目的测验,信度为0.50,若
29、把测验增加到50个题目,其信度将增加到多少?2.一个包含50个题目的测验信度为0.75,欲将信度提高到0.90,需要增加多少题目?本章小结v 信度又叫可靠性。指的是测量的一致性程度。一个好的测验必须稳定可靠,即多次测量结果要保持一致。v 在测量理论中,信度被定义为:一组测验分数的真变异数与总变异数(实得变异数)的比率。v 大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标。v 信度是个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。因为测验分数的误差来源不同,估计信度的方法也不同。v 信度与误差变异之间有密切的关系。误差变异越大,信度越低。v 被试样本、测验长度、测验难度及间隔时间都会影响信度的估计。思考问题v 何为信度?考察一个测验信度的意义。v 何为信度系数?v 试比较信度估计的不同方法。v 指出各种信度系数的误差来源。v 影响信度的因素包括哪些方面。v 为什么使用同一测验先后向同一被试施测,所得分数会不完全一致。
限制150内