心理测验的客观性及注意事项

在许多场合,心理测量和心理测验常被作为同义词来使用。的确,这两个概念的内涵在很大程度上是重叠的,但它们又存在显著的区别。心理测验是了解人心理的工具,主要在“名词”意义上使用。而心理测量则是运用测验为工具,达到了解人类心理的实践活动,它主要在“动词”意义上使用。因此,相对而言,心理测量的意义范围更广一些。能被应用于实际心理测量的心理测验才是真正有效的测验工具。当然,不去应用规范标准的心理测验工具的心理测量活动同样也不能称之为科学的测量。为有助于理解心理测量与心理测验之间的关系,下面阐述心理测验概念的基本内涵及心理测量客观性指标。
一、心理测验的定义
www.sport120.com什么是心理测验?不同学者提出了不同观点,如陈选善认为“测验是一个或一群标准的刺激,用以引起人们的行为,根据此行为以估计其智力、品格、兴趣、学业等。”F.G.Brown认为“所谓测验,是对一个行为样组进行测量的系统程序。”A.Anastasi认为“心理测验实质上是对行为样组的客观和标准化的测量。”
以上对心理测验概念内涵的阐述都是正确的,虽然侧重之处各有不同,前两个侧重指出测验的名词性质,即它们是“标准的刺激”或“系统的程序”。第三种说法则从功能上对这些刺激或程序加以扩大,指明它们是为测量服务的。综合上述三个定义,可见“心理测验”之中具有三个要素,即行为样组、标准化以及客观性。
(一)行为样组
前已述及,心理测验测量的对象是人的心理特性,而测量心理特性又是凭借对其密切相关的行为的间接测量来进行的。但我们不可能在一个心理测验中,把所有与该心理特性相关的行为全部测量到,而只能选择其中一部分行为进行测量,以这部分被测量的行为作代表,来推测与其关联的心理特征。这一组行为,称为行为样组。换言之,为了正确地、可靠地推论所要测量的东西,就得凭借一组行为,这一组行为称为行为样组。
由于测验是引起行为的工具,这就要求我们在编制测验时,必须慎重地选择有代表性的行为样组。如果所选的行为样组缺少代表性或与欲测的心理特性关系不密切,那么我们就不能凭此推论个体的特性。
应该指出,行为样组的行为,它们总是由一定的测题引发和测量的。但行为与测题之间的关系不见得如编制测题者所设想的那么完全对应,因为有些测题并不一定直接引发和测量与被测量的心理特性有关的行为,也许可能引发和测量到的是与该行为相关的其他东西。一个测验的好坏,首先决定于测题编制的好坏,即必须要求这些测题能够引发和测量出具有高度代表性的行为样组。
(二)标准化
标准化是指测验的一致性,即测验的编制、实施、记分以及测验分数解释的程序的一致性。为了保证测验的条件对所有被试相同,为了能对所测得的分数进行评价,必须把上述操作标准化。这样才能保证在相同的条件下进行比较,比较的结果才有意义。因此,一个好的测验,必须严格经过标准化;一个好的主试,必须能严格执行测验所规定的标准化要求。
标准化的内容包括:测验用品的一致性,测验指导语的同一性,测验中主试与被试关系的稳定性,测验评价的一致性等等。概言之,所有能保证测验条件一致性的东西都是标准化应考虑的内容。标准化的另一重要步骤是建立常模。
(三)客观性
客观性是衡量科学性的一个根本标志,对于心理测验尤为重要,这是决定一个心理测验能否存在的必要条件。心理测验的客观性,是指测验不受主观支配,其测量方法是可以重复的,测验的实施、记分和解释都是客观的。行为样组的代表性和测验程序的标准化,都是为了保证这种客观性。
常模是测验分数相互比较的标准,是解释测验结果的参照。一般说来,它往往是标准化样组在该测验上的得分分布情况。其逻辑是:根据概率论,在人群中选取一组适用测验规定范围的受测者作为所有测验对象的代表,这一组受测者称为标准化样组;其被测得的得分分布情况,可以作为所有测验对象(全域)的代表,标准化样组在某一测验上的平均分数成为可以比较的“常模”;我们把以后某个受测者的得分,通过与该“常模”的比较,就可以知道该受测者在标准化样组中所处的位置,并据此可推出受测者在全域中的水平。
由此可见,标准化样组的代表性,决定着测验常模的客观性,并进而影响整个测验的客观性。如常模过时,样组分布偏态,样组规模过小等情况发生时,测验的客观性都会受到影响。
二、心理测验的客观性
心理测验客观性可从许多方面加以衡量,常用的指标有以下几个:信度和效度,难度和鉴别力。信度和效度是测验客观性的两个最重要的指标。
(一)信度
信度是指测验结果的可靠程度。只有测验结果接近或等于实际真值或多次测量结果十分接近,才能认为测量结果是可靠的。
科学的东西必须能够重复。测验作为工具使用,当然要求它本身是可靠的。两次测量的结果绝对相同是不可能的,但相对而言,它们应当具有基本的一致性,差异应该极小。信度问题的实质是一组被试两次测量的一致性问题。信度高低可用相关系数来表示,即用相关系数来估计两个随机变量一致性变化的程度。信度估计方法有以下几种:
1、重测信度
它的求法是先运用某个测验实施首测,相隔一段时间后对它进行再测,然后计算首测与再测所得分数的相关。
2、复本信度
它的求法是先运用同一测验的一型或A型施测,随后在最短的时间内运用二型或B型进行再测,然后再求它们得分的相关系数。
3、内在一致性信度
常用的方法是将一个测验分裂为两个假定相等而独立的部分,然后计算这两部分的记分的相关系数(一般是以项目的奇数为一组,偶数为另一组),继而再用斯皮尔曼——布朗公式来估计整个测验的信度。
综上所述,信度高低是用相关系数表示的。不同的测验内容,对相关系数的要求有所不同。一般说来,标准智力测验应达到0.85以上,个性测验和兴趣测验一般应达0.70—0.80水平,学业成就测验要求信度在0.90以上,才能被称为是一个良好的测验。
影响测验信度的因素有:
1、测验的长短
一般说来,测验越长(问题数越多),信度就越高。当然,测验过多,被试就会厌烦,也会降低信度。而且项目越多,就可能包含有离开测定目标的不纯项目。
2、被试得分的离散程度
得分之差(用标准差表示)越小的组,其测验的信度就越低。因此,对于有较大的个人差异的受测群来说高信度的测验,在运用于高度选择了的对象群时,信度会变低而不起作用。例如,在全国性规模实施的升学能力倾向测验,即使对全体被试显示出相当高的信度系数,但若施测于优秀高中毕业生而作为一流大学的入学选拔,未必能成为信度高的测验。
3、被试群体的能力水平
在某种能力水平上信度高的测验,对于别的能力水平的群体未必信度就高。例如,比奈智力测验对低能力的成人有相当高的信度,但对于普通智力以上的成人,其信度就低。
4、被试的年龄
一般来说,间隔期间越长,信度系数就越低。这是由于在间隔期间,个体的发展与成长所带来的变化或其他因素影响了测验的成绩。
此外,以下因素也会影响心理测验的信度:(1)被试方面:身心健康状况、动机、注意力、持久性、求胜心、作答态度等;(2)主试方面:不按规定实施测验,制造紧张气氛,给予特别协助,评分主观等;(3)测验内容方面:试题取样不当,内容一致性低,题数过少,题义模糊等;(4)施测情境方面:测验现场条件,如通风、温度、光线、噪音、桌面好坏、空间阔窄等。
(二)效度
测验的效度是指一个测验实际测量出所测特性或功能的真实性程度,或者说,是指一个测验真正确实地测量到它所欲测量的东西的程度。
效度是心理测验最重要的客观性指标,没有效度指标的测验是不能使用的。鉴别一个测验的好坏,其首要指标就是效度。效度是针对测验目的而言的。不同测量有不同测验目的。某个智力测验,它对于测量智力来说,可能是高效的,而用它来测量性格则肯定是低效的。我们在选择心理测验时,要明确该测验是用来测什么的,不能盲目乱用,否则将导致无效的测量。效度可分为三类,即内容效度、结构效度和效标关联效度。
1、内容效度:表示测验所选的项目(测题)符合所欲测验内容的程度。对智力测验而言,内容效度就是指测题的选样是否具有代表性。确定内容效度的方法有两个:(1)逻辑法:即请有关专家对测验题进行考核,看测验是否能够测出所要测的内容;(2)经验法:即通过实践检查测验能否测出欲测的内容。
2、结构效度:表示测验实际测量出所欲测量的心理结构或特征的程度。
3、效标关联效度:又称实证效度或准则关联效度,它是测验分数与作为效标的另一独立测验结果之间的一致程度。在某些情况下,往往把准则关联效度也包含在结构效度内。
效标关联效度又可分为两种。效标分数与测验分数同时获得的,称为同时效度。效标分数在测验之后相当时间(几个月到几年)获得的,称为预测效度。前者主要用来查明修订或自编测验的效度,后者主要用来评价测验的预测能力。一个好的测验,根据其测验的目的和性质,往往需要多个效度指标达到相当高的水平。
影响测验效度的因素有:
1、测验的组成
试题是构成心理测验的要素,测验题目的选取,试题的长度、区分度、难度及编排方式等均会影响测验效度。
2、测验的实施
测验的实施程序是影响效度的重要因素。若主试能够适当控制测验情境,严格遵照测验手册的各项规定实施测验,则可避免外在因素影响测验结果的正确性。例如,测验的场地布置、时间限制、材料的准备等方面,如不遵照说明书规定的标准化程度进行,则必然使效度降低。
3、被试的反应
被试的兴趣、动机、情绪、态度和身体健康状况等都足以决定在测验情境中的行为反应;被试是否充分合作和尽力而为,也能影响测验结果的可靠性与正确性。无论是能力测验还是人格测验,只有被试反应真实,其测验效度才能高。
4、其他因素
如被试的取样是否具有代表性,所用效标的可靠性,效标和测验分数的关系类型以及被试的机体变化等,都会影响到测验的效度。
(三)难度与鉴别力
测验量表的好坏与项目(测题)的选择有很大的关系。好的测题是鉴别力高并且难度适宜的项目。
1、项目的难度
项目难度是衡量测题难易水平的数量指标。估计项目难度的方法通常是以被试通过每个项目的百分比来决定的。如果某一项目通过百分比太高或太低,这说明该项目太易或太难了。一般情况下,这种项目应该删除。
2、项目的鉴别力
它是衡量测题对不同水平被试区分程度的指标。如果一个测题的鉴别力高,那么水平高的或能力强的被试就会得分高,水平低的或能力弱的被试就会得分低,这样就能把不同水平的被试区分开来了。而鉴别力低的测题,则意味着它不能对水平或能力有差异的被试作出很好的区分。
估计项目鉴别力的方法通常是以不同水平的被试通过每个项目的百分比之差来决定。项目的难度和鉴别力之间有一定的关系。一般说来,中等难度(0.5左右)的项目鉴别力最高。三、应用心理测验的注意事项
(一)特殊性与经济性
迄今为止,大部分具有体育运动特点的心理测验,是为一般体育运动情境设计的(例如,运动竞赛焦虑测验),而不是只为某一项体育活动设计的(例如,高尔夫球竞赛应激量表)。究竟是应更多地从特殊性出发,不惜花费极大的人力,物力,去为各个运动项目,各种运动情境研制效度更好的测量工具,还是应更多地从经济性出发,仅集中人力、物力研制具有体育运动普遍意义的测量工具,仍是一个争论的问题。但至少运动心理学在自己的发展中越来越感到由于研究对象的特殊性,若仅依靠直接借用其他心理学领域中的量具已不能适应研究的需要。同时,运动心理学自身的发展也使它在方法学上逐渐成熟起来,可以自己研制出符合体育运动特殊要求的量具。
(二)测验工具的完善化
迄今为止,绝大部分体育运动领域专用心理测验都是用作研究工具,而不是用作在运动实践中可以推广的诊断,评价工具。在奥斯特洛搜集的175种运动心理学测量工具中,得到大量参考文献支持的不足10%,说明大部分测量工具缺乏进一步的研究、开发、利用和完善,许多测验的研制都成为一次性用过就丢的产品。
许多运动心理学研究人员从体育运动的特殊性出发,以其新颖的创意,研制符合研究目的的测量工具,的确令人鼓舞。但是,一些测验研制者似乎缺乏不懈的努力精神使这些测量工具得以不断完善。
众所周知,测量工具的研制、发展和完善是一个长期的,艰苦的过程。需要对测验条目不断地进行修订,需要在不同的群体中进行复测,要花费许多年的工夫才可使效度、信度,区分度等心理测量学特征在目标群体中稳定下来。
(三)测验手册的制订
测验手册一般都包括了信度、效度、常模、施测过程指导、施测注意事项、测验的应用范围等内容,它是评价和使用测验的指南。
体育运动领域心理测验手册的一个范例是马腾斯在20世纪70年代制定的《运动竞赛焦虑测验》手册。该手册说明了竞赛特质焦虑构想的理论框架,以此作为实证的基础。该测验还叙述了选择测验条目时的各种考虑,说明了在不断完善测验的各个阶段,都采取哪些具体措施。当然,测验手册还提供了信度、效度的证据,初次标准化工作时的常模以及一份完整的测验题。由于测验手册的完整性和规范性,使得许多研究者得以利用这一测验来对马腾斯的理论构想进行检验并直接为运动实践服务。其他国家的一些研究者将该测验翻译、修订为本国文字,并进行了本国条件下的标准化工作。
但是,大部分测验无法像《运动竞赛焦虑测验》那样广为流传,为运动心理学的理论和实践做出更大贡献。究其根源,没有一个标准化的测验手册显然是一个不可忽视的重要原因。
(四)年龄的适用性
迄今为止,大部分测验都是以青少年为测验对象制定常模。为儿童和老年人专用的测验甚少。在有些情况下,考虑被试的年龄问题是极其必要的。比如,儿童言语理解能力可能会妨碍他们准确理解诸如“我感到十分焦虑”这样的测验题目,又例如给老年人提出“我宁愿减少工作时间,进行系统严格的训练,以争取参加奥运会并取得优异成绩”这样的问题以调查被试的体育成就动机,也会让人感到啼笑皆非。马腾斯的《运动竞赛焦虑测验》之所以流传甚广,还有一个非常重要的原因,就是该测验有适用于10—15岁的儿童和适用于16岁以上的成年人使用的两个版本,即运动竞赛焦虑测验儿童版(简称SCAT—C),以及运动竞赛焦虑测验成人版(简称SCAT—A)。体育运动实践的发展,使得儿童和老年的体育锻炼活动更为系统和广泛地开展起来,受到社会的重视,因此,运动心理学似乎也应有相应的关注。
 

相关推荐

利发国际官方网