测量
第一章 绪论
1、 测量:依据一定的法则使用量具对事物的特佂进行定量描述的过程。
2、 测量的基本要素:测量参照点,绝对参照点(绝对零点),相对参照点;测量
单位,好的单位应具备的条件。
3、 测量的量表
量表的含义:使事物的特征数量化的数字的连续体就是量表。
量表的类型:Stevens将量表从低到高分为4个等级。
命名量表(Nominal Scale):用数字来代表事物或对事物进行分类。代号、类别。数字只是一种名称的替代物。不同的个体用不同的数字标志;
顺序量表(Order Scale):给个体赋值,使数值的大小次序与个体在所测量的心理特性上的多少、大小、高低等的次序相符合;
等距量表(Interval Scale):给个体赋值,使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序,而且能够反映出对应个体在该特性上的差异程度;
比率量表(Ratio Scale):给个体赋值,使数值间的比率能够反映对应个体在测量心理
特性上比率。心理测量通常都是次序量表,为方便比较,通常把次序量表转换为等距量表。
4、 心理测量的定义 :根据一定的法则用数字对人的行为加以确定,即依据一定
的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。
5、 心理测量的特点:心理测量的间接性;心理测量的相对性,心理测量只是确
定个体在行为连续体上的位置;心理测量是顺序等级测量,等距转换:将原始数据转化为常态分布下的标准分数。
6、心理测验定义:Anastasi:“心理测验实质上是对行为样本的客观的和标准化的测量。” Brown:测验是“测量一个行为样本的系统程序。”
7、心理测验的三要素:
行为样组含义:能反映被试行为特征的一组代表性行为。代表性
标准化:测验内容的标准化,施测条件的标准化(测验情境、指导语、测验时限),评分规则的标准化,分数解释的标准化:常模
客观性:评价测验客观性的指标,信度和效度:试卷;难度和区分度:项目。
8、 心理测验的分类
按测验标准化程度:标准化测验、非标准化测验
按测量的功能分类:能力测验(智力测验、特殊能力测验、能力倾向测验);学绩测
验(成就测验)(已获得的学业成就);人格测验(兴趣、态度、动机、气质、性格)
按测量的对象分类: 个别测验、团体测验
测验材料的形式:语言或文字测验、非语言或操作性测验(文化公平测验)
按测验的难度和时限分类:难度测验、速度测验
按测验的目的分类:描述测验、诊断测验、预示性测验
测验结果的解释方法:常模参照测验、目标参照测验
按测验的要求分类:最高行为测验、典型行为测验
测验刺激性质:构造性测验、投射测验
按测验的应用分类:教育测验、职业测验、临床测验
第二章 测验理论
1、心理特质的含义:心理特质就是表现在一个人身上所特有的相对稳定的行为方式。
特点:一组内部相关的行为的概括;比较稳定,对不同的刺激做相同的反应;通过特质可以对人的行为作出预测;特质可以分为多个层次 。
2、测量误差的含义
定义:指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。
两层含义:引起原因上:与测验目的无关的因素;表现方式上:测验结果的不准确或不一致。
测量误差的种类:系统误差,测量工具本身引起的误差(稳定);随机误差,由不稳定因素引起的误差(不稳定)。
测量误差的来源:测量工具(测验内部)引起的误差(题目取样、指导语、难度、时限、测验复本不等值);由测量对象引起的误差(测验的经验、练习因素、应试动机、测验焦虑、反应定势、生理因素);由施测过程引起的误差(物理环境、主试者方面、意外干扰、评分计分 )
3、真分数的含义
真分数(True Score):一个测量工具在没有测量误差时,所得到的纯正值
操作定义:经过无数次测量所得到的平均值
观察分数(Observed Score):被试在测验中所得的未经任何加工的分数
误差分数:测量误差引起的分数
第三章 测量信度
1、 信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。
注意:(1)信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;(2)同一种信度系数也会因样本、测查时间不同而有多个。(3)信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。(4)获得较高的信度只是测验有效的必要条件。
信度的作用:信度是测量过程中所存在的随机误差大小的反映;信度可以用来解释个人测验分数的意义;真分数的置信区间(95%)=X±1.96SE;信度可以帮助进行不同测验分数的比较
使用的前提条件:所测量的心理特质必须是稳定的;练习和遗忘的效果基本上相互抵消;在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。
2、 重测信度
重测信度是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数。误差来源:测量时间不同所带来的随机误差。
使用的前提条件:所测量的心理特质必须是稳定的;练习和遗忘的效果基本上相互抵消;在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。
3、 复本信度
复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度。皮尔逊积差相关系数。等值性系数:两个复本测验是同时连续施测的。稳定等值系数(重测复本信度):两个复本测验是相距一段时间分两次施测的。
使用的前提条件:两测验真正平行;被试要有条件接受两个测验。
4、分半信度
分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。校正后的皮尔逊积差相关系数。
校正公式:斯皮尔曼-布朗公式rxx= 2 rhh /(1+ rhh)
常见的分半方法是按测题序号奇偶分半:测验题目按某种顺序(如难度)排列;如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。
5、同质性信度
同质性信度也叫内部一致性系数,是指测验内部所有题目间的一致性程度。
6、评分者信度
评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。2人时:相关系数;多人时:肯德尔和谐系数。
7、提高测量信度的常用方法:适当增加测验的长度;使测验中所有试题的难度接近正态分布,并控制在中等水平;努力提高测验试题的区分度;选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度;主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰。
8、 信度好坏的判断标准:
标准化能力或学绩测验:>0.90;人格测验:>0.80;教师自编学绩测验:>0.60测验使用时的信度标准:一般来说,当信度<0.70,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当0.70≤信度<0.85时,可用于团体比较;当信度≥0.85时,才能用来鉴别或预测个人成绩。
第四章 测量效度
1、效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的程度。效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。效度是测量的随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据。
2、效度与信度的关系
信度高是效度高的必要而非充分的条件,一个测验效度高,其信度也必然高,但一个测验信度高,其效度不一定高;测验的效度受它的信度制约rXY≤rXX 一个测验的信度必然比效度高,至少相等。
3、内容效度
内容效度(content validity)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此,一个测验要有内容效度必须具备两个条件:要有定义完好的内容范围;测验题目应是所界定的内容范围的代表性取样。
内容效度的确定方法
逻辑分析法:专家判断,根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。为使内容效度的判断过程更客观,一般采用下列步骤:①确定测验内容的总体范围;②编制双向细目表;③编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。
统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。
经验法:再测法,前测→教学→后测,如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。
内容效度的特点和评价
适用范围:内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验。但不适用于能力倾向测验和人格测验。
时间性
缺乏理想的数量指标内容效度不是表面效度,表面效度(surface validity):外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。人格测验要求表面效度不宜过高。
4、结构效度
结构效度是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。
特点:具有不同理论构思的测验,其结构效度是无法进行比较的;结构效度有时很难获得;结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。
结构效度的确定方法
结构效度确立的一般步骤:提出理论框架;依据理论框架推演出有关测验成绩的假设;用逻辑或实证的方法来证明假设。
具体方法:
测验内部寻找证据法
分析测验的内容效度:若内容效度高,说明其结构效度也高;分析被试对题目反应的特点:有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。计算测验的同质性信度:分半信度、α系数、KR20、KR21
测验之间寻找证据法
相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。
区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。
因素分析法:得出的因素符合理论的构思,说明效度高。
考察测验的实证效度法:根据效标把被试分组,考察其得分差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。
多种特质-多种方法矩阵法(方法:1、2、3;特质:A、B、C)
搜集某些变异上的证据(智力随年龄变化而变化)
对构想效度的评价:有些构想概念模糊,缺乏一致的定义;没有明确的操作步骤与程序;没有单一的数量指标
5、实证效度
实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准,简称效标。所以,实证效度又称效标关联效度。同时效度:测验分数与效标资料是同时收集的。预测效度:先获得测验分数,隔一段时间后,再收集效标资料。
效标就是衡量一个测验是否有效的外在标准。观念效标:理论定义,如“大学的成功” ;效标测量:操作定义,如大学成绩。常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。
效标的特性:多样性(一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量);复杂性(几乎每一种效标行为都由多种特质构成,包含复杂的成分—);特殊性(即使一个普通的效标,在应用时也有特殊性);时间性(近期效标与最后效标)。
效标测量的条件:有效性(效标测量能真正反映观念效标);可靠性(有较高的信度);客观性(效标测量必须能真正反映观念效标,防止效标污染);实用性(经济实用)。
效标污染是指评定者知道被试的测验分数,因而影响到对效标的客观评定。
实证效度的确定方法
相关法:测验分数与效标测量之间的相关系数。
区分法:测验→工作→效标测量(工作成绩)按工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的。
命中率:
功利率:对使用测验所需的费用和所得到的收益进行比较,看是否利大于弊。一个测验如果简单易行,省时省钱,不经过特殊训练的人也能掌握,又适合于团体施测,那么,即使效度低一些,也会有人使用。反之,只有效度极高,能给人带来很大好处时,才会使用。
影响测量效度的因素:
测验的构成:测验长度与效度的关系:r(Kx)y = K rxy /√K(1- rxx +Krxx)
测验的实施过程:
接受测验的被试:常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。测验偏倚(test bias)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。
所选效标的性质:测量行为与所选效标的相似性越高,效度越高。测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。效标本身的测量越可靠,效度就可能越高。
测量的信度:
提高测量效度的方法:精心编制测验量表,避免出现较大的系统误差;妥善组织测验,控制随机误差;创设标准的应试情境,让每个被试都能发挥正常的水平;选好正确的效标,定好恰当的效标测量,正确地使用有关公式。
第五章 测验的项目分析
1、难度(difficulty)的意义:难度,指项目的难易程度。在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”或“流行性” 。两者都是指在总体中,能够正确或确切回答某项目的人数。
难度的计算
二分法记分项目的难度:通过率P=R/N;极端分组法(上下27%)P=(PH+PL)/2
二分法记分项目的难度:P=X / Xmax (X为所有被试在该项目上的平均得分, Xmax为该项目的满分)。
2、测验难度水平的确定;效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;对于选择题来说,难度一般应大于猜测概率;无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。大体而言,难度为0.50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.50± 0.20之间变化。
难度的等距变换:根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。
4、 难度对测验的影响
测验难度影响测验分数的分布形态(难度大,正偏态);难度低,负偏态;测验难度影响测验分数的离散程度;测验过难或过易,分数全距缩小,信度降低。P=0.50时最佳
项目难度范围对信度系数的影响
项目的组间相关大,则测验的信度高。而项目组间相关高,那么它们的难度也越接近
5、区分度的意义
区分度是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。
区分度的计算:项目鉴别指数法
鉴别指数(index of discrimination,D)的计算(D = PH - PL 取值范围:-1~ +1)
第六章 测验常模
1、原始分数与导出分数
原始分数:按评分标准对被试反应所评的分数。
原始分的缺陷:无绝对零点、单位意义不明显且不等距、不具可加性、不具可比性。
导出分数:按照一定的规则,对原始分进行统计处理后获得的分数。特征:具有一定参照点和单位,可以相互比较。与量表的关系:量表是具有一定参照点和单位的连续体,导出分数是原始分数经过转换后在量表上的数值,因此导出分数又称量表分数。
分类
常模参照分数,发展量表:智龄、年级当量、发展顺序量表;组内量表:百分等级、标准分数
标准参照分数,内容参照分数:掌握分数、正确百分数、等级评定量表;结果参照分数:期望结果的概率、预期的效标分数
2、 常模与常模团体
常模:常模团体在某测验的分布或成绩。意义是测验结果解释的参照依据
常模团体:具有某种共同特征的人所组成的一个群体,或是该总体的一个样本。
3、 常模团体的条件:
常模团体构成界限明确;常模团体是所测群体的代表性样组(标准化样组);样本大小要适当(样本大小可根据以下几方面来确定:常模总体的数目----一般标准:不少于30~100人;全国性常模,一般应有2000~3000人。总体性质----总体性质单一,样本不要太大;总体性质复杂,样本应大一些。测验结果的精确度----精确度要求高,样本量就大);常模团体必须是近时的;一般常模与特殊常模结合。
4、 发展常模
含义:心理特质随时间以系统的方式发展所处的水平。类型:年龄常模、年级常模、发展顺序常模。年龄常模:在某年龄组的平均操作水平。指标:心理年龄(智龄)。确定:将题目分到不同的年龄组;或者利用标准化样组构造年龄常模;据儿童答对那些题目或得多少分而归入年龄对照表(常模表)----基础年龄加上更高年龄水平(用月份计算)。评价:易理解和解释;不稳定,不适于成人。
年级常模:某年级全体学生典型水平的一个分数。指标:年级当量。应用:教育成就
测验。确定:与年龄常模相似----用年级月数表示,评价:只适于一般课程;解释困难;常被误用。
发展顺序常模:婴幼儿行为发展观察中发展起来的。
比率智商
5、标准分数常模
线性Z分数,性质:以 为0点,S为1的量表表示;以标准差为单位,是一种等距量表;分布形态与原始分布的形状相同;若原始分数分布为正态,则Z分数范围为-3~+3。正态化的标准分数.含义:原始分数分布为非正态时的正态转换。若原始分数分布为正态,可直接作正态转换,即为线性Z分数的一类。方法:先把原始分数转化为百分等级,再把其转换为正态分布上相应的Z值;“平滑(smoothing)”,一种曲线拟合(curve-fitting)拟合过程。性质:对原始分数的非线性转换;有一个正态曲线分布。内容:T分、标准九分、离差智商
Z分数的转换,原因:线性和正态化的Z分数不变计算和解释,因此经常要将Z分数作一线性转换。一般的转化形式为:
T分,最初由McCall(1939)定义,以报告儿童在一份智力测验上的成绩,含有纪念Terman和Thorndika二人之意。T分转换公式为: ,即平均数为50,标准差为10。确定:先求累积概率,然后确定Z分,代入上式得T分;或者根据每一组距组中值直接查表。
标准九分,T分的单位是0.1s,这在应用中可能过于精确。而标准九分除两个极端分数(1和9)外,其单位是0.5s。转换公式: ,即平均数为5,标准差为2。
离差智商,韦克斯勒智力测验的离差智商,包括两次转换:分量表分:求原始分数的累积概率,确定Z分,然后代入下式得出其量表分。总量表分(言语量表、操作量表、全量表):把分量表分汇合,算出量表总分的均数和标准差以确定Z分,然后代入下式得出其量表分。
6、常模的呈现方法
转化表由X、导出分数及对常模团体具体描述等三要素构成的表。类型:简单表、复杂表。
剖析图:以图形表示测验分的转换关系
7、 标准与常模
区别:标准是人们所期望而事先决定的目标;常模是大量被试在某种行为属性上的一般状态。
联系:从某种意义上来说,常模起着标准的作用。
内容参照分数:内容参照又叫范围参照,按被试对指定范围中的内容和技能掌握和熟悉程度解释。编制:确定知识或技能范围;编制报告掌握程度的量表。解释,掌握分数:确定被试对知识和技能是否掌握的最低标准。 一般以80% ~ 90%的正确回答作为最低标准。掌握测验只分掌握(通过)和未掌握(未通过),没有具体的得分。正确百分数:被
试在测验中的正确百分数。确百分数=100×(答对题目数/总题目数)等级评定量表:主试对被试的知识或技能进行等级评定。
第七章 心理问卷的编制及分析
1、心理测验编制的一般程序:
测量目标的分析(理论界定,结构分析:访谈,开放式问卷;封闭式问卷;因素分析);编题(形式:一般以客观题为主,编排);试测(抽样,定量分析);形成正式题本,进行信、效度分析;取常模或制定标准;编写测验手册
2、 心理测验的技术
测量目标的分析技术:
⑴明确中心概念,确定研究范围
首先应明确中心概念的涵义,在此基础上,根据研究的目的,确定要研究哪些成分。尤其是一些抽象的、复杂的概念包含的内容多,不同人理解的层面或角度可能不一样,因此,更有必要根据研究目的和对象对其操作化,以确定研究的内容与范围。⑵构建问卷框架可从以下方面入手:①分解中心概念,构建问卷框架。比如结合中小学生的实际情况,将他们的需要分解为生理与物质生活需要、安全与保障需要、交往与友谊需要、尊重与自尊需要、课外活动与精神生活需要、学习与成材需要、奉贤与创造需要等7个方面。②以理论为依据,构建问卷框架。如以心理学家Rokeach把价值观分为“工具性价值观(实现人生价值的手段)”和终极性价值观(实现人生价值的目的),从实现人生价值的目的
和手段两方面构建价值观问卷。③设计开放式问卷,作试探性的小规模调查,构建问卷框架。④此外,还可通过查阅文献、个案研究方式收集资料,构建问卷框架。⑶在构建问卷框架的基础上,进一步将大问题分解,直至提出具体的问题。
⑵指导语的功能与设计
指导语即问卷的开场白,它在较大的程度上决定着调查对象是否愿意真正作答,因此,必须给予足够重视。指导语的三项功能:⑴建立初步的心理融洽,引起调查对象回答的意向与动机。可作三个说明,说明调查者的身份(研究者身份),强调是为了进行科学研究,而非其他私人目的,以取得调查对象的信任。说明研究的目的和价值,对其价值的阐述最好能与调查对象的个人利益联系起来,以激发其回答的动机。说明需要调查对象的协作的重要性。⑵消除调查对象的顾虑,可从两方面说明:①说明本问卷是匿名问卷或无须知道调查对象的姓名,以消除调查对象担心自己的想法暴露的顾虑。②说明调查对象的回答不存在对错,以减少调查对象担心自己回答是愚蠢或不正常的顾虑。⑶通俗阐明回答的内容和具体要求。回答的具体要求包括:问卷填写的规则、回答的方式、回答问卷需要的大致时间
⑶问卷格式的选择与设计
问卷的整体形式(结构与非结构化问卷),问卷题目的特性,开放性问卷(数字型问题、文字型问题),封闭式问卷(类别性问题、连续性问题)
Likert问卷
克特氏问卷是广泛应用在社会与行为研究中的一种问卷格式,适合于态度测量和意见
的判定。典型的Likert量表由一组测量某一个相同特质或现象的题目所组成,每一个题目均有相同的重要性。每一个单一的题目,包含了一个陈述句与一套量尺。量尺由一组连续数字所组成,每一个数字代表一定的程度,用以反映被试对于该陈述句同意、赞成或不同意、反对的程度。⑵李克特氏量表分数的计算与运用有一个基本的假设,即数字与数字之间的距离是相同的,在这一假设下,不同的题目才可以加总得到一个量表的总分,因此Likert量表又称为总加量表,表示量表的总分由个别题目加总所得。 ⑶编写的基本步骤①编写项目(Item Generation)编写出许多表面效度的项目。②项目分析与选择(Item Analysis and Selection)计算项目得分与总分的相关系数,然后选择10到20个相关程度最高的项目(0.80以上较好),以得到一量表。③施测(Administration) 将项目随机排列后,给被试填写,且要安排反向题,以发现那些被试是完全不看项目内容,而只在按照某一个习惯作答。至于分数的计算,则为被试各个项目得分的加总。因此又称为总加量表。
评价:优点,最通用,因为使用简单。缺点,不一定为等距尺度。所以是否可由各项目得分相加以求算总分尚有待商榷。被试间不一定存有可比较性。因此相同的分数所代表的意义不一定相同。被试内不一定存有可比较性。所以一被试所谓的〝常常〞看电影与〝常常〞打篮球,所表示的实际频率可能不同。被试通常不愿选择太极端的值,或因顺从社会规范而不诚实作答,致使测量存在误差。
Thurstone问卷
Thurstone格式所编写的量表称为Thurstone量表,此量表也是由一组测量某相同特质的题目所组成,但是每一个题目具有不同的强度,被试勾选某一个题目时,即可获得一个强度分数,当一组题目被评估完毕后,所有被勾选为同意的题目的强度分数的中位数,即代表该量表的分数。⑵Thurstone量表的编制过程较为复杂。首先,编制者先将编写完
成的一组题目(约数十个),交由一群相关的实务人员,请这些评估者按照个人喜好或实务上的重要性,将题目归类,例如将最不重要或轻微的标为1,最重要的归为11,其它的依序给予1至11不同的数字,代表不同的重要性。评分完成之后,每一题可以计算出一个平均数或四分位差(Q Score),每一个题目的Q分数如果越大,代表大家的评分越分散,重要性越模糊,但是如果大家一致认为某个题目很重要或很不重要,该题目的Q分数则会越小,变异情况较小,模糊性低。研究者即依模糊性的高低选出最一致性的题目十至二十题,并使其平均数能涵盖不同轻度高低,组成一套Thurstone量表,此时这十几题不但内容上具有特定的重要性,而且模糊性低,且每个题目都有一定的重要性权重(即重要性平均数)。Thurstone量表完成后,由受测者逐题依“同意”或“不同意”作答,回答同意的题目计一分,并乘以该题重要性的权重得到个体分数,再以各题分数的中数代表该量表的得分。该量表的测量较Likert尺度更符合等距的原则,因此,该方法也被称为等距量表法。但是,该量表制作过于复杂,评分者选择有其代表性与客观性问题,且耗时较多,因此并不经常被采用。 ⑶Thurstone问卷的编写步骤编写项目(Item Generation)至少写出100到200个项目,使其总体能反应出所要测量概念的全面观点。然后,最少请20人对这些项目以11点量表来评分,再依次计算各项目得分的中位数与四分位差。项目分析与选择(Item Analysis and Selection):选择中位数最接近整数的项目。如果二题以上的中位数相同则挑选四分差最小的。若一项目A的四分位差大于此项目A与另一项目B(项目B为中位数和项目A最接近的项目)中位数差的一半,就表示评审们对项目A的看法很不一致,必须要考虑删除才行。施测(Administration)将已决定的项目随机排列,给被试填写。则被试的得分即为其勾选项目所代表之量表分数。若勾选项目超过一个以上,则以其各项目得分的中位数计分。评价:①优点,可由此方法得到一接近等距尺度的测量值,且可以可用单一数值来表达一概念。②缺点,整体制作过程费时费力。项目评审者不一定具有代表性。二名被试可能勾选不同的项目,却得到相同的分数,则相同的分数背后的模式不同。因为当受试者勾选二题以上时,是以其中位数计分,可能会有勾选的项目不同,却得分相同的情况出现。虽然可藉由选择中位数字最接近整数与四
分位差最小的项目来减低这种情况所发生的机率,但却不能完全免除。
语意差别测量
⑴使用两极化形容词来表示测量的内容。语意差别法对于题目分数的计算,除了个别的使用每一个形容词配对来进行平均数的计算之外,还可以将形容词加总获得总分来计算,因此,也是一种总加量表。
⑵此外,除了可以用Likert量表的尺度之外,另一种替代的方法是以一段开放的线段,让被试自由点出其意见倾向,再以点选的距离来代表被试的强度,因此也被称为视觉类比测量。
强迫选择问题
⑴强迫选择问题是利用两个立场相反的描述句,其中一句代表正面的立场,另一句代表反面的立场,要求被试自两者中选择出比较接近自己想法的题目,然后将正面的题项勾选题数加总得到量表的总分。 ⑵强迫选择量表主要在于改善Likert量尺对于两极端强度测量敏感度不足的问题,当被试在两个立场向左的陈述句作二选一选择时,即明确的指出个人的立场,而不会由中庸模糊的分数。此外,强迫选择问题能够回避一些反应心向的问题,减少被试以特定答题趋势去回答问题(例如中庸取向,一致偏高分作答等等)。 ⑶强迫选择量表的缺点之一时量表的长度比传统Likert量表多出一倍,增加了编题者的工作量。⑷强迫选择量表在销售调查或民意测验时,用以了解被试的立场时有其强迫表态的优点。
形容词表单
单可以说时一种简化的Likert量尺的测量格式,正对某一个测量的对象或特制,研究者列出一组关键的形容词,并要求被试针对各形容词的重要性进行评估。⑵形容词表单是一种探索性的测量方法,一般研究中对于形容词的选择大多并没有理论依据。当被试针对一组形容词进行判定之后,利用因素分析的技术来进行分类或以特定方式重新分组。在某些人格量表中,测验编制者基于特定的理论或实证的研究数据,列出某一心理特质相关的重要形容词,组成形容词表单,对被试进行施测,加总得到的分数即代表该心理特质的强度。
⑷问题的类型及设计
据问题的功能,将问题分为接触性问题、实质性问题和辅助性问题三大类。
接触性问题, 一般包括一组几个彼此联系,且与所要研究的课题具有某种程度上接近或有趣的问题;它主要是为建立接触,在调查结果分析时可能不会全部用到,甚至完全不用;问题设置应简单明了;比如,“我是一个小学生”、“我喜欢参加体育运动”
实质性问题,是分析整理心理问卷材料的主要来源,是为获得实质性材料而设计的,是问卷的核心。一般采用封闭性或半封闭性问题,形式可以肯否式、菜单式、排序式或等级式,有些与意向、动机或情感有关的实质性问题,必须注意采用适当的问题类型。
辅助性问题,在问卷中起辅助作用,可细分为四类:过滤性问题(测谎题),校正性问题,补充性问题,调节性问题
过滤性问题(测谎题):通常安排在实质性问题之前,与实质性问题配对安排,用来鉴别调查对象对所回答的问题是否具备资格或是否真实。
校正性问题:为了检验调查对象对实质性问题的回答是否真实,也可以设计校正性问题,安排在实质性问题之后。
补充性问题:在实质性问题需要会议时,为防止可能出现的因会议困难或失误带来的结果失真,通常可利用一些补充性问题加以帮助。很显然,一些补充性问题在通过谈话调查时很容易提出,而在书面问卷中,调查者主要通过预测来检验哪些问题调查对象回忆起来会发生困难,以便能够将较大的问题分解,较复杂的问题简化或采取其他措施。
调节性问题:它是用来消除枯燥疲劳、紧张及由于问题突然转移而产生的不适应感。它能起到调节作用,或者联结作用(帮助实现从一组问题向另一组问题过渡),有时为了给调查对象留下一个有始有终的印象,在问卷表最后,可采用开放性问题形式安排一个调节性问题。
3、问题序列的设计
⑴根据问题的功能安排序列。一般说来,接触性问题安排在最前面,继之以实质性问题,在实质性问题的前后,根据需要穿插各种功能问题。如设置过滤性问题和校正性问题,则要注意不能让它们与实质性问题靠得太近,以免因调查对象的察觉而失去其意义。⑵敏感性问题和开放性问题放在卷末。如果将信仰问题、同事关系、家庭生活等敏感性问题放在卷首,则可能引起调查对象的反感。而开放性问题需要调查对象作较多的考虑和书写,颇费时间,调查对象很可能产生畏难情绪。⑶采用“漏斗形技术”(Funnel technique),即按漏斗形排列问题,先问范围广的、一般的,再问比较具体的、特殊的问题。⑷内容上相互有联系的问题可放在一起,即先问同一个框架的问题,再问另一个框架的问题。同一个框架的问题,一般也按逻辑次序、时间次序或内容体系安排问题,以保持调查对象的注意力和思维序列,但要通过间隔调节性问题或使问题的形式题题不同等措施,避免建立反
应倾向(即回答的相互影响或一致)。⑸先问为后面的问题所必需的信息。⑹问题的形式和长短在排列时应适当变化,以保持回答者的注意力,同时也要防止对不同问题进行相同的反应。⑺题目答案的序列也要精心设计。对二选一的问题回答者倾向于选择排在前面的一个答案;对多选一的问题回答者倾向于选择肯定答案。因此,问题的答案最好应随机排列或肯定、否定交替排列,而不应该以一种固定的顺序来排列。
第七章 能力测验
1、 传统智力测验中的几个问题
传统智力测验的结构效度:不同智力测验有着不同的理论基础,其结构也不同,解释也不同,因此,应针对不同情况选择不同量表,也不能笼统地说一个人的智力如何;传统智力测验的功能:还不够精细,无法精确诊断,不能贴标签,更主要的是要解决问题;传统智力测验的公平性:性别差异,传统智力测验中有利于男性和女性的项目的不平衡,职业差异,经历对智力的影响,文化和教育差异,城乡差别、种族差别,4. 年龄(时代)差异;传统智力测验的预测效度(智商的稳定性与不稳定性),智力随年龄成熟而发展,智力随环境而变化智力中的遗传与环境的关系,智力随个性特质的不同而产生不同变化。人格、动机、情绪对智力发展的影响,而传统智力测验没有考虑这些因素的影响。学习困难儿童在自我批评和自我监控方面尤为不足。高智商的人,其智力发展速率快。积极的人格(进取心、面对挫折的态度)能促进智力的成长。
2、比内量表
比内-西蒙量表
1905年量表
世界上第一个智力量表;
内容:30道题(记忆、言语、理解、手工操作)。
题目排列方式:从易到难。
指标:通过项目数。如白痴最多只能通过6项,低能的成人可通过7~15项。
1908年量表
内容:增至59道题。
方式:把测验项目按年龄分组。每一岁一组。每个年龄组项目数量不等,最多8项,最少3项。
年龄范围:3~13岁。
指标:智力年龄。
1911年量表
题目:删旧补新,但总数仍为59题。
增设一个成年组。
除4岁组仅有4个项目外,其他每个年龄组一律为5项,便于计算。
对比内-西蒙量表的评价,成就:(1)比西量表是第一个采用复杂任务来测量高级心理过程的测验。以前的测验主要测量感知觉、运动等低级心理过程。(2)比西量表首次采用年龄作为智力的标准,这样可以对测验作出通俗易懂的解释。(3)比西量表首次从整体上测量智力,也就是测量智力的普通因素,而以往心理学家把感觉辨别力、记忆力、注意力等割裂开来测量。不足:施测和记分没有标准化。常模团体的代表性不够,因而有些项目的安排位置不当。测验项目过少。
斯坦福-比内量表
1.斯坦福-比内量表的发展
1916年量表
在修改基础上增设39个新项目,达到90个项目。
最早对施测和记分提供了详细的指导语。
引入了智力商数的概念(比率智商)。
适用年龄:3~13岁。
样本:1000名儿童和400名成人。
1937年量表
由 L 和 M 两个等值型量表构成
年龄范围扩大:1.5~18岁
样本:3184名1.5~18岁儿童,但仅限城市白人
1960年量表
合并了L和M两型中最好的项目,改为单一量表。
年龄:2~成人
离差智商
4498名1.5~18岁儿童(1937年量表的施测对象)
1972年量表
测验内容未变;
取样范围扩大(地区、社会阶层、经济状况、民族)。
共2100名被试,其中2~5.5岁每半岁选100名,6~18岁每一岁选100名。
斯比量表的信度和效度:
信度,复本信度:L和M相关在0.83~0.95之间。再测信度:高于0.90。
效度,内容效度:测验内容属于公认的智力范畴。效标关联效度:与学业成绩、受教育年限的相关在0.4~0.75之间。结构效度:假设智力发展随年龄增长,先快后慢(证据:随年龄增长,再测稳定性逐步提高);存在G因素(证据:各项目与测验总分的平均相关为0.66)
3、团体智力测验
陆军测验: 一战时在Yerkes领导下编制。
陆军甲种(α)测验,8个分测验:照令行事、算术、常识、异同(同反义词)、字句重组、填数、类比推理、理解。效度:与军官评定、斯比量表、教师评定、学业成绩的相关。
陆军乙种(β)测验,7个分测验:迷津、立方体分析、补足数列、译码、数字校对、图画补缺、几何形分析。测试对象:母语非英语的被试和文盲被试。效度:与甲种测验的相关
瑞文推理测验:
瑞文标准推理测验,6岁以上,5个系列,60个项目;A组 测知觉辨别力、图形比较、图形想象,B组 测类同、比较、图形组合,C组 测比较、推理、图形组合,D组 测系列关系、图套组合,E组 测套合、互换等抽象思维能力
瑞文彩图推理测验,5~11岁,3个系列,36个项目
瑞文高级推理测验,适合于高智力成人,第一套12个项目,第二套36个项目
第十章 人格测验
1、自陈量表
自陈量表(self-report inventory)的性质让被试自己提供关于自己人格特征的报告。基本假设:只有被试自己最了解自己。
自陈量表的题目形式
是否式 是 否
二择一式
是否折中式 是 否 不一定
文字等级式 非常满意 比较满意 无所谓 不大满意 极不满意
数字等级式 5 4 3 2 1
(5—经常 4—多次 3—偶尔 4—极少 1—从不)
自陈量表的特点:测量工具一般为调查表。题量较大。在同一测验中往往包含几个分量表,测多个特质。通常采用纸笔测验,因而可以团体施测。计分规则简单而客观。
自陈量表的问题:社会称许性,自我防御:掩饰,默认,折中
2、自陈量表的编制方法
逻辑分析法:确定要测量的特质 → 编写题目 → 编制问卷,爱德华个人偏好量表(EPPS)、詹金斯活动调查表、显性焦虑量表。
因素分析法:施测大量题目 → 相关题目构成因素,即人格特质,16PF、EPQ
经验法:分组:选取具有某一特征的效标组,对照组,试测,能把两组分开的题目构成测验,MMPI
综合法:逻辑分析法 → 因素分析法 → 经验法,杰克逊人格问卷(JPI)
3、明尼苏达多项人格调查表,编制者:美国明尼苏达大学Hathaway和Mckinley教授编制。题量:566(其中有16道重复,实际题量为550),项目内容:生理状况,精神状态,对家庭、婚姻、宗教、政治、法律、社会等问题的态度。量表组成:10个临床量表和3个效度量表
4个效度量表:
Q:疑问量表(Question)没有回答的题数和对“是”和“否”都做反应的题数。超过22分,结果不可信。L:说谎量表(Lie)超过10分,结果不可信。F:诈病量表(Frequency)说明伪装疾病或精神病程度重。K:校正量表(Correction)根据被试对测验的态度对测验得分进行校正。
计分方法:原始分→T分数→剖面图
计算Q量表的原始分。超过22分或30分无效。分别计算各量表的原始分。对5个量表加K分校正。查表把原始分转化为T分;或计算T分。60以上为异常(中国标准)T = 50 + 10(X - X)/ SD,画出剖析图。
4、卡特尔16种人格因素量表,编制者:美国伊利诺州立大学Cattell 题量:187题维度:16PF,计分:原始分→标准10分制→剖面图
5、艾森克人格问卷,编制者:英国心理学家Eysenck 题量:101,维度:E:内外倾性。高分表示人格外向,低分表示人格内向;N:情绪性。低分表示情绪稳定,高分表示神经过敏;P:精神质。高分表示孤独,难以适应环境,感觉迟钝。L:说谎量表。
6、投射测验
投射测验(projective technique)及其理论基础:投射测验是向被试题提供一些未经组织的刺激情境,让他在不受限制的情境下,自由表现出他的反应,分析反应的结果,便可推断他的人格结构。基本假设:人们对于外界刺激的反应都是有其原因且可以预测的;被试当时的心理状况及整个人格结构,对当时的知觉与反应的性质和方向,都起了很大的作用;人格结构的大部分处于潜意识中,当被试面对一种不明确的刺激情境时,就可以使隐藏在潜意识中的欲望、需求、动机等“泄露”出来,即把一个反映他的人格特点的结构加到刺激上。
投射测验的特点:测验材料没有明确的结构和意义。受测者对测验材料的反应不受限制。测验目的具有隐蔽性。对测验结果的解释重在对受测者的人格特征的整体了解。不受
语言文字的限制。计分困难。
投射测验的分类:根据被试的反应方式,可分5类,联想法——罗夏克墨迹测验;构造法——主题统觉测验;完成法——句子完成测验;选排法——要被试根据某一准则,选择照片,或对照片进行排列,表露法——画人测验。
投射测验的评价,优点:可以对人格作综合的、完整的探讨,对被试的内心生活作深层的探索,并作出动态解释;测验目的隐蔽,防止被试作虚假反应。缺点:评分缺乏客观标准,难以量化;缺少充分的常模资料,测验结果不易解释;信度和效度不易建立;原理复杂深奥,非经专门训练者不易使用;被试的反应更容易受测验情境的影响。
因篇幅问题不能全部显示,请点此查看更多更全内容