心理测量总复习提纲

心理测量的含义：依据一定的心理学原理，使用测验对人在智力、学习能力、学业成就、兴趣爱好、品德、个性等心理属性的行为样本进行客观的、标准化的量化测定。

西方的心理测量

1879年，英国格林威治天文台的马斯林基辞退助手金内布鲁克的事件。

冯特

实验心理学中测量感觉和简单反应时的方法，成为测量个体心理差异的项目和工具。

实验心理学中严格控制实验条件的要求，成为心理测验标准化的基本要求。

沈干

v 法国医生沈干(E. Seguin) 于1837年创办了第一所专门教育智力落后的儿童的学校；1846年出版《白痴：用生理学方法进行诊断和治疗》

v 非常重视感官训练、肌肉训练，发展感觉与精细动作。

v 发明了很多测验和训练工具，如沈氏拼图板。

高尔顿

他重视个体差异研究，重视运用测量和测验来收集证据。

他重视和倡导运用数学方法处理和分析心理学研究资料。

卡特尔

v 1890年，他首次提出“心理测验”这个术语。

v 主要是测定感觉敏锐性、短时记忆、动作灵敏性，还不是真正意义上的智力和能力测验。

比纳

v 他主张用测验法去辨别有心理缺陷的儿童。

v 1905年，他与助手西蒙发表《诊断异常儿童的新方法》,介绍了世界上第一个智力测验。

推孟 ——比率智商

韦克斯勒——离差智商

测量误差的含义：在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

测量误差的来源

n 测量工具（心理测量量表）

n 被测对象（被试是否能真实表现）

n 施测过程（环境的控制等）

真分数的含义：

由于测量误差的存在，心理测验实际测得的数值往往很难和该特质的真正水平完全一致。

数学模型及其假设

n CTT的数学模型：X=T+E

E(X)=T或E(E)=0

ρ(T,E)=0

ρ(E1,E2)=0

n CTT模型的推导：

SX2=ST2+SE2

可写成： SX2=SV2+SI2+SE2

信度——是指测量结果的稳定性程度，或是可靠性、一致性程度。

信度的估计方法

重测信度

含义：用同一个量表对同一组被试施测两次所得结果的一致性程度。

计算——皮尔逊积差相关

使用的前提条件：相对稳定的心理特性

遗忘和练习的效果基本能相互抵消

间隔时间内，被试无更多的学习和训练

复本信度

含义：两个平行的测验测量同一批被试所得结果的一致性程度(内容等值)。

计算——皮尔逊积差相关

等值性系数（同时连续施测）

稳定性与等值性系数（间隔一段时间施测；注意抵消顺序效应）

使用的前提条件：构造真正平行的测验

时间、经费等实际条件

练习、记忆和迁移效应的影响

分半信度

含义：将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

计算：当两部分的方差相等时

首先，用皮尔逊积差相关；

然后，用斯皮尔曼—布朗公式校正：rxx=2rhh/(1+rhh)

式中rhh为一半分数的相关系数， rxx为测验在原长度时的信度估计值。

当两部分的方差不等时

弗朗那根公式：rxx=2[1－(Sa2+Sb2)/Sx2]

卢仑公式： rxx=1－Sd2/Sx2

使用的前提条件：测验是同质的（只测一种特质）

测验只能施测一次

没有复本测验

同质性信度

含义：测验内部所有题目间的一致性程度（内部一致性信度）。

一致性：所有题目都测同一种心理特质

所有题目得分之间具有较高正相关

即使所有题目看起来好像测量同一特质，但相关很低或为负相关时，则测验为异质的。

计算：库－理信度系数适用于（0、1）记分的测验

KR20公式：rxx=[k/(k－1)][1－(∑piqi)/Sx2]

KR21公式：rxx=[k/(k－1)][1－(p q)/Sx2]（题目难度接近时使用）

克龙巴赫α系数适用于多种形式记分的测验：

α=[k/(k－1)][1－(∑Si2)/Sx2]

荷伊特信度：用方差分量比来衡量测验内部一致性程度

rxx=1－MS人x题/MS人

测量分数的误差来源：题目、人、人x题目交互作用MS= S2/df

评分者信度

含义：多个评分者给同一批人的答卷进行评分的一致性程度。

计算：评分者为2人，用积差相关或等级相关

评分者人数多于2人时, 肯德尔和谐系数：

W＝12[∑Ri2－(∑Ri)2/N]/[K2(N3－N)]

若有相同等级：

W＝12[∑Ri2－(∑Ri)2/N]/[K2(N3－N)-K ∑(n3－n)/12]

n为相同等级个数

影响信度测量的主要因素

o 被试方面（个体、群体）

个体的动机、身心状况、作答态度等

团体的异质性过高，信度值会偏高，同质性过高，信度值偏低（对观测分数分布形态的影响）

o 主试方面（施测者、评分者）

o 施测情境

o 测量工具（题目取样、同质性、难度）

题目数太少，测量结果的随机性增大，信度降低

同质性题目增加，同一心理特质被考察到得次数就会增加，被试分数会被有效拉开

题目难度太高或太低，均会影响测量结果的分布形态

o 两次施测的间隔时间

一般是两周到四周较宜，间隔时间最好不超过六个月。

提高测量信度的常用方法

o 适当增加测验长度

新增的题目要具有同质性

题目量必须适度

o 难度接近正态分布，平均在中等水平

测验成绩也接近正态分布，以相关为基础的信度值也必然增大

o 努力提高测验试题的区分度

影响信度的重要指标

o 选取恰当的被试团体

提升测验在各同质性较强的亚团体上的信度值，信度值普遍较高的测验才能采用

o 其他无关因素的控制

对实测、评分过程的控制

效度

含义：一个测验或量表实际能测量出其所要测的心理特质的程度。

效度估计

效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。

心理测验的对象：具体属性（驾驶技能）和抽象属性（聪明程度）。

l 内容效度

l 含义：一个测验实际测到的内容与所要测量的内容或行为领域之间的吻合程度。

l 适用于成就测验、选拔和分类的职业测验；

l 避免与表面效度混淆

表面效度是指测验表面上看好像测某种心理特质的现象。即从表面上看，测验是否能测量到它要测量的东西。

表面效度会影响被试完成任务的态度和动机（不合作或作伪）。

表面效度太高，作伪的可能性也会增大。

l 成就测验主要测量被试掌握某种技能或学习某门课程所达到的程度。

测验中题目取样的代表性，是内容效度考察的主要方面。

l 职业测验主要测量实际工作所需的知识和技能，题目要有代表性。

需要建立在对实际工作做较细的分析的基础之上。

例如：心理咨询师、营养师职业资格考试

l 如何确定内容效度？

逻辑分析法：请专家对测验题目与原定内容范围的吻合程度作出判断。

1、明确测量内容的范围

2、确定每个题目所测内容与考试蓝图之间的对应关系

3、制定评定量表

举例：心理咨询师职业资格考试大纲

内容效度比

CVR= ∑ [(nk-N/2) / (N/2)] / K

n=认为该项目重要的专家人数

N=专家总数 K=项目总数

内容效度比的变化范围在-1.00~1.00之间变化。

内容效度比为0时，表示50%专家认为该项目是重要的

统计分析法：复本信度（平行测验）

计算平行测验的相关系数，若高，则可能有较好的内容效度

再测法：学习前后进行测验对照

l 结构效度

l 含义（构想效度）：一个测验实际测到所要测量的理论结构和特质的程度，

或者指测验分数能够说明心理学理论的某种结构或特质的程度。

l 适用于智力测验、人格测验等

l 确定结构效度的步骤：

1、提出理论假设

2、依据理论框架，推演出有关测验成绩的假设

3、用逻辑或实证的方法来验证假设

举例：游戏成瘾

l 结构效度的评定方法

◆测验内部寻找证据法

内容效度

有些测验的内容效度和结构效度定义较相似性

内容效度可以有效地支持结构效度。

分析被试的答题过程

若有证据表明，某题目的作答除了反映所要测的特质以外，还反映其他因素的影响，则结构效度较低。（例如，智商——知识经验）

同质性信度

测验不同质，可以断定结构效度不高。

◆测验之间寻找证据法

相容效度

考察新编写的测验与某个已知的能有效测量相同特质的旧测验之间的相关。

区分效度

考察新编写的测验与某个已知的能有效测量不同特质的旧测验之间的相关。

因素分析

对新编制测验的测量数据进行验证性因素分析，比较其与理论构想之间的异同。

◆考察测验的实证效度法

如果一个测验有实证效标，可以将该测验所预测的效标性质与种类作该测验的结构效度指标：

根据效标分类，考察其得分的差异；

根据得分分类，考察实际表现的差异

例如：韦克斯勒智力测验

◆多种特质——多种方法矩阵法

综合运用相容效度和区分效度法(多种特质-多种方法矩阵法)

四种方法：面谈法、自陈量表测验、投射测验、教师评定

l 实证效度

l 含义：一个测验对出于特定情境中的个体的行为进行估计的有效性。

实证效度主要关注与测验相独立的效标行为，而不太重视测验内容或结构。

l 实证效度，也称为效标关联效度。

效标——衡量一个测验是否有效的外在标准，独立于测验并可以从实践中直接获得的我们所感兴趣的行为。

效标测量：多样性、复杂性、特殊性、时间性、有效可靠、客观实用

经常采用的效标：学业成绩、等级评定、临床诊断、训练成绩、实际工作表现、其他现有的有效测验等。

可分为:主观效标和客观效标

实证效度的估计方法

l 相关法

计算测验分数与效标测量的相关系数。

l 区分法

实施测量à工作或训练à根据效标成绩分类à比较测验分数是否存在差异

l 命中率

总命中率=（测验选出的合格人数+测验淘汰的不合格人数）/总人数

正命中率=测验选出的合格人数/总合格人数

注意功利率比例，即测验带来的好处应大大高于使用测验所耗费的时间、精力和经费。

影响测量效度的因素

l 测验的构成

测验长度与效度的关系公式：K: 测验增加的倍数

l 测验的实施过程

l 接受测验的被试（团体的同质性程度）

l 所选效标的性质

同一个观念效标可以有不同的效标测量，需要慎重考虑效标的性质。

不同效标所需要的相关系数不同。

效标与测验分数应具有线性关系。

l 测量的信度

提高测量效度的方法

l 精心编制量表，避免出现系统误差；

l 妥善组织测验，控制随机误差；

l 创设标准情境，让被试正常发挥；

l 选择恰当的效标测量，正确使用公式

效度与信度的关系

l 信度高是效度高的必要而非充分条件

信度高（有效变异ST2增大），不能排除系统误差（SI2）的存在

l 测验的效度受信度的制约

信度不高（随机误差SE2大），效度必定不高

测验的难度

n 难度是指测验项目的难易程度。

n 二分法计分项目的难度

1）通过率

2）极端分组法

n 非二分法计分项目的难度

难度对测验的影响

n 测验难度影响测验分数的分布形态

n 测验难度影响测验分数的离散程度

难度过高或过低，会使测验分数相对集中在低分端或高分端，使得分数的全距缩小。

难度集中在0.5附近时，分数分布较广。

A:题目难度在0.25~0.75间均匀分布

扁平的对称分布(多数测验的追求)

B:题目的难度大都＞0.80

负偏态分布。哪类测验希望这样?

C:题目的难度大都＜0.20

正偏态分布。哪类测验希望这样?

测验区分度

n 区分度（discrimination）是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。

n 区分度（D）的取值范围介于-1.00至+1.00之间。

D为正值——积极区分

D为负值——消极区分

D值为0 ——无区分作用

区分度的计算

☆ 项目鉴别指数法：

1．鉴别指数的计算

2．极端组的划分

主要步骤如下：1．按测验总分高低排列答卷；

2．确定高分组与低分组，每一组取答卷总数的27%；

3．分别计算高分组与低分组在该项目上的通过率或得分率；

4．按下列公式估计出项目的鉴别指数；

划分方法:效标分数正态分布的条件下，高、低27%的标准；

效标分数分布较平坦的条件下，33%的标准

一般条件下，比率介于25%-33%；

团体人数较少，可用50%作为临界点；

☆ 相关法（点二列相关、二列相关、∮相关、积差相关）

计算区分度最常用的方法是相关法

1．点二列相关：

点二列相关适用于一类变量为二分称名变量，另一类变量为连续变量的成对变量的相关计算

2．二列相关：

二列相关适用于两个连续变量，但其中一个变量被人为分成两类。

3．Ф相关法：

Ф相关法适用于两个变量均为二分称名变量

4 积差相关法

项目鉴别指数与评价标准

常模团体：由具有某种共同特征的人组成的一个群体，用来比较的代表性样本。

常模：即常模团体的一般平均分数，提供比较个体测验分数的标准。包括发展常模和组内常模

百分等级分数

? 含义：在一个群体的测验分数中，得分低于这个分数的人数百分比。

? 计算：

? 优点：具有可比性；

适用于不同对象和性质的测验；

不受原始分数的影响

? 缺点：单位不等，两端数据差异被缩小；

只具有顺序性

标准分数

? 意义：具有相等单位的量数，又称Z分数。

? 计算：

? 优点：以平均数为参照点，以标准差为单位的等距量表；

与原始分数的分布形态相同；

可对不同测验分数进行比较

? 缺点：会出现负数和小数点，不方便计算

标准分数的变式

? 为消除Z分数的负数和小数点现象，通常用公式：

Z’= A·Z + B (A、B为选定的常数)

? T分数(1939年，美国的麦柯尔提出)：T =10Z + 50（μ=50，σ=10）

? 美国大学入学考试分数

CEEB =100Z + 500（μ=500，σ=100）

? 美国的韦克斯勒智力测验的智商

– 分量表智商： DIQ = 3Z + 10（μ=10，σ=3）

– 总量表智商： IQ = 15Z + 100（μ=100，σ=15）

? 美国斯坦福-比纳智力测验智商：IQ = 16Z + 100

标准九分数、标准五分、标准十分

呈现常模资料的方法

? 转化表（简单的和复杂的）

? 剖析图

几种常用的常模参照分数

1.发展量表：心理年龄

年级当量

2.商数：教育商数

成就商数

心理测验编制的基本程序

一、确定测验目的

| 明确测量对象

| 明确测量目标

| 明确测量用途

二、制定编题计划

| 确定全面的测验内容

| 确定各内容点的相对权重

三、编辑测验题目

| 收集测验资料

| 选择项目形式

| 编写测验项目

四、预测与项目分析

（一）预测

| 预测对象取自将来正式测验的对象范围，要有代表性；

| 施测情境要一致；

| 时限可适当放宽；

| 随时记录被试反应

（二）项目分析

| 质的分析主要从内容和形式上,以及编制技术等；

| 量的分析主要是对预测结果进行统计分析（难度、区分度等）。

五、合成测验

| 项目的选择

性质、难度、区分度

| 项目的编排

并列直进式、混合螺旋式

| 编制复本

内容、形式、数量、难度等

六、测验标准化

| 测验内容

| 施测过程：情境、指导语、时限

| 测验评分

| 分数的解释

七、鉴定测验

| 信度

| 效度

| 测验量表和常模

八、编写测验说明书

| 目的与功用

| 理论依据

| 内容和方法

| 标准答案和评分

| 信度、效度

| 常模表

目标参照测验的定义

所谓目标参照测验，是根据某一明确界定的内容范围而缜密编制的测验，并且，被试在测验中所得的结果，也是根据某一明确界定的行为标准直接进行解释的。

目标参照测验的应用：教育、军事、商业和职业鉴定等领域。

常模参照与目标参照测验的差异

1 测验目的不同

? 常模参照测验的目的是通过测量相关领域和内容，决定个体在团体中的相对位置；

? 目标参照测验的目的是，通过界定良好的行为领域，判定个体对该领域的掌握程度和掌握状态

2 领域界定的不同

? 常模参照也需要利用测量样本来限定和明确测验的内容和范围，但不像标准参照测验那样严格界定测量领域；

? 目标参照测验，如果测量领域界定不好,是个致命错误。

3 测验编制的不同

? 常模参照测验必须尽可能地区分应试者。因此在选择测验题目时多刻意追求中等难度（0.3~0.7）、高区分度（>0.3）和测验长度，其结果是测验分数的变异增大，提高了测验的信度和效度；

? 目标参照也需要很高的效度和信度，但并不依靠测验分数的变异的增加。目标参照测验的选题原则是：（1）符合测验领域和测量目标；（2）题目样本具有很好的代表性。

4 分数解释的不同

? 解释常模参照测验分数时需要参照特定的应试者样本（常模），因此报告分数时多采用相对分数（百分等级或标准分）

? 目标参照测验的分数依赖于特定的行为领域，如果该领域界定良好的话，其分数应是一种绝对分数，以此表示对测量内容的掌握程度。

目标参照测验的项目分析

1内容范围的确定

2 测验项目的内容效度分析

? 内容效度：测验题目与原定内容范围的吻合程度。

? 通常采用专家判定法。

? 内容效度比、项目内容评定表是比较直观和常用的方式。

内容效度比

CVR= ∑ [(nk-N/2) / (N/2)] / K

n=认为该项目重要的专家人数

N=专家总数

K=项目总数

内容效度比的变化范围在-1.00~1.00之间变化。

内容效度比为0时，表示50%专家认为该项目是重要的

项目内容评定表（P156）

综合多位专家对测验内容和测验目标之间一致性程度的评定结果。

以平均数和中位数为基础进行内容效度分析。

3测验项目的难度和区分度分析

1.测验的预测

? 前测—后测法

? 已接受教学组—未接受教学组法

? 对照组法

三种方法的区别：对测验内容的掌握程度

2.测验项目的难度分析

? 计算方法：通过率

? 目标参照测验注重的是所测内容范围以及被试在所测内容上的掌握程度。

? 若某项目为所测范围内不可或缺的重要内容，无论难以，均应保留。

3.测验项目的区分度分析

? 目标参照测验需要将测量内容范围内的掌握和未掌握者做出最大限度的区分。

? 经常采用的两类指标：

（1）难度差值

? ①掌握-未掌握组鉴别指数

D=PA - PB

? D在-1.00到+1.00之间变化，越接近于+1.00，区分度越高，题目越有效。

? D为负值，应予删除

? D值为0，可视内容的重要性予以保留

②个人获得指数（DIG）

? 采用前测-后测方法，可获得在前测中错误项目而在后测中能够正确回答的被试的人数比例，即个人获得指数。

? 值在0到+1.00之间变化，其大小直接反映了经教学活动之后受益的被试比例。

? 没有负值，能反映的信息少于一般的区分度指标，使用范围受限。

（2）相关系数

? 项目得分和测验总分之间的一致性程度。

? 该指标在-1.00到+1.00之间变化，越接近于+1.00，区分度越高，题目越有效。

? D为负值，应予修改或删除

? D值为0，一般不予保留，可视项目内容的重要性决定其取舍

项目参照测验的信、效度

一信度及其估计

1 分类一致性信度

? 目标参照测验经常根据某一分数的分界点将被试分为掌握和未掌握者两类。因此，分类的一致性很重要。

? 分类一致性信度考查被试在同一测验的两次施测中是否被分在同一类中。

? 类似于再测法和复本法。

2 方差分析方法——荷伊特信度

计算真分数的变异在实得分数变异中所占的比例。

rxx=1－MS人x题/MS人

测量分数的误差来源：题目、人、人x题目交互作用MS= S2/df

二效度及其估计

1内容效度

? 测验题目的组成对欲测内容范围的覆盖程度或代表性

? 评定内容效度的两个条件：a 测验有明确界定的内容范围；

b 对测验每一题目的内容效度的分析

? 评定方法与常模参照测验类似

2 效标关联效度

? 目标参照测验一般倾向于根据被试在测验中所得到的分数将其分为掌握者或未掌握者，从而对被试未来的学习或工作表现做出预测。

? 有人提出，采用“决策效度”来评估目标参照测验的效标关联效度。

测验分数的解释——分数分界点的确定

? 目标参照测验的结果是参照某一明确界定的行为标准进行解释的。

? 该标准即为测验分数的分界点，或切割分数线，或称及格线。

一专家判定法

? 在测验内容明确界定的基础之上，由专家判断处于临界水平的被试在每一题目上正确回答的可能性，进一步以此为标准确定分数分界点。

? 临界水平被试，是指刚由未掌握水平转入掌握水平的被试，实际是由专家在想象中虚拟出来的。

1 Nedelsky方法

? 适合多重选择题组成的测验

? 由专家确定临界水平被试在每一题上有能力排除的错误选项，从而计算其正确回答的可能性；

? 再求出每一题上正确回答的可能性之和，即为测验分数的分界点。

? 可请若干专家同时评定，求平均值作为最终及格线

2 Angoff 方法

? 适合于多种题型

? 由专家判断处于临界水平的被试在某测验题上正确作答的可能性（Pi），设每题得分为Fi，则该测验的分数分界点（X）

二效标组预测法

1 临界组法

? 有专家判定和选择一组正处于临界水平的被试，以他们在测验上的平均成绩作为测验分数的分界点。

? 评价：如何评定临界水平被试，很难找到客观而统一的标准；在实际应用中受到一定限制

2 对照组法

? 专家选定两组被试，一组被判定为掌握组，一组被判定为非掌握组。

? 不易被判定为“掌握”或“非掌握”的被试一概剔除。

? 对两组被试施测测验，可到的两条原始分数分布曲线，曲线的交叉点即为测验分数分界点。

该方法容易受被试团体的影响，因此可选取若干对照组，取每对对照组交叉点分数的平均值作为测验分数分界点。

相关推荐

心理测量总复习提纲

专栏推荐