教育测量与评估（原书第二版） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] Cecil R.Reynolds 等著，霍黎，霍舟译

图书标签:

教育测量
教育评估
心理测量
统计分析
教育研究
测量理论
评估方法
信度与效度
标准化测试
教育数据分析

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：科学出版社

ISBN：9787030459916

版次：1

商品编码：11818996

包装：平装

开本：16开

出版时间：2015-11-01

用纸：胶版纸

页数：544

正文语种：中文

具体描述

内容简介

　　《教育测量与评估（原书第二版）》的主要内容包括：（1）在对学生以专业的方式进行评估的时候，教师所应该掌握的必要知识与技能；（2）教育评估研究的意义。《教育测量与评估（原书第二版）》介绍了在评估中经常采用的必要的基本数学概念和知识；扩展了传统的教育评估的内容，介绍了近几年使用比较广泛的表现性评估和成长记录袋评估；完整介绍了对残疾学生评估所必须进行的评估调整；还讨论了教育评估中的实践。

译者序
原书第二版前言
原书前言
第1章教育评估简介1
1.1评估语言2
1.测验、测量和评估2
2.测验类型4
3.分数解释的类型8
1.2教育评估的假设9
1.心理与教育结构是存在的9
2.心理与教育结构是可以测量的9
3.虽然可以测量结构，但测量并不完美10
4.存在不同的方法来测量任何给定的结构10
5.所有评估方法都有其自身的优势和弱点10
6.信息的多种来源应该是评估过程的组成部分10
7.测验中的表现可以推广到非测验行为11
8.评估可以提供信息用来帮助教育工作者制定更好的教育决策11
9.可以用公平的方式进行评估11
10.测验和评估可以使教育机构乃至整个社会受益12
1.3评估过程中的参与者13
1.开发测验的人13
2.使用测验的人14
3.参加测验的人14
4.评估过程中的其他参与人员15
1.4教育评估与相关法律15
1.不让一个孩子掉队法案（NCLB，2001）15
2.残疾人教育改进法案2004（IDEA，2004）16
3.1973年《康复法案》的第504条款（504条款）17
4.保护学生权利法案（PPRA）18
5.家庭教育权利和隐私权法案（FERPA）19
1.5教育评估的常见应用19
1.学生评价19
2.教学决策20
3.选拔、安置和分类决策20
4.政策决策21
5.咨询和指导决策21
1.6关于评估，教师需要了解什么21
1.教师应该有能力选择适合做教学决策的、专业开发的评估方法22
2.教师应该有能力开发适合做教学决策的评估方法22
3.教师应该有能力管理、评阅和解释专业开发的和自己编制的评估方法22
4.在做教育决策时，教师应该有能力使用评估结果23
5.教师应该有能力开发包含评估信息的有效的评分方法23
6.教师应该有能力交流评估结果23
7.教师应该有能力识别不道德、非法和其他不恰当使用评估的方法或信息23
1.721世纪的教育评估24
1.计算机自适应测验（CAT）和其他技术进步24
2.“真实的”或复杂的表现性评估25
3.教育问责和高风险测验26
4.对残疾学生评估的趋势27
1.8总结28
1.9关键术语和概念30
1.10推荐阅读31
1.11感兴趣的互联网网站32
第2章测量中的数学基础33
2.1数学在评估中的作用33
2.2测量量表34
1.什么是测量？34
2.称名量表34
3.顺序量表35
4.等距量表35
5.比率量表36
2.3测验成绩的描述39
1.分布39
2.集中趋势测量42
3.变异性测量46
2.4相关系数49
1.散点图50
2.相关和预测52
3.相关系数的类型52
4.相关性与因果性54
2.5总结55
2.6关键术语和概念56
2.7推荐读物57
2.8感兴趣的互联网网站57
2.9练习题58
第3章测验得分的意义60
3.1常模参照和标准参照得分的解释61
1.常模参照解释62
2.用于常模参照解释的派生分数67
3.标准参照解释76
3.2常模参照，参照标准，或两者的结合80
3.3得分的定性描述82
3.4总结82
3.5关键术语和概念84
3.6推荐读物85
3.7感兴趣的网站85
3.8练习题86
第4章教师的信度87
4.1测量误差88
1.测量误差的来源90
4.2估计信度的方法92
1.重测信度93
2.复本信度94
3.内部一致性信度95
4.评分者之间信度98
5.总评成绩的信度99
6.选择信度系数100
7.评价信度系数102
8.如何提高信度104
9.估计信度的特殊问题105
4.3测量的标准误107
1.评价测量的标准误108
4.4信度：教师的实践策略110
4.5总结113
4.6关键术语和概念114
4.7推荐读物115
4.8练习题115
第5章教师的效度117
5.1效度威胁118
5.2信度和效度119
5.3“效度类型”与“效度证据类型”120
5.4效度证据类型122
1.基于测验内容的证据122
2.基于与其他变量之间关系的效度证据125
3.基于内部结构的证据132
4.基于反应过程的证据133
5.基于测验后果的证据133
6.整合效度证据134
5.5效度：教师的实践策略135
5.6总结137
5.7关键术语和概念138
5.8推荐读物139
第6章教师的试题分析141
6.1试题难度指标（或试题难度水平）142
1.特殊评估情况和试题难度144
6.2试题区分度145
1.区分度指标145
2.试题�舱�体测验相关系数148
3.掌握测验的试题区分度149
4.速度测验的试题分析150
6.3干扰项分析150
1.干扰项如何影响试题难度和区分度152
6.4试题分析：教师的实践策略153
6.5使用试题分析来改善试题154
6.6表现性评估的试题分析157
6.7定性试题分析158
6.8使用试题分析改进课堂教学160
6.9总结160
6.10关键术语和概念161
6.11推荐读物162
第7章开发课堂测验的基本步骤163
7.1教育目标的特点164
1.范围164
7.2教育目标的分类165
1.认知领域166
2.情感领域168
3.动作技能领域169
7.3行为与非行为教育目标169
7.4编写教育目标170
7.5开发测验提纲（或测验蓝图）172
7.6按照测验提纲来开发测验173
1.常模参照和标准参照得分的解释169
7.7在全州范围内开发课堂测验174
1.选择使用哪种类型的试题174
2.装配评估178
7.8让学生为评估做准备和管理评估180
7.9总结183
7.10关键术语和概念184
7.11推荐读物185
第8章选择类试题的开发和使用186
8.1选择题187
1.开发选择题的准则188
2.选择题的优势198
3.选择题的弱点201
8.2判断题202
1.开发判断题的准则203
2.判断题的优势205
3.判断题的弱点205
8.3匹配题206
1.开发匹配题的准则207
2.匹配题的优势209
3.匹配题的弱点209
8.4总结210
8.5关键术语和概念211
8.6推荐读物212
第9章构造类试题的开发和使用213
9.1口试：作为构造类试题先驱的口头论述214
9.2论述题215
1.论述题测验的目的215
2.不同复杂程度的论述题216
3.限制型论述题与扩展型论述题218
4.开发论述题的准则219
5.论述题的优势220
6.论述题的弱点221
7.评分论述题的准则223
9.3简答题226
1.开发简答题的准则228
2.简答题的优势229
3.简答题的弱点230
9.4最后注意：构造类试题与选择类试题231
9.5总结231
9.6关键术语和概念232
9.7推荐读物233
第10章表现性评估和成长记录袋234
10.1什么是表现性评估？235
10.2开发有效表现性评估的准则240
1.选择合适的表现性任务240
2.开发测验说明243
3.开发评分答案的办法244
4.减少评分误差的实施步骤248
5.表现性评估的优势253
6.表现性评估的弱点254
10.3成长记录袋256
1.开发成长记录袋评估的准则256
2.成长记录袋评估的优势258
3.成长记录袋评估的弱点258
10.4总结259
10.5关键术语和概念262
10.6推荐读物263
10.7感兴趣的网站263
第11章基于课堂评估来评定成绩264
11.1反馈与评价265
1.正式和非正式评价267
2.在终结性评价中使用形成性评价268
11.2报告学生的进步：使用什么符号269
11.3评定成绩的基础271
11.4参考框架272
1.常模参照评分（相对评分）272
2.标准参照评分（绝对评分）274
3.成就与改善或努力的关系275
4.成就与能力的关系275
5.建议276
11.5将各类得分合并成总评成绩276
11.6告知学生评分系统和获得的成绩281
11.7家长会283
11.8总结283
11.9关键术语和概念284
11.10推荐读物285
第12章高风险评估时代的标准化成就测验286
12.1高风险评估时代288
12.2集体成就测验290
1.商业开发的集体成就测验291
2.各州开发的成就测验296
3.增值评估：一个教育问责的新方法302
4.在学校中使用标准化成就测验的最佳实践303
12.3个体成就测验308
12.4选择成就测验套装311
12.5总结312
12.6关键术语和概念313
12.7推荐读物313
第13章在学校中使用资质测验314
13.1智力测验的简要历史317
13.2在学校中使用的资质和智力测验319
1.资质�渤删偷牟钜�321
13.3特殊学习障碍的一个新的评估策略：干预反应（RTI）323
13.4主要的资质/智力测验324
1.集体资质/智力测验324
2.个体资质/智力测验330
3.选择资质/智力测验335
4.理解智力评估报告336
13.5大学入学考试350
13.6总结351
13.7关键术语和概念352
13.8推荐读物353
第14章行为和人格评估354
14.1评估行为和人格355
1.反应定势356
2.在学校中的行为和人格评估358
14.2行为评定量表359
1.儿童行为评估系统�驳诙�版——教师和家长评定量表（TRS和PRS）360
2.Conners评定量表�残薅┌妫–RS-R）365
3.儿童行为检核表和教师报告表（CBCL和TRF）366
14.3自陈测量367
1.儿童行为评估系统�驳诙�版——人格自陈（SRP）368
2.青少年自陈量表（YSR）372
14.4投射技术372
1.投射画374
2.完成语句测验375
3.统觉测验375
4.墨渍技术376
14.5总结377
14.6关键术语和概念378
14.7推荐读物379
第15章评估调整380
15.1影响残疾学生评估的重大立法381
15.2残疾人教育法案（IDEA）382
1.IDEA的残疾分类383
15.3第504条款387
15.4评估

精彩书摘

　　第1章教育评估简介
　　为什么要了解测验与评估？
　　本章强调
　　评估语言教育评估的常见应用教育评估的假设教师需要了解的评估内容评估过程中的参与者21世纪的教育评估教育评估与相关法律学习目标阅读和学习本章后，学生应该能够：(1) 定义测验、测量和评估。(2) 解释和列举不同类型的测验。(3) 描述和列举对不同类型得分的解释。(4) 描述和解释教育评估的假设。(5) 解释评估过程中的主要参与者。(6) 描述和解释评估在学校中的主要应用。(7) 解释影响评估的主要联邦教育法律。(8) 描述和解释教师在教育评估中应该掌握的能力。(9) 解释评估的主要趋势。评估是教学过程不可分割的组成部分。评估可以而且应该为加强施教和促进学习提供信息。
　　对教师来讲，学生主要是受教育的对象。在高校从教60多年的经验告诉我们，他们一般不会对测验和评估感兴趣。的确，虽然学生知道他们要参加测验，但测验并没有导致他们选择从事教师这个职业。教师热爱学生，也热爱教育，但对于测验，他们经常采用负面或充其量是中立的态度。这种倾向并不局限于教育学生。主修心理学的大学生通常喜欢心理学，因为他们想从事这方面的工作并在这方面给人们提供帮助。他们渴望成为咨询师或心理治疗师，但想专门从事评估的相对较少。在给本科生讲授教育或心理测验和测量课程的时候，我们觉得花些时间向学生解释为什么需要了解测验和评估是重要的。这是本章的主要目的之一。我们想解释为什么需要了解测验与评估，并希望这些努力是值得的。
　　教学往往被概念化为教师施教而学生学习的简单过程。按照这种观点，教学被看成一个教与学的过程。但在实践中，更实际的看法是，评估是教学过程不可分割的组成部分。事实上，据统计，教师至少投入1/3的时间用于与评估有关的活动（Stiggins and Conklin，1992）。评估可以而且应该为加强施教和促进学习提供信息。换句话说，施教、学习和评估之间有着密切的关系。按照这种扩展后的教学概念，施教和评估是密切相关的，评估提供了一些客观反馈，如学生学到了什么，他们学得怎么样，施教是否有效，以及什么样的信息、概念和目标需要更多关注。将教学仅限定在施教和学习过程上是有局限性的，教学过程更准确的概念应该包括施教、学习和评估。在这个模型中，评估的目标就像施教的目标一样，用于促进学生的成长（Gronlund，1998）。在现实的教育世界中，很难想象有效的教学不涉及某种形式的评估。对学生学习的评估做得越好，教师的教学效果也就越好。
　　下面引用Stiggins和Conklin（1992）的话来说明，在教育评估的整个过程中，教师发挥着重要作用。
　　作为一个国家，花费数十亿美元用在教育评估上，包括数百万美元用于国际和国内的评估，以及另外的数百万美元用于州际的测验项目。最重要的是，以地区性的测验项目为基础的标准化测验形成了数十亿美元的产业。如果将所有这些花费加起来，很明显，在政治上占有重要地位的评估，竟然占不到实施美国学校评估的1％。而另外99%的费用是用在教师每时每刻、日复一日、周而复始的课堂评估上。
　　总之，如果你想成为一个好教师，你需要了解一些与测验和评估有关的知识。施教和评估都是教学过程的组成部分，并且评估是教师日常工作的一个重要组成部分。通过这一章的学习，希望你对教育评估的作用会有一个更好的了解，尽管你可能不想专门从事与测验和评估有关的工作，但你会领会到评估对整个教育过程的重要作用。
　　1.1评估语言
　　在前言中，已经使用了一些比较常见但有些技术性的术语。这里介绍一些对进一步阅读有益的术语定义。1.测验、测量和评估测验是一个过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA et al.，1999）。
　　(1) 测验：测验（test）是一个工具或过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA，APA and NCME，1999）。这是一个相当宽泛或一般的定义，但在本书中将采用这个定义。当然，对不同类型的测验，我们会提供更具体的信息。然而，在继续学习之前需要注意的是，应该提一提我们所定义的测验的一个特殊方面。因为测验仅是行为的样本，所以至关重要的是，测验反映的是你有兴趣知道的具有代表性行为的样本。你的评估应该评定这样的内容，即与你分配给它们的相对重要性要一致。在我们对测验和评估进行研究的时候，代表性样本概念的重要性将变得更加明显；在后面章节中介绍测验的技术性能的时候，将会更详细地涉及这一点。测量是给对象、特征、属性或行为分配数值的一套规则。
　　(2) 测量：测量（measurement）可以定义为给对象、特征、属性或行为来分配数值的一套规则。教育测验是测量工具，涉及给一个人的表现分配得分的规则（如管理指南和评分标准）。反过来，对这些得分的解释又用来反映考生的特征。例如，在拼写测验中，拼写正确的单词数量可以反映一个学生的拼写能力。评估是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。
　　(3) 评估：评估（assessment）是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。评估应该导致增加对这些特征的了解。测验显然是一个收集信息的系统方法，因此是一套评估工具。从历史记录、访谈和观察中得到的评论也是合法的评估技术，当把这些信息集成起来的时候，会发挥很大的作用。因此，评估比测验更广泛、更全面。
　　至此，已经定义了这些常见的术语，有一些我们不愿意承认的观点是，在实践中，许多教育专家互换地使用测验、测量和评估这些术语。认识到这一点，Popham （2000）指出，在当代教育界，评估已成为首选的术语。当应用于学生时，测量听起来相对死板和枯燥乏味，有避免使用的倾向。测验有其自身的负面含义。例如，几乎每个星期报纸上刊登的有关“应试教育”或“高风险测验”的文章中，测验通常都带有负面的含意。此外，当人们听到测验这个词时，通常认为是纸笔测验。近年来，作为对传统纸笔测验越来越不满的结果，导致其他测验得到了发展（例如，表现性评估和成长记录袋）。因此，测验不再被看成现代教育实践的特殊描述。这导致了将评估作为教育工作者当前使用的流行语。心理测量学是心理测量的科学。信度指的是测验成绩的稳定性或一致性。效度指的是对测验分数解释的准确性。
　　下面，定义一些其他的术语。心理测量学（psychometrics）是心理测量的科学，心理测量学家是专门从事测验、测量和评估的心理或教育专业人员。你可能会听到人们提到测验的心理属性，其实他们说的是测验的测量或统计属性。这些测量属性包括信度和效度。信度（reliability）指的是测验成绩的稳定性或一致性。理论上，信度是指测验分数与测量误差无关的程度（AERA et al.，1999）。与测量误差相对无关的得分是稳定的或一致的（即可靠的）。效度（validity），简单来说，指的是对测验得分解释的适当性或准确性。如果测验得分的解释是为了反映智力，那么它们实际上反映了智力吗？如果测验得分是用来预测工作上的成功，那么它们能准确预测谁将在这份工作上成功吗？
　　2.测验类型
　　我们定义测验是一个工具或过程，在这个过程中，采用标准化方法可以从中获得一个人行为的样本并对其进行评估或评分（AERA，APA and NCME，1999）。也许在你的生活中已经参加过大量的测验，很可能你已经注意到，并不是所有的测验都是一样的。例如，参加学校的测验是为了帮助确定其成绩，参加驾照测验是为了获得驾驶执照，填写调查问卷是为了帮助在教育和职业中做决策，在申请大学时要参加入学测验，为了获得专业证书和许可证也要参加测验，以及参加人格测验是为了获得对人格的理解。这个简单罗列显然没有穷尽所有的测验。
　　Cronbach（1990）指出，测验一般可分为最大表现性测验和典型反应测验两种。最大表现性测验也常常称为能力测验，但成就测验也包含在其中。在最大表现性测验中，试题的评分可以分为“正确”或“不正确”两种，鼓励考生展示他们最好的表现。最大表现性测验（maximum performance test）的目的是评估考生的知识和能力的上限。例如，最大表现性测验可以用来评估学生执行选定任务或掌握指定内容领域的情况。智力测验与课堂成就测验是最大表现性测验最常见的例子。相比之下，典型反应测验试图测量考生的典型行为和特质。通常，典型反应测验称为人格测验。在这种情况下，人格用来广泛反映一整套非认知的特征，如态度、行为、情感和兴趣（Anastasi and Urbina，1997）。一些人保留测验这个术语专门用于最大表现性测验，而将量表和调查问卷等术语用于典型反应测验（AERA et al.，1999）。在这本书中，术语测验采用的是其更广泛的意义，即包括最大表现性测验和典型反应测验。最大表现性测验的目的是评估考生的知识和能力的上限。
　　最大表现性测验：正如我们提到的，最大表现性测验的目的是评估考生的知识和能力的上限。最大表现性测验通常还可以划分为一些子类。首先，最大表现性测验可以分为成就测验和资质测验。其次，最大表现性测验可以分为速度测验和难度测验。最后，最大表现性测验还可以分为客观测验和主观测验。这些区别，虽然本质上不是绝对的，但已有很长的历史基础，并且提供了一些有用的描述性信息。成就测验测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。资质测验测量作为整个生活经历的结果而积累的认知技能和能力（AERA et al.，1999）。
　　成就测验和资质测验：最大表现性测验通常分为成就测验和资质测验。成就测验（achievement test）的目的是测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。与此相反，资质测验（aptitude test）的范围更广泛，其目的是用来测量一个人作为整个生活经历的结果而积累的认知技能、能力和知识。换句话说，成就测验与一个特定的教学目标有关，而资质测验反映整个生活经验累积的影响。然而，这种区别并不是绝对的，实际上仅是程度或强度问题。当今大多数测验专家将成就测验和资质测验概念化了，用来测量认知能力的提高，这个认知能力的提高可以依靠评估的能力与具体学习经验的密切程度而形成一个连续体。成就测验和资质测验的另一个区别是对结果的使用或解释的方式。成就测验通常用来测量一个人在一个特定的时间点上学到或“获得”了什么。与此相反，资质测验通常用来预测未来表现或反映一个人潜在的学术或工作表现。然而，这种区分也不是绝对的。例如，在高中毕业时用来评估成就的测验也可能用于预测在大学的成功。虽然认识到成就测验和资质测验之间的区别并不是绝对重要的，但在讨论学生能力的不同类型的时候，成就和资质的区别却很有用。速度测验反映的是速度的差异。难度测验反映的是考生能够正确回答的试题难度。
　　速度测验和难度测验：最大表现性测验经常分为速度测验和难度测验。对单纯的速度测验（speed test），表现仅仅反映的是速度的差异。速度测验通常包含相对简单的试题，但有严格的时间限制，目的是限制考生成功做完所有试题。对单纯的难度测验（power test），速度不是要考虑的主要问题。参加难度测验的每个人都有足够的时间来处理这些试题，但试题是根据难易程度排列的，并且测验中包含一些难度非常大的试题，没有考生能试图回答所有的试题。因此，难度测验的表现主要反映考生能够正确回答的试题的难度。在良好的速度测验和难度测验中，没有人会获得一个完美的得分。正是按照完美得分是“不确定的”来设计这些测验。也就是说，如果有人获得一个完美的得分，那么，这个测验就没有评定出这个人能力的上限。为了充分接近能力的上限，测验需要包括测验专家所说的“足够的上限（adequate ceiling）”；也就是说，测验足够困难，没有考生能够获得一个完美的得分。如你所料，速度测验和难度测验之间的差异也是程度上的差别
　　……

前言/序言

教育测量与评估内容简介本书旨在为读者提供一套系统、全面且深入的教育测量与评估知识体系。它不仅是理论的梳理，更是实践的指导，力求帮助读者理解教育评价的本质，掌握科学的测量工具，并能将所学应用于教育教学的各个环节，从而提升教育质量和促进学生发展。本书并非仅仅罗列概念和方法，而是通过清晰的逻辑框架和丰富的实例，引导读者思考教育评价在现代教育体系中的角色与意义。第一部分：教育测量与评估的理论基石本部分将从宏观层面，为读者构建起理解教育测量与评估的理论框架。教育评价的本质与功能：我们将深入探讨教育评价究竟是什么，以及它在教育活动中扮演的角色。评价不应仅仅是分数和排名的简单累加，而是贯穿教学过程、服务于教学改进、促进学生个体全面发展的动态过程。我们将分析评价的诊断性、形成性、总结性功能，阐述它们如何协同作用，共同服务于教育目标。例如，诊断性评价可以帮助我们了解学生的现有水平，为教学设计提供依据；形成性评价则能在教学过程中实时监控学生的学习进展，及时调整教学策略，弥补学习不足；而总结性评价则用于对一个学习阶段或项目的整体成效进行衡量，为教育决策提供支持。教育测量与评估的理论流派与发展历程：了解教育评价的理论演变，有助于我们更深刻地理解当前的主流观点和方法。我们将梳理从传统客观主义测量到现代多元评价、情境化评价等不同理论流派的发展脉络，分析它们各自的优缺点和适用范围。读者将了解到，评价理论的发展与教育理念、社会需求以及科学技术的进步息息相关。例如，早期的测量理论更侧重于标准化和客观性，而现代评价则更加强调评价的多元性、发展性和情境性，关注学生的主动参与和深度理解。教育评价的基本原则：科学、公平、有效、发展性是教育评价不可或缺的原则。我们将详细阐述这些原则的内涵，并探讨如何在实际操作中遵循这些原则。公平原则要求评价机会均等，评价标准公正；有效原则强调评价结果的真实性和实用性，能够真实反映被评价对象的状况并为决策提供可靠依据；发展性原则则关注评价对被评价者成长的促进作用，引导其不断进步。第二部分：教育测量的基本原理与技术本部分将聚焦于教育测量这一具体工具，介绍其核心原理和常用技术。测量信度（Reliability）：信度是测量工具质量的首要指标，它反映了测量结果的稳定性和一致性。我们将详细讲解不同类型的信度，如重测信度、复本信度、内部一致性信度（包括分半信度和Cronbach's α系数）等，并介绍如何计算和提高测量的信度。例如，一个测量学生数学能力的测验，如果两次施测的结果非常接近，那么它的重测信度就较高。我们将探讨影响信度的因素，如测验长度、题目难度、评分者的主观性等，并提供提高信度的实践建议，例如增加测验题目数量，使用客观性强的评分标准。测量效度（Validity）：效度是教育测量更为重要的指标，它关注的是测量工具是否真正测量了它所声称要测量的东西。我们将深入探讨不同类型的效度，包括内容效度、结构效度（包括聚合效度和区别效度）、效标关联效度（包括同时效度和预测效度）以及表面效度。例如，一份旨在测量学生英语阅读理解能力的测验，如果其题目确实考察了学生理解文章的深层含义、推断作者意图等能力，那么它的内容效度和结构效度就可能较高。我们将详细介绍如何通过多种证据来证明一个测量工具的效度，并强调不同效度类型在评价不同教育目标时的侧重点。测量标准参照与形成性评价（Standard-Referenced Measurement and Formative Assessment）：与传统的常模参照（Norm-Referenced）评价不同，标准参照评价关注的是学生是否达到了预设的学习目标。我们将深入探讨标准参照测量的理念、设计和应用，以及它与形成性评价的紧密联系。形成性评价贯穿于教学过程中，旨在及时了解学生的学习状况，为教学反馈和调整提供信息。我们将介绍各种形成性评价的技术，如课堂观察、学生访谈、作品集、小测验等，并分析如何利用这些信息来优化教学过程。测验设计与项目分析（Test Design and Item Analysis）：优质的测验离不开精心的设计和严谨的分析。本部分将指导读者如何从明确的测量目标出发，设计符合要求的测验题目，包括选择题、填空题、问答题、操作题等不同题型的命题原则和注意事项。同时，我们将详细介绍项目分析（Item Analysis）的基本方法，包括难度分析和区分度分析，以及如何利用项目分析的结果来筛选和优化测验题目，提高测验的信度和效度。例如，通过分析一个选择题的难度指数和区分度指数，我们可以判断这个题目是否适合用于测量学生的知识或能力。第三部分：教育评估的实践应用本部分将把理论与技术转化为实际的评估操作，展示教育评价在不同领域的应用。学习成就评估（Assessment of Learning Achievement）：这是教育评价最核心的应用领域。我们将详细介绍如何设计和实施各种形式的学习成就评估，包括期末考试、单元测验、项目评估等，并讨论如何对评估结果进行解释和反馈。我们将强调，学习成就评估不仅是知识的检测，更是对学生综合能力的考察。课程与教学评估（Curriculum and Instruction Evaluation）：课程和教学是教育活动的主体。本部分将探讨如何对课程的设置、教学方法的有效性、教学资源的质量等进行系统评估，以促进课程的优化和教学的改进。我们将介绍课程评估的不同模型和方法，以及如何通过收集学生、教师、管理者等多方反馈来全面评价教学效果。教育项目评估（Educational Program Evaluation）：评估教育项目（如学科改进项目、教师培训项目、素质教育项目等）的有效性，对于教育资源的合理配置和教育政策的制定至关重要。我们将介绍教育项目评估的原则、步骤和常用方法，以及如何分析评估数据，提出改进建议。教师专业发展评估（Teacher Professional Development Evaluation）：教师是教育改革的关键。本部分将探讨如何科学、公正地评估教师的专业能力、教学表现和职业发展状况，为教师的成长提供支持和指导。我们将介绍教师评估的多元化方式，如同行评价、学生评价、自我评价等，并强调评估过程应关注教师的优势和发展需求。教育决策与质量保障（Educational Decision Making and Quality Assurance）：教育评价是教育决策的科学依据，也是教育质量保障的重要环节。我们将分析教育评价信息如何支持教育行政部门、学校管理者在教育政策制定、资源配置、学校管理等方面的科学决策，以及如何建立健全的教育评价体系，提升整体教育质量。第四部分：教育测量与评估的前沿与发展为了让读者跟上教育评价发展的步伐，本部分将展望未来的发展趋势。信息技术在教育测量与评估中的应用（Application of Information Technology in Educational Measurement and Assessment）：随着信息技术的飞速发展，教育测量与评估正经历深刻变革。我们将探讨在线测试、自适应测试、学习分析、大数据在教育评价中的应用，以及它们如何提升评价的效率、精度和个性化水平。多元化评估与学生综合素质评价（Diversified Assessment and Comprehensive Evaluation of Student Qualities）：现代教育越来越重视学生的核心素养和综合能力。本部分将重点介绍如何构建更加多元化的评估体系，将非认知能力、实践能力、创新能力等纳入评价范畴，以及如何进行学生综合素质评价。教育评价的伦理与反思（Ethics and Reflections in Educational Assessment）：任何评价活动都必须遵循伦理规范。我们将强调教育评价中的公平性、保密性、透明性等伦理原则，并引导读者进行批判性反思，认识到评价的局限性，避免过度强调分数而忽略了教育的本质。本书力求以严谨的学术态度，结合丰富的实践案例，为读者提供一个系统、深入的学习体验。无论您是教育工作者、教育研究者，还是对教育评价感兴趣的读者，本书都将为您提供宝贵的知识和有益的启示，帮助您在教育实践中更好地运用测量与评估的智慧，最终服务于教育的进步与发展。

用户评价

评分☆☆☆☆☆

如果用一个词来形容这套书给我的感受，那就是“体系化”。它不是零散知识点的堆砌，而是构建了一个完整的、可操作的教育评估知识大厦。最令我赞赏的是其对“评估结果的解释与沟通”这一环节的重视。在现实中，评估往往止步于报告分数的产生，但这本书却用了相当大的篇幅来指导评估者如何有效地向家长、教师乃至政策制定者“讲述”分数背后的故事，如何避免误读和滥用数据。这种将技术操作与社会责任紧密结合的视角，极大地提升了本书的价值层次。书中的附录部分提供了大量实用的核查清单和操作步骤，非常适合在实际工作中需要快速检索和验证操作规范的专业人士。总的来说，这本书的内容厚重、视野开阔，它提供的不仅仅是“如何做”的方法论，更有“为什么这么做”的深层逻辑支撑，是一部值得反复研读的权威参考书。

评分☆☆☆☆☆

这本厚重的著作，甫一翻开便给人一种扑面而来的学术气息，装帧虽然朴实，但内页的纸张质量着实不错，使得长时间阅读下来眼睛也不会太过疲劳。我拿到这本书时，首先被其内容的广度和深度所震撼，它似乎不仅仅停留在基础的概念阐述，而是深入到了教育领域各个关键环节的肌理之中。书中对不同测量工具的效度和信度的探讨，简直是教科书级别的详尽解析，那些复杂的统计学公式和模型，作者似乎用尽了心思，试图用最通俗易懂的方式呈现出来，虽然对于我这样的初学者来说，啃起来还是需要极大的毅力与时间。尤其让我印象深刻的是关于项目反应理论（IRT）的章节，它突破了传统项目反应理论的局限性，引入了许多前沿的视角，这对于希望在未来研究领域有所建树的读者无疑是一笔宝贵的财富。整体来看，这本书的排版清晰，逻辑严密，作者对教育评估体系的构建有着深刻而独到的见解，绝非泛泛而谈之作，更像是为专业人士量身打造的一份深度指南。

评分☆☆☆☆☆

坦率地说，这本书的阅读体验是“艰苦卓绝”的，它更像是一部工具手册而非休闲读物，对于那些期望快速找到“秘籍”的读者，可能会感到有些力不从心。不过，如果能沉下心来逐字逐句地研读，你会发现其内在的体系结构是极其稳固和自洽的。我个人非常推崇其中关于“评价标准建立”的论述，它打破了仅仅依赖量表分数的窠臼，强调了评价的文化背景和情境依赖性。作者提出了一个多维度的标准校准框架，这个框架的引入，无疑为当前教育评价改革中“唯分数论”的弊端提供了一种强有力的理论支撑和实践路径。书中的图表和模型设计精良，虽然复杂，但却是理解复杂统计关系的视觉拐杖，使得抽象的概念得以具象化。对于研究生级别的学生而言，这本书几乎是案头必备，它提供了一个审视和批判现有评估实践的哲学高度。

评分☆☆☆☆☆

这本书的作者在叙述问题的深度上，展现出了一种罕见的穿透力。他似乎总能一针见血地指出当前教育评估体系中那些“潜规则”和结构性矛盾。比如，书中关于“形成性评价”的章节，并没有停留在仅仅介绍工具（如观察记录、小测验），而是深入探讨了如何在资源有限的课堂环境中，确保形成性评价的反馈质量和及时性，这才是真正考验评估者功力的地方。我发现，作者的语言风格在不同章节间有着微妙的变化，在谈及伦理问题时，语气变得尤为凝重且富有警示性，而在介绍具体量表编制流程时，则回归到严谨的指令式口吻。这种风格的转换，让整本书读起来不至于枯燥，反而像是一场与教育专家的深度对话。唯一的不足可能在于，一些历史回顾性的内容略显冗长，如果能做更精炼的处理，会更符合现代读者的阅读习惯。

评分☆☆☆☆☆

读完这书的初稿感触颇深，它的文字风格有一种独特的冷静与客观，仿佛作者是一位经验丰富、不带任何情感色彩的裁判员，公正地审视着教育评估这场复杂的“竞技”。我特别欣赏其中关于“测量误差”的分析部分，许多教科书往往一带而过，但这本却花费了大量篇幅去剖析误差来源的微妙性，从抽样误差到施测情境误差，再到评分者自身的认知偏差，都做了细致入微的描摹。这种对细节的执着，体现了作者极高的专业素养。书中的案例设计也十分贴合实际教学场景，不再是那种脱离地面的空中楼阁般的理论推导，而是充满了“烟火气”，让人很容易联想到自己过去在学校或培训机构中遇到的真实评估困境。遗憾的是，对于一些新兴的技术，比如基于人工智能的自适应性测试的设计思路，似乎还略显保守，期待未来能有更具前瞻性的讨论补充进来，但这丝毫不影响它作为一本奠基性著作的地位。