教育和心理的测量与评价原理(第4版)

教育和心理的测量与评价原理(第4版) pdf epub mobi txt 电子书 下载 2025

[美] 萨克斯,牛顿 著
图书标签:
  • 教育测量
  • 心理测量
  • 教育评价
  • 心理评价
  • 测量原理
  • 评价原理
  • 教育统计
  • 心理统计
  • 信效度
  • 标准化测量
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 文轩网旗舰店
出版社: 江苏教育出版社
ISBN:9787534349478
商品编码:1027078527
出版时间:2011-02-01

具体描述

作  者:(美)萨克斯,牛顿 著作 王昌海 译者 定  价:78 出 版 社:江苏教育出版社 出版日期:2011年02月01日 页  数:704 装  帧:平装 ISBN:9787534349478 总序
前言
部分 教育和心理的测量与评价
 测量、测验和评价的作用
1 本章目标
2 测量和评价的发展史及其重要性
3 教学评价的必要性
4 测量、教学、评价三者的关系
5 测量
6 测验与其他测量方法
7 评价
8 教育与心理中评价性决策的类型
9 小结
第二章 测验的社会、法律和伦理含义
1 本章目标
2 对测验的批评
3 测验对少民族学生有偏见
4 合乎伦理与不合乎伦理的测验实践
5 传统测验以外的测量方法
6 小结
部分目录

内容简介

这是一本广受教育学和心理学同行赞誉的教材。
本书结合智力、能力倾向、成就、兴趣、态度、价值观和人格的测量,介绍了测验编制、项目编制、项目分析、信度、效度等方面的基本原理。书中还提供了如何选择标准化测验,如何评估学生的进步等资料,并描述了各种评估策略。
本书在教育学和心理学*新研究成果的基础上编写,是一本理想的教材及教学参考书。

教育与心理测量和评价的科学基石:理解、应用与发展 在教育和心理学领域,准确的测量与评价是理解个体差异、评估教学效果、指导干预措施、推动学科发展不可或缺的工具。本书并非聚焦于某一部具体的著作,而是深入探讨教育与心理测量和评价的普遍原理、核心概念、发展历程、关键技术及其在不同情境下的应用。我们将一同探索,如何才能构建科学、公正、有效的测量工具,如何 interpret 测验结果,并如何利用评价信息来促进学习、优化教学、指导决策,最终实现人的全面发展。 第一部分:测量与评价的理论根基 1. 什么是测量与评价? 测量(Measurement)在教育和心理学中,是指根据一定的规则,将个体在特定能力、特质、知识或行为上的表现,用数量化的指标来表示的过程。它关注的是“有多少”或“达到什么程度”。例如,一次数学考试的分数,一个性格问卷的得分,都是测量结果。 评价(Evaluation)则是一个更为广阔的概念,它是在测量信息的基础上,运用一定的标准,对测量的结果或过程进行价值判断、解释和决策的过程。评价不仅涉及“有多少”,更关注“好不好”、“是否有意义”、“应该如何做”。例如,根据数学考试分数来判断学生是否掌握了某个知识点,根据性格问卷结果来判断该个体是否适合某个职业,都是评价行为。 两者之间的关系是密切而辩证的:测量是评价的基础,没有可靠的测量,评价就失去了客观依据;而评价则赋予了测量以意义,指导了测量工作的方向和目的。 2. 测量与评价的历史渊源与发展 人类社会对个体能力的评估由来已久,从古代的科举考试到近现代的标准化测验,测量与评价经历了漫长而深刻的演变。 早期萌芽(古代至19世纪): 早期社会对个体能力和知识的考察多以选拔人才为目的,如中国古代的科举制度,虽然方式粗糙,但已体现了对特定能力进行评估的意图。 科学测量兴起(19世纪末至20世纪初): 随着心理学和教育学作为独立学科的兴起,科学测量的方法开始被引入。以费尔柴尔德(Francis Galton)、詹姆斯·麦肯·卡特尔(James McKeen Cattell)等为代表的学者,开始关注个体差异,并尝试用客观方法来测量各种心理特质。比奈-西蒙智力量表(Binet-Simon Scale)的出现,标志着智力测量进入了新的阶段。 标准化测验的成熟与发展(20世纪中叶): 第二次世界大战极大地推动了大规模的标准化测验发展,如美国陆军的选拔和分类测验。这一时期,信度(Reliability)和效度(Validity)等核心概念得到深入研究和系统化,统计方法在测量和评价中的应用日益广泛。教育测量学(Educational Measurement)和心理测量学(Psychological Measurement)逐渐成为独立的学科分支。 评价理论的丰富与应用拓展(20世纪后期至今): 评价的范围不断扩大,从以诊断和选拔为主,发展到更加关注形成性评价(Formative Evaluation)和促进性评价(Appraisal for Improvement),强调评价的诊断、反馈和促进学习的功能。同时,教育评价(Educational Evaluation)和心理评价(Psychological Evaluation)在课程评价、教学评估、人才测评、临床诊断、咨询辅导等领域的应用日益深化,并受到教育改革、技术进步(如计算机化自适应测验)和社会发展的影响,不断注入新的活力。 3. 测量与评价的基本概念与原则 理解测量与评价,需要掌握一系列基本概念和遵循重要原则。 核心概念: 构念(Construct): 指那些不可直接观察但可以通过行为表现推断出来的心理特质或能力,如智力、焦虑、创造力、学习动机等。测量与评价的核心任务之一就是如何有效地测量这些抽象构念。 操作定义(Operational Definition): 为了测量某个构念,需要将其转化为可以观察和测量的具体行为或指标。操作定义就是指明如何进行测量操作的描述。例如,“智力”的操作定义可以是“在韦氏智力量表上的得分”。 测验(Test): 指一种标准的、有组织的方式,用于收集关于个体在特定行为或能力方面的信息。测验可以是纸笔测验、操作测验、观察记录等。 信度(Reliability): 指测量工具的一致性或稳定性。一个高信度的测验,在重复测量同一对象时,会得到相似的结果。信度是测量的质量指标之一,但它并不保证测量的准确性。 效度(Validity): 指测量工具的准确性,即测验是否真正测量了它声称要测量的东西。效度是测量的最高标准,一个测验可以信度很高,但如果它测量的不是我们想测量的,那么它就是无效的。 常模(Norm): 指一个参照群体在特定测验上的平均得分或得分分布。常模为解释个体测验分数提供了基准,使得我们可以了解一个人的得分相对于同质群体的位置。 标准分数(Standard Score): 如Z分数、T分数等,是将原始分数转换为具有特定均值和标准差的等距分数,便于比较不同测验的分数。 效标参照(Criterion-Referenced): 评价的目的是判断被评价者是否达到了预设的、具体的学习目标或能力标准,不考虑其与他人的比较。 诊断性评价(Diagnostic Evaluation): 侧重于识别个体在学习过程中存在的具体困难或不足,以便提供针对性的帮助。 形成性评价(Formative Evaluation): 在教学或训练过程中进行的评价,其目的是为改进教学和学习提供信息和反馈。 总结性评价(Summative Evaluation): 在教学或训练结束时进行的评价,其目的是对学习成果做出总体的判断,常用于甄选、认证或评估整体成效。 基本原则: 目的明确性: 任何测量与评价活动都应有清晰的目的,明确要解决的问题,要达成的目标。 科学性与客观性: 测量工具和评价过程应符合科学原理,尽量减少主观偏见,保证结果的客观性。 公正性与公平性: 评价应一视同仁,不因个体背景、性别、种族等因素而产生歧视。 有效性与实用性: 测量工具和评价方法应能有效解决问题,并且在实际应用中是可行的。 发展性与促进性: 评价应以促进被评价者的发展为导向,提供积极的反馈和改进建议。 保密性与伦理性: 涉及个人隐私的测量与评价信息,应予保密,并遵循相关的伦理规范。 第二部分:教育与心理测量的技术与方法 1. 测验的设计与编制 设计和编制一个好的测验是测量工作的起点。这个过程需要严谨的理论指导和细致的操作。 明确测量目标: 首先要清楚地定义要测量的是什么,例如,是学生的数学知识掌握程度,还是某个职位的领导能力。 确定测验内容: 根据测量目标,选择或设计与测量内容相关的题目。内容应具有代表性,能够覆盖所要测量的知识、技能或特质的各个方面。 选择题型: 常见的题型包括选择题、填空题、简答题、论述题、操作题等。不同题型适用于测量不同的能力和知识水平,也各有其优缺点。 编制题目: 每一道题目都应清晰、准确、无歧义,避免包含干扰项或暗示性信息。题目的难度和区分度是需要仔细考量的因素。 组织测验结构: 确定测验的总时长、题目数量、分值分配、指导语等。 试测与修订: 编制完成后,需要对测验进行试测,收集数据,通过统计分析(如项目分析)来评估题目的质量,并根据结果对测验进行修订,使其更加完善。 2. 信度与效度的评估 信度和效度是评价测验质量的两大关键指标,它们是测量科学性的基石。 信度的评估方法: 重测信度: 同一测验在不同时间对同一群体施测两次,计算两次得分的相关系数。适用于测量相对稳定的特质。 复本信度: 编制两个或多个内容等价的测验,对同一群体施测,计算不同复本得分的相关系数。 内部一致性信度: 评估测验内部各题目之间的一致性,如奇偶分半法、斯皮尔曼-布朗公式、Cronbach α系数等。常用于单次施测的测验。 评分者信度: 对于主观性评价的测验,评估不同评分者对同一份测验结果的评分一致性。 效度的评估方法: 内容效度(Content Validity): 评估测验内容是否能充分代表所要测量的知识或技能领域。通常通过专家评审来确定。 结构效度(Construct Validity): 评估测验是否能有效地测量理论上的构念。常用的方法包括: 聚合效度(Convergent Validity): 测验得分与测量同一构念的其他指标得分高度相关。 区分效度(Discriminant Validity): 测验得分与测量不同构念的其他指标得分相关性较低。 因子分析: 通过统计方法分析测验题目之间的关系,以验证其结构与理论模型是否一致。 效标效度(Criterion-related Validity): 评估测验得分与某一外部效标(如实际表现、其他已知测量结果)之间的相关性。 预测效度(Predictive Validity): 测验得分在未来能否预测效标表现。 同时效度(Concurrent Validity): 测验得分与同时进行的效标测量结果的相关性。 3. 统计分析在测量与评价中的应用 统计学是测量与评价的语言和工具,它为数据分析、结果解释和决策提供了科学依据。 描述性统计: 用于描述数据的基本特征,如均值、中位数、众数、标准差、方差、频数分布等。 推断性统计: 用于从样本数据推断总体特征,如假设检验(t检验、F检验)、回归分析、相关分析等。 项目分析: 分析测验中每一道题目的难度和区分度,为优化测验提供依据。 信度和效度统计: 利用统计方法计算信度和效度系数。 因素分析: 用于探索和验证测验的结构效度,识别潜在的构念。 常模建立: 通过对大样本进行测验,计算均值、标准差以及百分位数,从而建立起具有代表性的常模。 4. 测量与评价技术的进步 计算机化自适应测验(CAT): 测验系统根据被试的回答情况,动态调整后续题目的难度,提高测量效率和精确度。 表现性评价(Performance Assessment): 要求被试执行真实的、复杂的任务,以评估其实际应用能力。 组合评价(Portfolio Assessment): 收集被试在一段时间内的作品或活动成果,全面展示其学习过程和发展。 多维度评价: 综合运用多种测量工具和方法,从不同角度对个体进行评价。 第三部分:教育与心理评价的实践应用 1. 在教育领域的应用 教育测量与评价贯穿于教育活动的始终,为教育决策和实践提供支持。 课程设计与改革: 通过对学生学习效果的评价,反馈课程的有效性,指导课程的修订与创新。 教学质量监控: 评估教师的教学水平、教学方法的有效性,为提升教学质量提供依据。 学生学业评价: 诊断学生的学习困难,评估学习成果,制定个性化的学习计划。 教育诊断与辅导: 识别有特殊学习需求的学生,提供针对性的支持和辅导。 教育选拔与分班: 标准化考试(如高考、中考)用于学生的选拔和分班,是教育评价的重要形式。 教育政策制定: 通过大规模的教育普查和评估,为教育政策的制定和调整提供数据支持。 2. 在心理领域的应用 心理测量与评价是心理咨询、心理治疗、人才测评、临床诊断等领域的核心。 人格测量: 评估个体的性格特质、气质类型、价值观等,如使用大五人格量表、MBTI等。 智力测量: 评估个体的智力水平和能力结构,如韦氏智力量表、瑞文推理测验等。 情绪与心理健康评估: 测量焦虑、抑郁、压力等情绪状态,识别心理健康问题,如使用抑郁自评量表(SDS)、焦虑自评量表(SAS)等。 职业兴趣与能力测评: 评估个体的职业兴趣、职业价值观和职业能力,为职业选择和职业规划提供指导。 临床诊断: 辅助医生对精神疾病进行诊断,评估病情严重程度,监测治疗效果。 司法鉴定与法医学: 在刑事案件中,对犯罪嫌疑人的精神状态、认知能力等进行评估。 3. 评价伦理与面临的挑战 尽管测量与评价提供了强大的工具,但其应用过程中也伴随着重要的伦理考量和挑战。 测验偏见(Test Bias): 测验可能存在对特定文化背景、社会群体不利的偏见,需要进行识别和修正。 滥用测验结果: 测验结果不应被过度解读或用于不当的目的,例如,将智商分数作为衡量个人价值的唯一标准。 隐私保护: 涉及个人隐私的测量信息,必须妥善保管,并获得被评价者的知情同意。 标准化与个体化: 在追求标准化测量效率的同时,如何兼顾对个体独特性的尊重和评价,是一个持续的课题。 技术进步带来的挑战: 新技术的出现(如人工智能辅助评价)也带来了新的伦理和技术挑战,需要审慎对待。 评价的社会责任: 测量与评价从业者需要承担起社会责任,确保所进行的活动是科学、公正、有益的,并服务于人类的福祉。 结语: 教育与心理测量和评价的原理,是一套关于如何科学、客观、有效地理解和评估人的知识体系。它不仅是理论研究的重要组成部分,更是实践工作不可或缺的指南。通过深入理解这些原理,掌握相关的技术与方法,并积极应对实践中的挑战,我们才能更好地利用测量与评价的工具,促进个体的发展,提升教育质量,并为社会的进步贡献力量。这是一门充满活力和挑战的学科,其重要性将随着人类对自身理解的不断深入而日益凸显。

用户评价

评分

对于资深的研究者来说,这本书的价值在于它提供了一个极佳的“复盘”和“校准”的机会。在快速迭代的教育改革浪潮中,很多看似科学的工具和方法论,其实经不起仔细推敲。这本书对测量误差的来源进行了深入的剖析,这一点非常关键。它没有停留在“存在误差”的层面,而是细致地讨论了系统性误差和随机性误差在不同情境下的表现,以及研究者应该如何通过设计优化来最小化这些误差。我特别欣赏它在论述“项目反应理论”(IRT)等高级模型时所采取的渐进式讲解方法,既保持了理论的严谨性,又避免了让初学者望而却步。更重要的是,它强调了评估的伦理边界,提醒我们在追求数据精确性的同时,不能忘记对被评估者的尊重和保护。这本书更像是一本“内功心法”,它打磨的是你的思维框架,让你在面对任何新的测量技术或理论时,都能迅速辨别出其内在的逻辑漏洞和潜在的效用。

评分

坦白说,我最初翻开这本书时,心里是有些打鼓的,因为我对“测量”这个词天然带着一种抗拒感,总觉得和冰冷的数据脱不了干系。然而,这本书的叙事方式非常有人情味,它成功地将“冰冷”的评价技术,转化成了一种理解人类学习和行为的有力工具。作者似乎很懂得教育工作者的痛点,他们需要评估,但又不想让评估过程变成一种让师生都感到压力的形式。书中对于不同测量工具的设计原则,比如问卷、访谈量表,都给出了详尽的指导,特别是对于定性资料如何进行系统性的编码和量化处理的部分,对我启发极大。我过去总是在定性和定量之间摇摆不定,觉得两者水火不容,但这本书教会我如何搭建一座桥梁,让它们互相印证,形成一个更全面的评估图景。它不是教你如何简单地“打分”,而是教你如何通过结构化的观察,更全面、更公正地捕捉学生的成长轨迹,这才是教育的真正精髓所在。

评分

我是一个非常注重实践操作的教育管理者,我需要的是可以直接应用到学校日常管理中的工具和思路,而不是纯粹的理论堆砌。这本书在这方面表现得非常出色。它不仅仅停留在“是什么”和“为什么”,更大量地涉及了“怎么做”。比如,在讲解如何进行大规模成绩的横向和纵向比较时,书中提供了非常清晰的步骤和注意事项,让我明白了为什么不同年份、不同学校的平均分不能简单地划等号。它对于“形成性评价”和“总结性评价”在资源分配和绩效考核中的不同应用场景进行了细致的区分,这直接指导了我如何调整我们学校的年度评估体系,使其更侧重于学生的进步而非单纯的起点差异。书中对“测量工具的本地化”的探讨也很有价值,教会我不能盲目照搬国外的成熟模型,必须结合本地的文化背景和学生的认知水平来调整题项和标准,确保测量的“文化适切性”。

评分

这本书简直是为我这种对教育研究领域的新手量身打造的,尤其是那些渴望深入理解数据背后逻辑的读者。我一直觉得,要想真正搞懂一个教学改革是否有效,或者某种教学方法是否优于另一种,光靠感觉是远远不够的,必须要有扎实的量化基础。这本书的厉害之处就在于,它没有像很多教科书那样堆砌晦涩的数学公式,而是用非常直观的方式,将复杂的统计概念与教育情境紧密结合起来。比如,它在解释“信度”和“效度”时,不是简单地给出定义,而是通过具体的教学案例,比如如何设计一份能准确反映学生阅读能力的测试卷,来剖析这些核心概念在实际操作中的意义。这让我茅塞顿开,明白了标准化测试的局限性以及如何去批判性地审视那些摆在我们面前的各种“成绩报告”。读完之后,我不再是那个只看分数高低的门外汉,而是能够开始思考“这个分数到底测到了什么?”以及“我们有没有公平地对待每一个学生?”这种更深层次的问题,为我后续的实践和进一步学习打下了非常坚实的基础。

评分

从排版和阅读体验上来说,这本书也做了很多用心的地方。我通常阅读学术著作很容易感到疲惫,但这本书的结构设计非常清晰,章节之间的逻辑过渡自然流畅,很少出现那种生硬的、突然跳跃的论述。作者在引入新概念时,总会先用一个大家都熟悉的场景进行铺垫,比如讨论统计功效时,就把它比喻成“用一把合适的勺子去挖出目标样本”,这种形象化的比喻极大地降低了理解难度。此外,书中的图表制作精良,注释详尽,很多关键的推导过程都配有清晰的图形辅助说明,这对于我这种视觉型学习者来说,简直是福音。它不仅仅是一本知识的载体,更像是一位耐心的导师,它引导你一步步走过测量和评价的复杂迷宫,让你在感到困惑时,总能找到一条清晰的路径指引你前进。这本书的扎实内容和良好的呈现方式,让学习过程本身也成了一种享受。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有