正版计算机化自适应测验理论与方法涂冬波北京师范大学出版社9787303221776 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

涂冬波著

图书标签:

计算机化测验
自适应测验
教育测量
心理测量
涂冬波
北京师范大学出版社
9787303221776
IRT
教育技术
测量理论

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：佳期如梦图书专营店

出版社：北京师范大学出版社

ISBN：9787303221776

商品编码：29688184515

页数：332

具体描述

图书基本信息
书名：	计算机化自适应测验：理论与方法
丛书名：
作者/主编：	涂冬波
出版社：	北京师范大学出版社
ISBN号：	9787303221776
出版年份：	2017年8月


版次：	第1 版
总页数：	332页
开本：	16
图书定价：	48元
实际重量：	522g
新旧程度：	正版全新

涂冬波，博士，江西师范大学心理学院教授，博士生导师，博士后合作导师，入选江西省“新世纪百千万人才工程”，美国伊利诺伊大学香槟分校访问学者。研究领域为心理统计与测量，主攻认知诊断和项目反应理论。近年来主持承担与认知诊断相关的国家自然科学基金两项，教育部课题两项，江西省社会科学重点项目等省级课题八项；在认知诊断和项目反应理论领域发表学术论文50余篇；荣获江西省社会科学成果奖二等奖一项、三等奖三项；出版学术著作三部，其中《认知诊断理论、方法与应用》为国内第1部认知诊断学术专著，开发国内第1个认知诊断分析平台www.psychometrics-studio.cn。

第*章计算机化自适应测验

第*节自适应测验
一、自适应原则在心理测验中的应用
二、自适应测验的主要特征
第二节计算机化测验
一、划分标准
二、四代计算机化施测
第三节计算机化自适应测验
一、概念
二、CAT的优势
三、CAT研究现状与未来研究方向

第二章计算机化自适应测验理论基础、原理与开发流程
第*节计算机化自适应测验理论基础：项目反应理论
一、项目反应理论
二、项目反应模型
三、项目反应理论假设
第二节计算机化自适应测验原理
一、CAT的产生
二、CAT的原理
第三节计算机化自适应测验开发流程
一、准备阶段
二、题库建设
三、CAT算法确定
四、信度与效度验证
五、正式使用与题库维护更新
第四节 CAT的构成及其测试流程
一、CAT的组成部分
二、CAT的测试流程

第三章计算机化自适应测验流程中的相关算法与技术
第*节 CAT选题策略算法
一、Fisher信息量选题方法
二、KL信息量选题方法
三、大优先级指标选题方法
第二节 CAT参数估计方法
一、极大似然估计方法
二、贝叶斯估计方法
三、加权似然估计方法
第三节 CAT曝光率控制技术
一、条件概率方法
二、a分层方法
三、动态a分层方法
第四节 CAT终止策略
一、型终止策略
二、相对型终止策略

第四章计算机化多阶段自适应测验
第*节计算机化多阶段自适应测验简介
一、什么是MST
二、MST与题目级别CAT的比较
第二节计算机化多阶段自适应测验设计
一、阶段数的确定
二、每个阶段中模块数的确定
三、每个模块的项目长度
四、统计目标与定性规范约束
五、计分方法（能力估计）
六、自适应策略与过程
七、组卷
第三节计算机化多阶段自适应测验的技术与算法
一、路由规则
二、自动化组卷

第五章多维计算机化自适应测验
第*节 McAT简介
一、多维项目反应理论的发展
二、MIRT与FA的关系
三、MCAT的产生
第二节 McAT中常用IRT模型
一、二级评分的多维项目反应模型
二、多级评分的多维项目反应模型
第三节 MCAq7、能力估计方法
一、极大似然估计
二、贝叶斯极大后验估计
三、贝叶斯期望后验估计
第四节 McAT选题策略
一、基于Fisher信息矩阵的选题策略
二、基于Kullback-Leibler信息量的选题策略
三、基于互信息的选题策略
四、基于连续香农熵的选题策略
第五节 McAT、终止规则
一、定长MCAT中测验长度的确定方法
二、不定长MCAT、终止规则

第六章认知诊断计算机化自适应测验
第*节 CD-CAT简介
一、认知诊断测验
二、CD-CAT
第二节 cD-CAT、中常用认知诊断模型
一、具有认知诊断功能的IRT模型
二、规则空间模型
三、统一模型
四、融合模型
五、RRUM模型
六、DINA模型
七、高阶DINA模型
第三节认知诊断计算机化自适应测验中的核心技术与算法
一、CD-CAT的选题方法
二、CD-CAT的参数估计
三、CD-CAT的终止规则
四、CD-CAT的在线标定
五、CD-CAT的总结与展望

第七章可修改答案的计算机化自适应测验
第*节可修改答案的计算机化自适应测验简介
一、RCAT优势分析
二、RCAT目前存在的问题
第二节可修改答案的计算机化自适应测验设计与方法
一、基于测试设计视角的RCAT
二、基于选题策略视角的RCAT
三、基于模型视角的RCAT
四、总结与展望

第八章双因子计算机化自适应测验
第*节双因子IR7、模型简介
一、基于探索性因素分析模型的研究现状
二、基于验证性因素分析模型的研究现状
第二节 BCA7、基本过程
一、基于单维视角的BCAT过程
二、基于多维视角的BCAT过程
第三节 BCAT选题算法
一、基于单维的选题策略
二、基于多维的大Fisher信息量矩阵选题
第四节 BCAT在心理学应用中的优势
一、拟合性
二、既能反映特殊维度情况也能反映整体情况
三、减少被试的作答负担的同时保证测量的准确程度

第九章 CAT中新题参数在线标定
第*节概述
一、在线标定的概念
二、在线标定的基本流程
三、在线标定与优设计
四、在线标定的主要设计因素
第二节单维二级评分模型下的在线标定
一、试测题选题法
二、在线标定情境下的参数估计方法
三、试测题嵌入位置
四、试测终止规则
第三节其他模型下的在线标定
一、认知诊断考试的在线标定
二、多维IRT的在线标定
三、单维多项评分模型的在线标定

第十章 CAT技术在实践中的应用
第*节 Multistage-CAT在GRE中的应用
一、为什么选用MST
二、GRE测验的MST设计
三、GRE测验规范
四、GRE测验MST设计的评估
第二节 CD-CAT在英语听力理解中的应用
一、题库建设
二、选题策略
三、参数估计
四、真实题库下模拟实验
五、真实测试效度验证
第三节 CAT在心理健康评估中的应用
一、研究目的
二、研究方法与过程
三、研究结果
四、讨论
五、展望

参考文献

计算机化自适应测验（Computerized Adaptive Testing，CAT）是一种全新的测验形式，采取因人施测、量体裁衣的自适应测量思想，为每名被试选择一份具有*小测量误差且*适合其自身的测验，从而达到更高的测量精度并减轻测试负担。

　　《心理测量学丛书·计算机化自适应测验：理论与方法》是作者多年研究及实践的总结，对计算机化自适应测验的理论、方法、技术以及应用等方面进行了全面、详细的阐述，为心理测量学及相关领域的研究者和学习者提供借鉴和参考。

《教育评价的革新之路：从标准化到个性化》概述本书旨在深入探讨教育评价领域的前沿理论与实践，勾勒出教育评价从传统标准化模式向更具科学性、高效性、个体化适应性方向发展的历史轨迹与未来图景。我们将聚焦于那些能够更精准地测量学习者知识、技能和能力，同时又能为教学过程提供个性化反馈与指导的现代评价方法。本书将带领读者穿越评价理论的演进，剖析不同评价模式的优势与局限，最终落脚于那些能够实现“因材施教”的评价技术，从而为教育者、研究者以及政策制定者提供坚实的理论基础和可操作的实践指导。第一章：教育评价的时代使命与理论基石教育评价作为教育系统的重要组成部分，其根本目标在于衡量教育活动的有效性，了解学习者的成长与发展，并为教育决策提供科学依据。然而，随着社会对人才培养需求的日益多元化和精细化，传统的评价方式——例如大规模、单一维度的纸笔测验——已显露出其不足。这些测验往往难以捕捉学习者深层次的理解、创新能力以及在复杂情境中的应用能力。本章将首先梳理教育评价的历史演变，从早期基于经验的评估，到科学化、标准化测验的兴起，再到当前对更加注重个体差异和过程性评价的呼唤。我们将深入解析教育评价理论的核心概念，包括信度（Reliability）、效度（Validity）、客观性（Objectivity）、公平性（Fairness）等基本原则，并探讨这些原则在不同评价情境下的具体体现。在此基础上，我们将引入“评价目标”（Assessment Purpose）与“评价内容”（Assessment Content）的辩证关系，强调评价设计必须紧密围绕教育目标和知识体系构建。同时，我们还将审视教育学、心理学等相关学科对教育评价理论发展的贡献。例如，认知心理学关于知识表征和学习过程的研究，为我们理解学习者的思维模式提供了视角；建构主义学习理论则强调学习者在构建知识过程中的主动性，这无疑对评价方式提出了新的挑战和要求。本章将为理解后续章节中更复杂的评价理论和方法奠定坚实的理论基础。第二章：标准化测验的遗产与局限标准化测验在教育评价史上扮演了至关重要的角色。它们通过统一的施测程序、评分标准和题目编制，力求在不同个体、不同群体之间建立可比性，从而为大规模选拔、学业水平监测等提供了便利。本章将回顾标准化测验的发展历程，介绍其在教育诊断、人才选拔、课程评估等方面的贡献。我们将深入剖析标准化测验的设计原则，包括题目类型（如选择题、填空题、简答题）、难度控制、区分度分析等关键技术。然而，标准化测验的优势也伴随着不可忽视的局限性。其“标准化”的特性，在一定程度上牺牲了对个体差异的关注。大规模的标准化测验往往难以反映学习者在特定知识点上的掌握程度、学习过程中的认知策略，以及在真实情境中解决问题的能力。例如，一项标准化数学测验可能能够准确测量学习者是否掌握了某个公式，但却难以评估他们是否能灵活运用该公式解决一个实际问题。此外，标准化测验的“一次性”测量特性，也使得它难以捕捉学习过程中的动态变化。学生的能力并非静止不变，而是在不断学习和发展中。传统的标准化测验往往只能提供一个静态的测量结果，对于指导后续的教学和学习具有一定的滞后性。本章将通过具体案例分析，阐释标准化测验在实际应用中可能遇到的挑战，以及对个体学习发展可能带来的潜在负面影响，为引入更具适应性和动态性的评价方法做好铺垫。第三章：教育测量的新维度：导向个体化与过程性的评价面对标准化测验的局限，教育评价领域一直在探索新的测量维度，以更全面、更精准地理解学习者。本章将重点介绍那些能够超越标准化测验束缚，更加关注个体差异和学习过程的评价方法。首先，我们将探讨“形成性评价”（Formative Assessment）的核心理念。形成性评价与终结性评价（Summative Assessment）不同，它并非旨在对学习结果进行最后的评判，而是贯穿于整个学习过程之中，为教学改进和学习者发展提供即时、有针对性的反馈。我们将介绍各种形成性评价的策略，如提问、观察、课堂讨论、学生自评互评、学习日志等，并强调如何将这些评价活动与教学目标有机结合，使其真正发挥“促进学习”的作用。其次，我们将深入研究“表现性评价”（Performance Assessment）。与传统的纸笔测验相比，表现性评价要求学习者在真实或模拟的情境中展示其知识和技能的应用能力。这包括项目式学习（Project-Based Learning）中的项目成果展示、案例分析、实验操作、口头报告、作品集（Portfolio）等。表现性评价能够更有效地测量学习者的高阶思维能力、解决问题的能力以及合作能力，是评价复杂技能的有力工具。再者，本章还将触及“诊断性评价”（Diagnostic Assessment）。诊断性评价的目标在于识别学习者在特定知识或技能上存在的困难和误区，从而为教师提供个性化的教学干预方案。我们将探讨如何通过设计具有针对性的诊断测验，以及对测验结果进行细致的分析，来 pinpoint 学习者的“知识薄弱点”，并为制定个性化的学习计划提供依据。第四章：现代教育评价技术的融合与发展进入21世纪，信息技术以前所未有的速度渗透到教育的各个角落，也为教育评价带来了革命性的变革。本章将聚焦于那些融合了先进测量理论与现代信息技术的评价技术，它们不仅提升了评价的效率和准确性，更开辟了全新的评价模式。我们将重点介绍“计算机化测验”（Computerized Testing）的发展。计算机化测验利用计算机技术进行测验的编制、施测、评分和数据分析，相较于传统的纸笔测验，它在效率、灵活性和题目管理方面具有显著优势。更重要的是，计算机化测验是许多现代评价方法得以实现的技术载体。在此基础上，本章将深入探讨“自适应测验”（Adaptive Testing）的理论基础与实现机制。自适应测验是一种新型的计算机化测验技术，它能够根据受测者的实时表现，动态地调整后续题目的难度。这意味着，如果受测者答对了一道题目，系统会给出一道更难的题目；如果答错，系统则会给出更简单的题目。这种“量体裁衣”的题目推荐方式，不仅能够更精确地测量受测者的能力水平，还能显著缩短测验时间，提升受测者的答题体验。我们将详细解析自适应测验的数学模型，例如“项目反应理论”（Item Response Theory, IRT）在自适应测验设计中的核心作用。IR T提供了一套强大的统计模型，用于描述题目本身的特性（如难度、区分度、猜测度）以及受测者在某个维度上的能力水平。通过IR T模型，计算机可以实时估计受测者的能力，并据此选择最适合当前能力水平的题目，从而实现高效、精准的测量。本章还将展望未来教育评价技术的发展方向，包括与大数据分析、人工智能、学习分析（Learning Analytics）等技术的结合，这些技术将进一步推动教育评价向更加智能化、个性化、预测性强的方向发展。第五章：自适应测验的设计、实施与质量保障成功设计和实施一项自适应测验，需要深入理解其背后的理论、精心的规划以及严格的质量控制。本章将为读者提供一套系统性的指导，涵盖自适应测验从概念到实际应用的各个环节。首先，我们将详细阐述自适应测验的题目库建设。一个高质量的题目库是自适应测验的基石。我们需要学习如何根据测量目标，科学地编制和筛选题目，并运用IR T模型对题目进行标定（Calibration），获取题目的IR T参数。题目库的规模、题目的质量、题目的参数标定准确性，直接影响到自适应测验的测量精度和效率。其次，我们将深入探讨自适应测验的算法设计。包括能力估计算法（如最大似然估计、贝叶斯估计）、题目选择策略（如最大信息量原则、多重选择策略）等。不同的算法和策略会影响到测验的收敛速度、测量精度以及公平性。再者，本章还将聚焦于自适应测验的施测流程与技术支持。从用户界面的设计、操作流程的优化，到数据安全与隐私保护，都需要周密的考虑。同时，我们将讨论如何处理测验过程中的异常情况，例如网络中断、设备故障等。最后，质量保障是自适应测验成功的关键。我们将探讨如何进行测验的验证与评估，包括对测量精度、效率、公平性等指标的定期监测与分析。通过持续的质量评估，我们可以不断优化题目库，改进算法，从而确保自适应测验的长期有效性。本章的内容将为教育工作者和技术开发者提供实践性的指导，帮助他们成功构建和运用自适应测验。第六章：自适应测验在教育实践中的应用与前景自适应测验并非仅仅是理论上的概念，它已经在教育实践的多个领域展现出强大的应用潜力。本章将通过丰富的案例研究，展示自适应测验在不同教育情境下的实际应用，并展望其未来的发展前景。我们将探讨自适应测验在基础教育、高等教育、职业培训以及标准化考试等领域的应用。例如，在个性化辅导系统中，自适应测验可以根据学生的学习进度和掌握情况，动态推荐练习题目和学习资源，实现真正的“因材施教”。在大学英语四六级、GRE、GMAT等大型标准化考试中，自适应测验的应用能够提高考试效率，并提供更精准的能力测量。此外，我们还将讨论自适应测验如何与在线学习平台、学习管理系统（LMS）深度融合，为学习者提供全程的、个性化的学习支持。通过与学习分析技术的结合，自适应测验的数据还可以为教师和学校管理者提供关于学生学习状况的深入洞察，从而支持更有效的教学决策和课程改进。展望未来，随着人工智能技术的不断发展，自适应测验将变得更加智能和人性化。例如，未来的自适应测验可能能够识别学生的学习情绪、认知负荷，并据此调整测验的难度和节奏。同时，自适应测验的应用范围也将进一步拓展，不仅限于知识和技能的测量，还可以用于评估学生的创造力、批判性思维等更深层次的能力。本章将激励读者思考自适应测验在塑造未来教育模式中的无限可能。

用户评价

评分☆☆☆☆☆

从应用性的角度来看，这本书的实用价值是毋庸置疑的，它为所有从事教育测量、心理评估以及人力资源测评的专业人士提供了一把精确丈量能力的“标尺”。书中所提供的具体操作指南，无论是关于项目编写规范，还是关于数据分析流程的详尽步骤，都体现了作者深厚的实务经验。它没有停留在纯粹的理论推演，而是提供了大量的流程图、表格和决策树，清晰地指引读者如何将复杂的理论模型转化为可执行的评估方案。我特别欣赏其中关于“试题质量控制”那一章节的细致入微，它不仅告诉我们如何发现低效试题，更阐述了背后的统计学原理和修正策略，真正实现了从“会用”到“精通”的跨越。对于我们这些需要定期进行大规模标准化考试的机构来说，这本书无疑是未来几年内部培训和标准制定的重要参考蓝本。

评分☆☆☆☆☆

这本书的装帧设计简直是一场视觉的盛宴，硬壳的质感温润而厚重，拿在手里就有一种沉甸甸的可靠感。封面采用了一种沉稳的深蓝色调，配上烫金的书名，在光线下闪烁着低调而典雅的光芒，仿佛在无声地宣告其内容的权威性。内页的纸张选择也十分考究，米白色的纸张既保护了视力，又让油墨的呈现显得格外清晰锐利，排版布局疏密有致，字号大小适中，即便是长时间阅读也不会感到眼睛疲劳。尤其是章节标题和重要公式的突出处理，逻辑层次分明，使得原本可能有些枯燥的理论知识在视觉上得到了极大的梳理和简化。不得不提的是，书脊部分的工艺处理，平整服帖，即便是新书也能轻松摊平阅读，这对于需要频繁翻阅和对照的专业书籍来说，简直是人性化设计的典范。整体而言，这本书在物理形态上已经达到了艺术品的标准，它不仅仅是一本工具书，更像是一件值得收藏的案头精品，每一次的翻阅都成为一种享受，而不是负担。

评分☆☆☆☆☆

这本书的知识密度令人敬佩，但更令人惊喜的是其结构上的宏大叙事能力。它不仅仅是罗列了一堆公式和结论，而是构建了一个完整的、具有内在生命力的知识体系。从基础的测验构建理论出发，作者如同搭建一座摩天大楼，层层递进，稳步攀升，直到探讨到前沿的动态评估和人工智能辅助决策的应用。这种由浅入深的编排，使得即便是初学者也能找到自己的立足点，而资深的研究者也能在深层次的章节中找到挑战和启发。更值得称道的是，书中在关键转折点处，巧妙地穿插了历史回顾和不同学派的观点交锋，这让阅读过程充满了思想的张力，读者能够清晰地看到一个理论是如何在历史的长河中发展、完善乃至被挑战的过程。这不仅仅是一本“怎么做”的书，更是一本关于“为什么是这样”的深刻哲学探讨。

评分☆☆☆☆☆

初读这本书的感受，仿佛是走进了一座精心规划的知识迷宫，但这次迷宫的导览员异常清晰且富有耐心。作者的叙事风格极其严谨，如同精密的手术刀，解剖着每一个复杂的概念，不放过任何一个细微的逻辑关节。它不像某些学术著作那样，将深奥的理论堆砌在一起，让人望而生畏；相反，它更像是一位循循善诱的良师，总能在关键时刻给出恰到好处的类比和实例，将抽象的数学模型和统计学原理“翻译”成可以被理解的语言。特别是对于测验设计中的信度与效度这些核心议题的处理，作者没有停留在表面的定义，而是深入挖掘了它们在不同测验情境下的实际操作意义和潜在的局限性。阅读过程中，我时常会停下来，思考书中所提出的每一个论断，并尝试将其与我过往的实践经验进行对接，这种强烈的互动感，是很多教科书所不具备的，它真正做到了理论指导实践，而不是高高在上。

评分☆☆☆☆☆

这本书最让我感到震撼的，是它所蕴含的批判性思维的火种。很多专业书籍会倾向于宣传一种“最佳”的范式，但这本书却展现了惊人的客观与包容性。在介绍主流理论的同时，作者总能不失时机地指出其内在的假设前提和潜在的伦理风险。比如，在讨论测验的公平性问题时，它没有回避不同文化背景下测试效度的差异，而是深入剖析了偏见来源，并探讨了消除偏见的技术途径。这种深刻的自我反思能力，使得整本书的论述显得既扎实又充满人文关怀。它教会我的不仅是测量的技巧，更是一种对“测量”行为本身的敬畏之心——即我们所使用的工具，都可能带有我们自身思维的烙印，因此必须保持警醒和不断的迭代。阅读完毕，我感觉自己不仅仅是掌握了一套知识体系，更是获得了一种审视和改进现有评估体系的全新视角和勇气。