教育測量與評估（原書第二版） pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

[美] Cecil R.Reynolds 等著，霍黎，霍舟譯

圖書標籤:

教育測量
教育評估
心理測量
統計分析
教育研究
測量理論
評估方法
信度與效度
標準化測試
教育數據分析

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：科學齣版社

ISBN：9787030459916

版次：1

商品編碼：11818996

包裝：平裝

開本：16開

齣版時間：2015-11-01

用紙：膠版紙

頁數：544

正文語種：中文

具體描述

內容簡介

　　《教育測量與評估（原書第二版）》的主要內容包括：（1）在對學生以專業的方式進行評估的時候，教師所應該掌握的必要知識與技能；（2）教育評估研究的意義。《教育測量與評估（原書第二版）》介紹瞭在評估中經常采用的必要的基本數學概念和知識；擴展瞭傳統的教育評估的內容，介紹瞭近幾年使用比較廣泛的錶現性評估和成長記錄袋評估；完整介紹瞭對殘疾學生評估所必須進行的評估調整；還討論瞭教育評估中的實踐。

譯者序
原書第二版前言
原書前言
第1章教育評估簡介1
1.1評估語言2
1.測驗、測量和評估2
2.測驗類型4
3.分數解釋的類型8
1.2教育評估的假設9
1.心理與教育結構是存在的9
2.心理與教育結構是可以測量的9
3.雖然可以測量結構，但測量並不完美10
4.存在不同的方法來測量任何給定的結構10
5.所有評估方法都有其自身的優勢和弱點10
6.信息的多種來源應該是評估過程的組成部分10
7.測驗中的錶現可以推廣到非測驗行為11
8.評估可以提供信息用來幫助教育工作者製定更好的教育決策11
9.可以用公平的方式進行評估11
10.測驗和評估可以使教育機構乃至整個社會受益12
1.3評估過程中的參與者13
1.開發測驗的人13
2.使用測驗的人14
3.參加測驗的人14
4.評估過程中的其他參與人員15
1.4教育評估與相關法律15
1.不讓一個孩子掉隊法案（NCLB，2001）15
2.殘疾人教育改進法案2004（IDEA，2004）16
3.1973年《康復法案》的第504條款（504條款）17
4.保護學生權利法案（PPRA）18
5.傢庭教育權利和隱私權法案（FERPA）19
1.5教育評估的常見應用19
1.學生評價19
2.教學決策20
3.選拔、安置和分類決策20
4.政策決策21
5.谘詢和指導決策21
1.6關於評估，教師需要瞭解什麼21
1.教師應該有能力選擇適閤做教學決策的、專業開發的評估方法22
2.教師應該有能力開發適閤做教學決策的評估方法22
3.教師應該有能力管理、評閱和解釋專業開發的和自己編製的評估方法22
4.在做教育決策時，教師應該有能力使用評估結果23
5.教師應該有能力開發包含評估信息的有效的評分方法23
6.教師應該有能力交流評估結果23
7.教師應該有能力識彆不道德、非法和其他不恰當使用評估的方法或信息23
1.721世紀的教育評估24
1.計算機自適應測驗（CAT）和其他技術進步24
2.“真實的”或復雜的錶現性評估25
3.教育問責和高風險測驗26
4.對殘疾學生評估的趨勢27
1.8總結28
1.9關鍵術語和概念30
1.10推薦閱讀31
1.11感興趣的互聯網網站32
第2章測量中的數學基礎33
2.1數學在評估中的作用33
2.2測量量錶34
1.什麼是測量？34
2.稱名量錶34
3.順序量錶35
4.等距量錶35
5.比率量錶36
2.3測驗成績的描述39
1.分布39
2.集中趨勢測量42
3.變異性測量46
2.4相關係數49
1.散點圖50
2.相關和預測52
3.相關係數的類型52
4.相關性與因果性54
2.5總結55
2.6關鍵術語和概念56
2.7推薦讀物57
2.8感興趣的互聯網網站57
2.9練習題58
第3章測驗得分的意義60
3.1常模參照和標準參照得分的解釋61
1.常模參照解釋62
2.用於常模參照解釋的派生分數67
3.標準參照解釋76
3.2常模參照，參照標準，或兩者的結閤80
3.3得分的定性描述82
3.4總結82
3.5關鍵術語和概念84
3.6推薦讀物85
3.7感興趣的網站85
3.8練習題86
第4章教師的信度87
4.1測量誤差88
1.測量誤差的來源90
4.2估計信度的方法92
1.重測信度93
2.復本信度94
3.內部一緻性信度95
4.評分者之間信度98
5.總評成績的信度99
6.選擇信度係數100
7.評價信度係數102
8.如何提高信度104
9.估計信度的特殊問題105
4.3測量的標準誤107
1.評價測量的標準誤108
4.4信度：教師的實踐策略110
4.5總結113
4.6關鍵術語和概念114
4.7推薦讀物115
4.8練習題115
第5章教師的效度117
5.1效度威脅118
5.2信度和效度119
5.3“效度類型”與“效度證據類型”120
5.4效度證據類型122
1.基於測驗內容的證據122
2.基於與其他變量之間關係的效度證據125
3.基於內部結構的證據132
4.基於反應過程的證據133
5.基於測驗後果的證據133
6.整閤效度證據134
5.5效度：教師的實踐策略135
5.6總結137
5.7關鍵術語和概念138
5.8推薦讀物139
第6章教師的試題分析141
6.1試題難度指標（或試題難度水平）142
1.特殊評估情況和試題難度144
6.2試題區分度145
1.區分度指標145
2.試題�艙�體測驗相關係數148
3.掌握測驗的試題區分度149
4.速度測驗的試題分析150
6.3乾擾項分析150
1.乾擾項如何影響試題難度和區分度152
6.4試題分析：教師的實踐策略153
6.5使用試題分析來改善試題154
6.6錶現性評估的試題分析157
6.7定性試題分析158
6.8使用試題分析改進課堂教學160
6.9總結160
6.10關鍵術語和概念161
6.11推薦讀物162
第7章開發課堂測驗的基本步驟163
7.1教育目標的特點164
1.範圍164
7.2教育目標的分類165
1.認知領域166
2.情感領域168
3.動作技能領域169
7.3行為與非行為教育目標169
7.4編寫教育目標170
7.5開發測驗提綱（或測驗藍圖）172
7.6按照測驗提綱來開發測驗173
1.常模參照和標準參照得分的解釋169
7.7在全州範圍內開發課堂測驗174
1.選擇使用哪種類型的試題174
2.裝配評估178
7.8讓學生為評估做準備和管理評估180
7.9總結183
7.10關鍵術語和概念184
7.11推薦讀物185
第8章選擇類試題的開發和使用186
8.1選擇題187
1.開發選擇題的準則188
2.選擇題的優勢198
3.選擇題的弱點201
8.2判斷題202
1.開發判斷題的準則203
2.判斷題的優勢205
3.判斷題的弱點205
8.3匹配題206
1.開發匹配題的準則207
2.匹配題的優勢209
3.匹配題的弱點209
8.4總結210
8.5關鍵術語和概念211
8.6推薦讀物212
第9章構造類試題的開發和使用213
9.1口試：作為構造類試題先驅的口頭論述214
9.2論述題215
1.論述題測驗的目的215
2.不同復雜程度的論述題216
3.限製型論述題與擴展型論述題218
4.開發論述題的準則219
5.論述題的優勢220
6.論述題的弱點221
7.評分論述題的準則223
9.3簡答題226
1.開發簡答題的準則228
2.簡答題的優勢229
3.簡答題的弱點230
9.4最後注意：構造類試題與選擇類試題231
9.5總結231
9.6關鍵術語和概念232
9.7推薦讀物233
第10章錶現性評估和成長記錄袋234
10.1什麼是錶現性評估？235
10.2開發有效錶現性評估的準則240
1.選擇閤適的錶現性任務240
2.開發測驗說明243
3.開發評分答案的辦法244
4.減少評分誤差的實施步驟248
5.錶現性評估的優勢253
6.錶現性評估的弱點254
10.3成長記錄袋256
1.開發成長記錄袋評估的準則256
2.成長記錄袋評估的優勢258
3.成長記錄袋評估的弱點258
10.4總結259
10.5關鍵術語和概念262
10.6推薦讀物263
10.7感興趣的網站263
第11章基於課堂評估來評定成績264
11.1反饋與評價265
1.正式和非正式評價267
2.在終結性評價中使用形成性評價268
11.2報告學生的進步：使用什麼符號269
11.3評定成績的基礎271
11.4參考框架272
1.常模參照評分（相對評分）272
2.標準參照評分（絕對評分）274
3.成就與改善或努力的關係275
4.成就與能力的關係275
5.建議276
11.5將各類得分閤並成總評成績276
11.6告知學生評分係統和獲得的成績281
11.7傢長會283
11.8總結283
11.9關鍵術語和概念284
11.10推薦讀物285
第12章高風險評估時代的標準化成就測驗286
12.1高風險評估時代288
12.2集體成就測驗290
1.商業開發的集體成就測驗291
2.各州開發的成就測驗296
3.增值評估：一個教育問責的新方法302
4.在學校中使用標準化成就測驗的最佳實踐303
12.3個體成就測驗308
12.4選擇成就測驗套裝311
12.5總結312
12.6關鍵術語和概念313
12.7推薦讀物313
第13章在學校中使用資質測驗314
13.1智力測驗的簡要曆史317
13.2在學校中使用的資質和智力測驗319
1.資質�渤刪偷牟钜�321
13.3特殊學習障礙的一個新的評估策略：乾預反應（RTI）323
13.4主要的資質/智力測驗324
1.集體資質/智力測驗324
2.個體資質/智力測驗330
3.選擇資質/智力測驗335
4.理解智力評估報告336
13.5大學入學考試350
13.6總結351
13.7關鍵術語和概念352
13.8推薦讀物353
第14章行為和人格評估354
14.1評估行為和人格355
1.反應定勢356
2.在學校中的行為和人格評估358
14.2行為評定量錶359
1.兒童行為評估係統�駁詼�版——教師和傢長評定量錶（TRS和PRS）360
2.Conners評定量錶�殘薅┌媯–RS-R）365
3.兒童行為檢核錶和教師報告錶（CBCL和TRF）366
14.3自陳測量367
1.兒童行為評估係統�駁詼�版——人格自陳（SRP）368
2.青少年自陳量錶（YSR）372
14.4投射技術372
1.投射畫374
2.完成語句測驗375
3.統覺測驗375
4.墨漬技術376
14.5總結377
14.6關鍵術語和概念378
14.7推薦讀物379
第15章評估調整380
15.1影響殘疾學生評估的重大立法381
15.2殘疾人教育法案（IDEA）382
1.IDEA的殘疾分類383
15.3第504條款387
15.4評估

精彩書摘

　　第1章教育評估簡介
　　為什麼要瞭解測驗與評估？
　　本章強調
　　評估語言教育評估的常見應用教育評估的假設教師需要瞭解的評估內容評估過程中的參與者21世紀的教育評估教育評估與相關法律學習目標閱讀和學習本章後，學生應該能夠：(1) 定義測驗、測量和評估。(2) 解釋和列舉不同類型的測驗。(3) 描述和列舉對不同類型得分的解釋。(4) 描述和解釋教育評估的假設。(5) 解釋評估過程中的主要參與者。(6) 描述和解釋評估在學校中的主要應用。(7) 解釋影響評估的主要聯邦教育法律。(8) 描述和解釋教師在教育評估中應該掌握的能力。(9) 解釋評估的主要趨勢。評估是教學過程不可分割的組成部分。評估可以而且應該為加強施教和促進學習提供信息。
　　對教師來講，學生主要是受教育的對象。在高校從教60多年的經驗告訴我們，他們一般不會對測驗和評估感興趣。的確，雖然學生知道他們要參加測驗，但測驗並沒有導緻他們選擇從事教師這個職業。教師熱愛學生，也熱愛教育，但對於測驗，他們經常采用負麵或充其量是中立的態度。這種傾嚮並不局限於教育學生。主修心理學的大學生通常喜歡心理學，因為他們想從事這方麵的工作並在這方麵給人們提供幫助。他們渴望成為谘詢師或心理治療師，但想專門從事評估的相對較少。在給本科生講授教育或心理測驗和測量課程的時候，我們覺得花些時間嚮學生解釋為什麼需要瞭解測驗和評估是重要的。這是本章的主要目的之一。我們想解釋為什麼需要瞭解測驗與評估，並希望這些努力是值得的。
　　教學往往被概念化為教師施教而學生學習的簡單過程。按照這種觀點，教學被看成一個教與學的過程。但在實踐中，更實際的看法是，評估是教學過程不可分割的組成部分。事實上，據統計，教師至少投入1/3的時間用於與評估有關的活動（Stiggins and Conklin，1992）。評估可以而且應該為加強施教和促進學習提供信息。換句話說，施教、學習和評估之間有著密切的關係。按照這種擴展後的教學概念，施教和評估是密切相關的，評估提供瞭一些客觀反饋，如學生學到瞭什麼，他們學得怎麼樣，施教是否有效，以及什麼樣的信息、概念和目標需要更多關注。將教學僅限定在施教和學習過程上是有局限性的，教學過程更準確的概念應該包括施教、學習和評估。在這個模型中，評估的目標就像施教的目標一樣，用於促進學生的成長（Gronlund，1998）。在現實的教育世界中，很難想象有效的教學不涉及某種形式的評估。對學生學習的評估做得越好，教師的教學效果也就越好。
　　下麵引用Stiggins和Conklin（1992）的話來說明，在教育評估的整個過程中，教師發揮著重要作用。
　　作為一個國傢，花費數十億美元用在教育評估上，包括數百萬美元用於國際和國內的評估，以及另外的數百萬美元用於州際的測驗項目。最重要的是，以地區性的測驗項目為基礎的標準化測驗形成瞭數十億美元的産業。如果將所有這些花費加起來，很明顯，在政治上占有重要地位的評估，竟然占不到實施美國學校評估的1％。而另外99%的費用是用在教師每時每刻、日復一日、周而復始的課堂評估上。
　　總之，如果你想成為一個好教師，你需要瞭解一些與測驗和評估有關的知識。施教和評估都是教學過程的組成部分，並且評估是教師日常工作的一個重要組成部分。通過這一章的學習，希望你對教育評估的作用會有一個更好的瞭解，盡管你可能不想專門從事與測驗和評估有關的工作，但你會領會到評估對整個教育過程的重要作用。
　　1.1評估語言
　　在前言中，已經使用瞭一些比較常見但有些技術性的術語。這裏介紹一些對進一步閱讀有益的術語定義。1.測驗、測量和評估測驗是一個過程，在這個過程中采用標準化程序可以得到一個人行為的樣本並對其進行評價和評分（AERA et al.，1999）。
　　(1) 測驗：測驗（test）是一個工具或過程，在這個過程中采用標準化程序可以得到一個人行為的樣本並對其進行評價和評分（AERA，APA and NCME，1999）。這是一個相當寬泛或一般的定義，但在本書中將采用這個定義。當然，對不同類型的測驗，我們會提供更具體的信息。然而，在繼續學習之前需要注意的是，應該提一提我們所定義的測驗的一個特殊方麵。因為測驗僅是行為的樣本，所以至關重要的是，測驗反映的是你有興趣知道的具有代錶性行為的樣本。你的評估應該評定這樣的內容，即與你分配給它們的相對重要性要一緻。在我們對測驗和評估進行研究的時候，代錶性樣本概念的重要性將變得更加明顯；在後麵章節中介紹測驗的技術性能的時候，將會更詳細地涉及這一點。測量是給對象、特徵、屬性或行為分配數值的一套規則。
　　(2) 測量：測量（measurement）可以定義為給對象、特徵、屬性或行為來分配數值的一套規則。教育測驗是測量工具，涉及給一個人的錶現分配得分的規則（如管理指南和評分標準）。反過來，對這些得分的解釋又用來反映考生的特徵。例如，在拼寫測驗中，拼寫正確的單詞數量可以反映一個學生的拼寫能力。評估是收集信息的係統過程，這些信息可以用來推斷人或事物的特徵（AERA et al.，1999）。
　　(3) 評估：評估（assessment）是收集信息的係統過程，這些信息可以用來推斷人或事物的特徵（AERA et al.，1999）。評估應該導緻增加對這些特徵的瞭解。測驗顯然是一個收集信息的係統方法，因此是一套評估工具。從曆史記錄、訪談和觀察中得到的評論也是閤法的評估技術，當把這些信息集成起來的時候，會發揮很大的作用。因此，評估比測驗更廣泛、更全麵。
　　至此，已經定義瞭這些常見的術語，有一些我們不願意承認的觀點是，在實踐中，許多教育專傢互換地使用測驗、測量和評估這些術語。認識到這一點，Popham （2000）指齣，在當代教育界，評估已成為首選的術語。當應用於學生時，測量聽起來相對死闆和枯燥乏味，有避免使用的傾嚮。測驗有其自身的負麵含義。例如，幾乎每個星期報紙上刊登的有關“應試教育”或“高風險測驗”的文章中，測驗通常都帶有負麵的含意。此外，當人們聽到測驗這個詞時，通常認為是紙筆測驗。近年來，作為對傳統紙筆測驗越來越不滿的結果，導緻其他測驗得到瞭發展（例如，錶現性評估和成長記錄袋）。因此，測驗不再被看成現代教育實踐的特殊描述。這導緻瞭將評估作為教育工作者當前使用的流行語。心理測量學是心理測量的科學。信度指的是測驗成績的穩定性或一緻性。效度指的是對測驗分數解釋的準確性。
　　下麵，定義一些其他的術語。心理測量學（psychometrics）是心理測量的科學，心理測量學傢是專門從事測驗、測量和評估的心理或教育專業人員。你可能會聽到人們提到測驗的心理屬性，其實他們說的是測驗的測量或統計屬性。這些測量屬性包括信度和效度。信度（reliability）指的是測驗成績的穩定性或一緻性。理論上，信度是指測驗分數與測量誤差無關的程度（AERA et al.，1999）。與測量誤差相對無關的得分是穩定的或一緻的（即可靠的）。效度（validity），簡單來說，指的是對測驗得分解釋的適當性或準確性。如果測驗得分的解釋是為瞭反映智力，那麼它們實際上反映瞭智力嗎？如果測驗得分是用來預測工作上的成功，那麼它們能準確預測誰將在這份工作上成功嗎？
　　2.測驗類型
　　我們定義測驗是一個工具或過程，在這個過程中，采用標準化方法可以從中獲得一個人行為的樣本並對其進行評估或評分（AERA，APA and NCME，1999）。也許在你的生活中已經參加過大量的測驗，很可能你已經注意到，並不是所有的測驗都是一樣的。例如，參加學校的測驗是為瞭幫助確定其成績，參加駕照測驗是為瞭獲得駕駛執照，填寫調查問捲是為瞭幫助在教育和職業中做決策，在申請大學時要參加入學測驗，為瞭獲得專業證書和許可證也要參加測驗，以及參加人格測驗是為瞭獲得對人格的理解。這個簡單羅列顯然沒有窮盡所有的測驗。
　　Cronbach（1990）指齣，測驗一般可分為最大錶現性測驗和典型反應測驗兩種。最大錶現性測驗也常常稱為能力測驗，但成就測驗也包含在其中。在最大錶現性測驗中，試題的評分可以分為“正確”或“不正確”兩種，鼓勵考生展示他們最好的錶現。最大錶現性測驗（maximum performance test）的目的是評估考生的知識和能力的上限。例如，最大錶現性測驗可以用來評估學生執行選定任務或掌握指定內容領域的情況。智力測驗與課堂成就測驗是最大錶現性測驗最常見的例子。相比之下，典型反應測驗試圖測量考生的典型行為和特質。通常，典型反應測驗稱為人格測驗。在這種情況下，人格用來廣泛反映一整套非認知的特徵，如態度、行為、情感和興趣（Anastasi and Urbina，1997）。一些人保留測驗這個術語專門用於最大錶現性測驗，而將量錶和調查問捲等術語用於典型反應測驗（AERA et al.，1999）。在這本書中，術語測驗采用的是其更廣泛的意義，即包括最大錶現性測驗和典型反應測驗。最大錶現性測驗的目的是評估考生的知識和能力的上限。
　　最大錶現性測驗：正如我們提到的，最大錶現性測驗的目的是評估考生的知識和能力的上限。最大錶現性測驗通常還可以劃分為一些子類。首先，最大錶現性測驗可以分為成就測驗和資質測驗。其次，最大錶現性測驗可以分為速度測驗和難度測驗。最後，最大錶現性測驗還可以分為客觀測驗和主觀測驗。這些區彆，雖然本質上不是絕對的，但已有很長的曆史基礎，並且提供瞭一些有用的描述性信息。成就測驗測量在已接受過施教的內容領域內的知識或技能（AERA et al.，1999）。資質測驗測量作為整個生活經曆的結果而積纍的認知技能和能力（AERA et al.，1999）。
　　成就測驗和資質測驗：最大錶現性測驗通常分為成就測驗和資質測驗。成就測驗（achievement test）的目的是測量在已接受過施教的內容領域內的知識或技能（AERA et al.，1999）。與此相反，資質測驗（aptitude test）的範圍更廣泛，其目的是用來測量一個人作為整個生活經曆的結果而積纍的認知技能、能力和知識。換句話說，成就測驗與一個特定的教學目標有關，而資質測驗反映整個生活經驗纍積的影響。然而，這種區彆並不是絕對的，實際上僅是程度或強度問題。當今大多數測驗專傢將成就測驗和資質測驗概念化瞭，用來測量認知能力的提高，這個認知能力的提高可以依靠評估的能力與具體學習經驗的密切程度而形成一個連續體。成就測驗和資質測驗的另一個區彆是對結果的使用或解釋的方式。成就測驗通常用來測量一個人在一個特定的時間點上學到或“獲得”瞭什麼。與此相反，資質測驗通常用來預測未來錶現或反映一個人潛在的學術或工作錶現。然而，這種區分也不是絕對的。例如，在高中畢業時用來評估成就的測驗也可能用於預測在大學的成功。雖然認識到成就測驗和資質測驗之間的區彆並不是絕對重要的，但在討論學生能力的不同類型的時候，成就和資質的區彆卻很有用。速度測驗反映的是速度的差異。難度測驗反映的是考生能夠正確迴答的試題難度。
　　速度測驗和難度測驗：最大錶現性測驗經常分為速度測驗和難度測驗。對單純的速度測驗（speed test），錶現僅僅反映的是速度的差異。速度測驗通常包含相對簡單的試題，但有嚴格的時間限製，目的是限製考生成功做完所有試題。對單純的難度測驗（power test），速度不是要考慮的主要問題。參加難度測驗的每個人都有足夠的時間來處理這些試題，但試題是根據難易程度排列的，並且測驗中包含一些難度非常大的試題，沒有考生能試圖迴答所有的試題。因此，難度測驗的錶現主要反映考生能夠正確迴答的試題的難度。在良好的速度測驗和難度測驗中，沒有人會獲得一個完美的得分。正是按照完美得分是“不確定的”來設計這些測驗。也就是說，如果有人獲得一個完美的得分，那麼，這個測驗就沒有評定齣這個人能力的上限。為瞭充分接近能力的上限，測驗需要包括測驗專傢所說的“足夠的上限（adequate ceiling）”；也就是說，測驗足夠睏難，沒有考生能夠獲得一個完美的得分。如你所料，速度測驗和難度測驗之間的差異也是程度上的差彆
　　……

前言/序言

教育測量與評估內容簡介本書旨在為讀者提供一套係統、全麵且深入的教育測量與評估知識體係。它不僅是理論的梳理，更是實踐的指導，力求幫助讀者理解教育評價的本質，掌握科學的測量工具，並能將所學應用於教育教學的各個環節，從而提升教育質量和促進學生發展。本書並非僅僅羅列概念和方法，而是通過清晰的邏輯框架和豐富的實例，引導讀者思考教育評價在現代教育體係中的角色與意義。第一部分：教育測量與評估的理論基石本部分將從宏觀層麵，為讀者構建起理解教育測量與評估的理論框架。教育評價的本質與功能：我們將深入探討教育評價究竟是什麼，以及它在教育活動中扮演的角色。評價不應僅僅是分數和排名的簡單纍加，而是貫穿教學過程、服務於教學改進、促進學生個體全麵發展的動態過程。我們將分析評價的診斷性、形成性、總結性功能，闡述它們如何協同作用，共同服務於教育目標。例如，診斷性評價可以幫助我們瞭解學生的現有水平，為教學設計提供依據；形成性評價則能在教學過程中實時監控學生的學習進展，及時調整教學策略，彌補學習不足；而總結性評價則用於對一個學習階段或項目的整體成效進行衡量，為教育決策提供支持。教育測量與評估的理論流派與發展曆程：瞭解教育評價的理論演變，有助於我們更深刻地理解當前的主流觀點和方法。我們將梳理從傳統客觀主義測量到現代多元評價、情境化評價等不同理論流派的發展脈絡，分析它們各自的優缺點和適用範圍。讀者將瞭解到，評價理論的發展與教育理念、社會需求以及科學技術的進步息息相關。例如，早期的測量理論更側重於標準化和客觀性，而現代評價則更加強調評價的多元性、發展性和情境性，關注學生的主動參與和深度理解。教育評價的基本原則：科學、公平、有效、發展性是教育評價不可或缺的原則。我們將詳細闡述這些原則的內涵，並探討如何在實際操作中遵循這些原則。公平原則要求評價機會均等，評價標準公正；有效原則強調評價結果的真實性和實用性，能夠真實反映被評價對象的狀況並為決策提供可靠依據；發展性原則則關注評價對被評價者成長的促進作用，引導其不斷進步。第二部分：教育測量的基本原理與技術本部分將聚焦於教育測量這一具體工具，介紹其核心原理和常用技術。測量信度（Reliability）：信度是測量工具質量的首要指標，它反映瞭測量結果的穩定性和一緻性。我們將詳細講解不同類型的信度，如重測信度、復本信度、內部一緻性信度（包括分半信度和Cronbach's α係數）等，並介紹如何計算和提高測量的信度。例如，一個測量學生數學能力的測驗，如果兩次施測的結果非常接近，那麼它的重測信度就較高。我們將探討影響信度的因素，如測驗長度、題目難度、評分者的主觀性等，並提供提高信度的實踐建議，例如增加測驗題目數量，使用客觀性強的評分標準。測量效度（Validity）：效度是教育測量更為重要的指標，它關注的是測量工具是否真正測量瞭它所聲稱要測量的東西。我們將深入探討不同類型的效度，包括內容效度、結構效度（包括聚閤效度和區彆效度）、效標關聯效度（包括同時效度和預測效度）以及錶麵效度。例如，一份旨在測量學生英語閱讀理解能力的測驗，如果其題目確實考察瞭學生理解文章的深層含義、推斷作者意圖等能力，那麼它的內容效度和結構效度就可能較高。我們將詳細介紹如何通過多種證據來證明一個測量工具的效度，並強調不同效度類型在評價不同教育目標時的側重點。測量標準參照與形成性評價（Standard-Referenced Measurement and Formative Assessment）：與傳統的常模參照（Norm-Referenced）評價不同，標準參照評價關注的是學生是否達到瞭預設的學習目標。我們將深入探討標準參照測量的理念、設計和應用，以及它與形成性評價的緊密聯係。形成性評價貫穿於教學過程中，旨在及時瞭解學生的學習狀況，為教學反饋和調整提供信息。我們將介紹各種形成性評價的技術，如課堂觀察、學生訪談、作品集、小測驗等，並分析如何利用這些信息來優化教學過程。測驗設計與項目分析（Test Design and Item Analysis）：優質的測驗離不開精心的設計和嚴謹的分析。本部分將指導讀者如何從明確的測量目標齣發，設計符閤要求的測驗題目，包括選擇題、填空題、問答題、操作題等不同題型的命題原則和注意事項。同時，我們將詳細介紹項目分析（Item Analysis）的基本方法，包括難度分析和區分度分析，以及如何利用項目分析的結果來篩選和優化測驗題目，提高測驗的信度和效度。例如，通過分析一個選擇題的難度指數和區分度指數，我們可以判斷這個題目是否適閤用於測量學生的知識或能力。第三部分：教育評估的實踐應用本部分將把理論與技術轉化為實際的評估操作，展示教育評價在不同領域的應用。學習成就評估（Assessment of Learning Achievement）：這是教育評價最核心的應用領域。我們將詳細介紹如何設計和實施各種形式的學習成就評估，包括期末考試、單元測驗、項目評估等，並討論如何對評估結果進行解釋和反饋。我們將強調，學習成就評估不僅是知識的檢測，更是對學生綜閤能力的考察。課程與教學評估（Curriculum and Instruction Evaluation）：課程和教學是教育活動的主體。本部分將探討如何對課程的設置、教學方法的有效性、教學資源的質量等進行係統評估，以促進課程的優化和教學的改進。我們將介紹課程評估的不同模型和方法，以及如何通過收集學生、教師、管理者等多方反饋來全麵評價教學效果。教育項目評估（Educational Program Evaluation）：評估教育項目（如學科改進項目、教師培訓項目、素質教育項目等）的有效性，對於教育資源的閤理配置和教育政策的製定至關重要。我們將介紹教育項目評估的原則、步驟和常用方法，以及如何分析評估數據，提齣改進建議。教師專業發展評估（Teacher Professional Development Evaluation）：教師是教育改革的關鍵。本部分將探討如何科學、公正地評估教師的專業能力、教學錶現和職業發展狀況，為教師的成長提供支持和指導。我們將介紹教師評估的多元化方式，如同行評價、學生評價、自我評價等，並強調評估過程應關注教師的優勢和發展需求。教育決策與質量保障（Educational Decision Making and Quality Assurance）：教育評價是教育決策的科學依據，也是教育質量保障的重要環節。我們將分析教育評價信息如何支持教育行政部門、學校管理者在教育政策製定、資源配置、學校管理等方麵的科學決策，以及如何建立健全的教育評價體係，提升整體教育質量。第四部分：教育測量與評估的前沿與發展為瞭讓讀者跟上教育評價發展的步伐，本部分將展望未來的發展趨勢。信息技術在教育測量與評估中的應用（Application of Information Technology in Educational Measurement and Assessment）：隨著信息技術的飛速發展，教育測量與評估正經曆深刻變革。我們將探討在綫測試、自適應測試、學習分析、大數據在教育評價中的應用，以及它們如何提升評價的效率、精度和個性化水平。多元化評估與學生綜閤素質評價（Diversified Assessment and Comprehensive Evaluation of Student Qualities）：現代教育越來越重視學生的核心素養和綜閤能力。本部分將重點介紹如何構建更加多元化的評估體係，將非認知能力、實踐能力、創新能力等納入評價範疇，以及如何進行學生綜閤素質評價。教育評價的倫理與反思（Ethics and Reflections in Educational Assessment）：任何評價活動都必須遵循倫理規範。我們將強調教育評價中的公平性、保密性、透明性等倫理原則，並引導讀者進行批判性反思，認識到評價的局限性，避免過度強調分數而忽略瞭教育的本質。本書力求以嚴謹的學術態度，結閤豐富的實踐案例，為讀者提供一個係統、深入的學習體驗。無論您是教育工作者、教育研究者，還是對教育評價感興趣的讀者，本書都將為您提供寶貴的知識和有益的啓示，幫助您在教育實踐中更好地運用測量與評估的智慧，最終服務於教育的進步與發展。

用戶評價

評分☆☆☆☆☆

坦率地說，這本書的閱讀體驗是“艱苦卓絕”的，它更像是一部工具手冊而非休閑讀物，對於那些期望快速找到“秘籍”的讀者，可能會感到有些力不從心。不過，如果能沉下心來逐字逐句地研讀，你會發現其內在的體係結構是極其穩固和自洽的。我個人非常推崇其中關於“評價標準建立”的論述，它打破瞭僅僅依賴量錶分數的窠臼，強調瞭評價的文化背景和情境依賴性。作者提齣瞭一個多維度的標準校準框架，這個框架的引入，無疑為當前教育評價改革中“唯分數論”的弊端提供瞭一種強有力的理論支撐和實踐路徑。書中的圖錶和模型設計精良，雖然復雜，但卻是理解復雜統計關係的視覺拐杖，使得抽象的概念得以具象化。對於研究生級彆的學生而言，這本書幾乎是案頭必備，它提供瞭一個審視和批判現有評估實踐的哲學高度。

評分☆☆☆☆☆

這本書的作者在敘述問題的深度上，展現齣瞭一種罕見的穿透力。他似乎總能一針見血地指齣當前教育評估體係中那些“潛規則”和結構性矛盾。比如，書中關於“形成性評價”的章節，並沒有停留在僅僅介紹工具（如觀察記錄、小測驗），而是深入探討瞭如何在資源有限的課堂環境中，確保形成性評價的反饋質量和及時性，這纔是真正考驗評估者功力的地方。我發現，作者的語言風格在不同章節間有著微妙的變化，在談及倫理問題時，語氣變得尤為凝重且富有警示性，而在介紹具體量錶編製流程時，則迴歸到嚴謹的指令式口吻。這種風格的轉換，讓整本書讀起來不至於枯燥，反而像是一場與教育專傢的深度對話。唯一的不足可能在於，一些曆史迴顧性的內容略顯冗長，如果能做更精煉的處理，會更符閤現代讀者的閱讀習慣。

評分☆☆☆☆☆

這本厚重的著作，甫一翻開便給人一種撲麵而來的學術氣息，裝幀雖然樸實，但內頁的紙張質量著實不錯，使得長時間閱讀下來眼睛也不會太過疲勞。我拿到這本書時，首先被其內容的廣度和深度所震撼，它似乎不僅僅停留在基礎的概念闡述，而是深入到瞭教育領域各個關鍵環節的肌理之中。書中對不同測量工具的效度和信度的探討，簡直是教科書級彆的詳盡解析，那些復雜的統計學公式和模型，作者似乎用盡瞭心思，試圖用最通俗易懂的方式呈現齣來，雖然對於我這樣的初學者來說，啃起來還是需要極大的毅力與時間。尤其讓我印象深刻的是關於項目反應理論（IRT）的章節，它突破瞭傳統項目反應理論的局限性，引入瞭許多前沿的視角，這對於希望在未來研究領域有所建樹的讀者無疑是一筆寶貴的財富。整體來看，這本書的排版清晰，邏輯嚴密，作者對教育評估體係的構建有著深刻而獨到的見解，絕非泛泛而談之作，更像是為專業人士量身打造的一份深度指南。

評分☆☆☆☆☆

讀完這書的初稿感觸頗深，它的文字風格有一種獨特的冷靜與客觀，仿佛作者是一位經驗豐富、不帶任何情感色彩的裁判員，公正地審視著教育評估這場復雜的“競技”。我特彆欣賞其中關於“測量誤差”的分析部分，許多教科書往往一帶而過，但這本卻花費瞭大量篇幅去剖析誤差來源的微妙性，從抽樣誤差到施測情境誤差，再到評分者自身的認知偏差，都做瞭細緻入微的描摹。這種對細節的執著，體現瞭作者極高的專業素養。書中的案例設計也十分貼閤實際教學場景，不再是那種脫離地麵的空中樓閣般的理論推導，而是充滿瞭“煙火氣”，讓人很容易聯想到自己過去在學校或培訓機構中遇到的真實評估睏境。遺憾的是，對於一些新興的技術，比如基於人工智能的自適應性測試的設計思路，似乎還略顯保守，期待未來能有更具前瞻性的討論補充進來，但這絲毫不影響它作為一本奠基性著作的地位。

評分☆☆☆☆☆

如果用一個詞來形容這套書給我的感受，那就是“體係化”。它不是零散知識點的堆砌，而是構建瞭一個完整的、可操作的教育評估知識大廈。最令我贊賞的是其對“評估結果的解釋與溝通”這一環節的重視。在現實中，評估往往止步於報告分數的産生，但這本書卻用瞭相當大的篇幅來指導評估者如何有效地嚮傢長、教師乃至政策製定者“講述”分數背後的故事，如何避免誤讀和濫用數據。這種將技術操作與社會責任緊密結閤的視角，極大地提升瞭本書的價值層次。書中的附錄部分提供瞭大量實用的核查清單和操作步驟，非常適閤在實際工作中需要快速檢索和驗證操作規範的專業人士。總的來說，這本書的內容厚重、視野開闊，它提供的不僅僅是“如何做”的方法論，更有“為什麼這麼做”的深層邏輯支撐，是一部值得反復研讀的權威參考書。