教育和心理的測量與評價原理(第4版) pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

[美] 薩剋斯，牛頓著

圖書標籤:

教育測量
心理測量
教育評價
心理評價
測量原理
評價原理
教育統計
心理統計
信效度
標準化測量

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

店鋪：文軒網旗艦店

齣版社：江蘇教育齣版社

ISBN：9787534349478

商品編碼：1027078527

齣版時間：2011-02-01

具體描述

作者:(美)薩剋斯,牛頓著作王昌海譯者定價:78 齣版社:江蘇教育齣版社齣版日期:2011年02月01日頁數:704 裝幀:平裝 ISBN:9787534349478 ●總序
●前言
●部分教育和心理的測量與評價
● 測量、測驗和評價的作用
●1 本章目標
●2 測量和評價的發展史及其重要性
●3 教學評價的必要性
●4 測量、教學、評價三者的關係
●5 測量
●6 測驗與其他測量方法
●7 評價
●8 教育與心理中評價性決策的類型
●9 小結
●第二章測驗的社會、法律和倫理含義
●1 本章目標
●2 對測驗的批評
●3 測驗對少民族學生有偏見
●4 閤乎倫理與不閤乎倫理的測驗實踐
●5 傳統測驗以外的測量方法
●6 小結
●部分目錄

內容簡介

這是一本廣受教育學和心理學同行贊譽的教材。
本書結閤智力、能力傾嚮、成就、興趣、態度、價值觀和人格的測量，介紹瞭測驗編製、項目編製、項目分析、信度、效度等方麵的基本原理。書中還提供瞭如何選擇標準化測驗，如何評估學生的進步等資料，並描述瞭各種評估策略。
本書在教育學和心理學*新研究成果的基礎上編寫，是一本理想的教材及教學參考書。

教育與心理測量和評價的科學基石：理解、應用與發展在教育和心理學領域，準確的測量與評價是理解個體差異、評估教學效果、指導乾預措施、推動學科發展不可或缺的工具。本書並非聚焦於某一部具體的著作，而是深入探討教育與心理測量和評價的普遍原理、核心概念、發展曆程、關鍵技術及其在不同情境下的應用。我們將一同探索，如何纔能構建科學、公正、有效的測量工具，如何 interpret 測驗結果，並如何利用評價信息來促進學習、優化教學、指導決策，最終實現人的全麵發展。第一部分：測量與評價的理論根基 1. 什麼是測量與評價？測量（Measurement）在教育和心理學中，是指根據一定的規則，將個體在特定能力、特質、知識或行為上的錶現，用數量化的指標來錶示的過程。它關注的是“有多少”或“達到什麼程度”。例如，一次數學考試的分數，一個性格問捲的得分，都是測量結果。評價（Evaluation）則是一個更為廣闊的概念，它是在測量信息的基礎上，運用一定的標準，對測量的結果或過程進行價值判斷、解釋和決策的過程。評價不僅涉及“有多少”，更關注“好不好”、“是否有意義”、“應該如何做”。例如，根據數學考試分數來判斷學生是否掌握瞭某個知識點，根據性格問捲結果來判斷該個體是否適閤某個職業，都是評價行為。兩者之間的關係是密切而辯證的：測量是評價的基礎，沒有可靠的測量，評價就失去瞭客觀依據；而評價則賦予瞭測量以意義，指導瞭測量工作的方嚮和目的。 2. 測量與評價的曆史淵源與發展人類社會對個體能力的評估由來已久，從古代的科舉考試到近現代的標準化測驗，測量與評價經曆瞭漫長而深刻的演變。早期萌芽（古代至19世紀）：早期社會對個體能力和知識的考察多以選拔人纔為目的，如中國古代的科舉製度，雖然方式粗糙，但已體現瞭對特定能力進行評估的意圖。科學測量興起（19世紀末至20世紀初）：隨著心理學和教育學作為獨立學科的興起，科學測量的方法開始被引入。以費爾柴爾德（Francis Galton）、詹姆斯·麥肯·卡特爾（James McKeen Cattell）等為代錶的學者，開始關注個體差異，並嘗試用客觀方法來測量各種心理特質。比奈-西濛智力量錶（Binet-Simon Scale）的齣現，標誌著智力測量進入瞭新的階段。標準化測驗的成熟與發展（20世紀中葉）：第二次世界大戰極大地推動瞭大規模的標準化測驗發展，如美國陸軍的選拔和分類測驗。這一時期，信度（Reliability）和效度（Validity）等核心概念得到深入研究和係統化，統計方法在測量和評價中的應用日益廣泛。教育測量學（Educational Measurement）和心理測量學（Psychological Measurement）逐漸成為獨立的學科分支。評價理論的豐富與應用拓展（20世紀後期至今）：評價的範圍不斷擴大，從以診斷和選拔為主，發展到更加關注形成性評價（Formative Evaluation）和促進性評價（Appraisal for Improvement），強調評價的診斷、反饋和促進學習的功能。同時，教育評價（Educational Evaluation）和心理評價（Psychological Evaluation）在課程評價、教學評估、人纔測評、臨床診斷、谘詢輔導等領域的應用日益深化，並受到教育改革、技術進步（如計算機化自適應測驗）和社會發展的影響，不斷注入新的活力。 3. 測量與評價的基本概念與原則理解測量與評價，需要掌握一係列基本概念和遵循重要原則。核心概念：構念（Construct）：指那些不可直接觀察但可以通過行為錶現推斷齣來的心理特質或能力，如智力、焦慮、創造力、學習動機等。測量與評價的核心任務之一就是如何有效地測量這些抽象構念。操作定義（Operational Definition）：為瞭測量某個構念，需要將其轉化為可以觀察和測量的具體行為或指標。操作定義就是指明如何進行測量操作的描述。例如，“智力”的操作定義可以是“在韋氏智力量錶上的得分”。測驗（Test）：指一種標準的、有組織的方式，用於收集關於個體在特定行為或能力方麵的信息。測驗可以是紙筆測驗、操作測驗、觀察記錄等。信度（Reliability）：指測量工具的一緻性或穩定性。一個高信度的測驗，在重復測量同一對象時，會得到相似的結果。信度是測量的質量指標之一，但它並不保證測量的準確性。效度（Validity）：指測量工具的準確性，即測驗是否真正測量瞭它聲稱要測量的東西。效度是測量的最高標準，一個測驗可以信度很高，但如果它測量的不是我們想測量的，那麼它就是無效的。常模（Norm）：指一個參照群體在特定測驗上的平均得分或得分分布。常模為解釋個體測驗分數提供瞭基準，使得我們可以瞭解一個人的得分相對於同質群體的位置。標準分數（Standard Score）：如Z分數、T分數等，是將原始分數轉換為具有特定均值和標準差的等距分數，便於比較不同測驗的分數。效標參照（Criterion-Referenced）：評價的目的是判斷被評價者是否達到瞭預設的、具體的學習目標或能力標準，不考慮其與他人的比較。診斷性評價（Diagnostic Evaluation）：側重於識彆個體在學習過程中存在的具體睏難或不足，以便提供針對性的幫助。形成性評價（Formative Evaluation）：在教學或訓練過程中進行的評價，其目的是為改進教學和學習提供信息和反饋。總結性評價（Summative Evaluation）：在教學或訓練結束時進行的評價，其目的是對學習成果做齣總體的判斷，常用於甄選、認證或評估整體成效。基本原則：目的明確性：任何測量與評價活動都應有清晰的目的，明確要解決的問題，要達成的目標。科學性與客觀性：測量工具和評價過程應符閤科學原理，盡量減少主觀偏見，保證結果的客觀性。公正性與公平性：評價應一視同仁，不因個體背景、性彆、種族等因素而産生歧視。有效性與實用性：測量工具和評價方法應能有效解決問題，並且在實際應用中是可行的。發展性與促進性：評價應以促進被評價者的發展為導嚮，提供積極的反饋和改進建議。保密性與倫理性：涉及個人隱私的測量與評價信息，應予保密，並遵循相關的倫理規範。第二部分：教育與心理測量的技術與方法 1. 測驗的設計與編製設計和編製一個好的測驗是測量工作的起點。這個過程需要嚴謹的理論指導和細緻的操作。明確測量目標：首先要清楚地定義要測量的是什麼，例如，是學生的數學知識掌握程度，還是某個職位的領導能力。確定測驗內容：根據測量目標，選擇或設計與測量內容相關的題目。內容應具有代錶性，能夠覆蓋所要測量的知識、技能或特質的各個方麵。選擇題型：常見的題型包括選擇題、填空題、簡答題、論述題、操作題等。不同題型適用於測量不同的能力和知識水平，也各有其優缺點。編製題目：每一道題目都應清晰、準確、無歧義，避免包含乾擾項或暗示性信息。題目的難度和區分度是需要仔細考量的因素。組織測驗結構：確定測驗的總時長、題目數量、分值分配、指導語等。試測與修訂：編製完成後，需要對測驗進行試測，收集數據，通過統計分析（如項目分析）來評估題目的質量，並根據結果對測驗進行修訂，使其更加完善。 2. 信度與效度的評估信度和效度是評價測驗質量的兩大關鍵指標，它們是測量科學性的基石。信度的評估方法：重測信度：同一測驗在不同時間對同一群體施測兩次，計算兩次得分的相關係數。適用於測量相對穩定的特質。復本信度：編製兩個或多個內容等價的測驗，對同一群體施測，計算不同復本得分的相關係數。內部一緻性信度：評估測驗內部各題目之間的一緻性，如奇偶分半法、斯皮爾曼-布朗公式、Cronbach α係數等。常用於單次施測的測驗。評分者信度：對於主觀性評價的測驗，評估不同評分者對同一份測驗結果的評分一緻性。效度的評估方法：內容效度（Content Validity）：評估測驗內容是否能充分代錶所要測量的知識或技能領域。通常通過專傢評審來確定。結構效度（Construct Validity）：評估測驗是否能有效地測量理論上的構念。常用的方法包括：聚閤效度（Convergent Validity）：測驗得分與測量同一構念的其他指標得分高度相關。區分效度（Discriminant Validity）：測驗得分與測量不同構念的其他指標得分相關性較低。因子分析：通過統計方法分析測驗題目之間的關係，以驗證其結構與理論模型是否一緻。效標效度（Criterion-related Validity）：評估測驗得分與某一外部效標（如實際錶現、其他已知測量結果）之間的相關性。預測效度（Predictive Validity）：測驗得分在未來能否預測效標錶現。同時效度（Concurrent Validity）：測驗得分與同時進行的效標測量結果的相關性。 3. 統計分析在測量與評價中的應用統計學是測量與評價的語言和工具，它為數據分析、結果解釋和決策提供瞭科學依據。描述性統計：用於描述數據的基本特徵，如均值、中位數、眾數、標準差、方差、頻數分布等。推斷性統計：用於從樣本數據推斷總體特徵，如假設檢驗（t檢驗、F檢驗）、迴歸分析、相關分析等。項目分析：分析測驗中每一道題目的難度和區分度，為優化測驗提供依據。信度和效度統計：利用統計方法計算信度和效度係數。因素分析：用於探索和驗證測驗的結構效度，識彆潛在的構念。常模建立：通過對大樣本進行測驗，計算均值、標準差以及百分位數，從而建立起具有代錶性的常模。 4. 測量與評價技術的進步計算機化自適應測驗（CAT）：測驗係統根據被試的迴答情況，動態調整後續題目的難度，提高測量效率和精確度。錶現性評價（Performance Assessment）：要求被試執行真實的、復雜的任務，以評估其實際應用能力。組閤評價（Portfolio Assessment）：收集被試在一段時間內的作品或活動成果，全麵展示其學習過程和發展。多維度評價：綜閤運用多種測量工具和方法，從不同角度對個體進行評價。第三部分：教育與心理評價的實踐應用 1. 在教育領域的應用教育測量與評價貫穿於教育活動的始終，為教育決策和實踐提供支持。課程設計與改革：通過對學生學習效果的評價，反饋課程的有效性，指導課程的修訂與創新。教學質量監控：評估教師的教學水平、教學方法的有效性，為提升教學質量提供依據。學生學業評價：診斷學生的學習睏難，評估學習成果，製定個性化的學習計劃。教育診斷與輔導：識彆有特殊學習需求的學生，提供針對性的支持和輔導。教育選拔與分班：標準化考試（如高考、中考）用於學生的選拔和分班，是教育評價的重要形式。教育政策製定：通過大規模的教育普查和評估，為教育政策的製定和調整提供數據支持。 2. 在心理領域的應用心理測量與評價是心理谘詢、心理治療、人纔測評、臨床診斷等領域的核心。人格測量：評估個體的性格特質、氣質類型、價值觀等，如使用大五人格量錶、MBTI等。智力測量：評估個體的智力水平和能力結構，如韋氏智力量錶、瑞文推理測驗等。情緒與心理健康評估：測量焦慮、抑鬱、壓力等情緒狀態，識彆心理健康問題，如使用抑鬱自評量錶（SDS）、焦慮自評量錶（SAS）等。職業興趣與能力測評：評估個體的職業興趣、職業價值觀和職業能力，為職業選擇和職業規劃提供指導。臨床診斷：輔助醫生對精神疾病進行診斷，評估病情嚴重程度，監測治療效果。司法鑒定與法醫學：在刑事案件中，對犯罪嫌疑人的精神狀態、認知能力等進行評估。 3. 評價倫理與麵臨的挑戰盡管測量與評價提供瞭強大的工具，但其應用過程中也伴隨著重要的倫理考量和挑戰。測驗偏見（Test Bias）：測驗可能存在對特定文化背景、社會群體不利的偏見，需要進行識彆和修正。濫用測驗結果：測驗結果不應被過度解讀或用於不當的目的，例如，將智商分數作為衡量個人價值的唯一標準。隱私保護：涉及個人隱私的測量信息，必須妥善保管，並獲得被評價者的知情同意。標準化與個體化：在追求標準化測量效率的同時，如何兼顧對個體獨特性的尊重和評價，是一個持續的課題。技術進步帶來的挑戰：新技術的齣現（如人工智能輔助評價）也帶來瞭新的倫理和技術挑戰，需要審慎對待。評價的社會責任：測量與評價從業者需要承擔起社會責任，確保所進行的活動是科學、公正、有益的，並服務於人類的福祉。結語：教育與心理測量和評價的原理，是一套關於如何科學、客觀、有效地理解和評估人的知識體係。它不僅是理論研究的重要組成部分，更是實踐工作不可或缺的指南。通過深入理解這些原理，掌握相關的技術與方法，並積極應對實踐中的挑戰，我們纔能更好地利用測量與評價的工具，促進個體的發展，提升教育質量，並為社會的進步貢獻力量。這是一門充滿活力和挑戰的學科，其重要性將隨著人類對自身理解的不斷深入而日益凸顯。

用戶評價

評分☆☆☆☆☆

這本書簡直是為我這種對教育研究領域的新手量身打造的，尤其是那些渴望深入理解數據背後邏輯的讀者。我一直覺得，要想真正搞懂一個教學改革是否有效，或者某種教學方法是否優於另一種，光靠感覺是遠遠不夠的，必須要有紮實的量化基礎。這本書的厲害之處就在於，它沒有像很多教科書那樣堆砌晦澀的數學公式，而是用非常直觀的方式，將復雜的統計概念與教育情境緊密結閤起來。比如，它在解釋“信度”和“效度”時，不是簡單地給齣定義，而是通過具體的教學案例，比如如何設計一份能準確反映學生閱讀能力的測試捲，來剖析這些核心概念在實際操作中的意義。這讓我茅塞頓開，明白瞭標準化測試的局限性以及如何去批判性地審視那些擺在我們麵前的各種“成績報告”。讀完之後，我不再是那個隻看分數高低的門外漢，而是能夠開始思考“這個分數到底測到瞭什麼？”以及“我們有沒有公平地對待每一個學生？”這種更深層次的問題，為我後續的實踐和進一步學習打下瞭非常堅實的基礎。

評分☆☆☆☆☆

從排版和閱讀體驗上來說，這本書也做瞭很多用心的地方。我通常閱讀學術著作很容易感到疲憊，但這本書的結構設計非常清晰，章節之間的邏輯過渡自然流暢，很少齣現那種生硬的、突然跳躍的論述。作者在引入新概念時，總會先用一個大傢都熟悉的場景進行鋪墊，比如討論統計功效時，就把它比喻成“用一把閤適的勺子去挖齣目標樣本”，這種形象化的比喻極大地降低瞭理解難度。此外，書中的圖錶製作精良，注釋詳盡，很多關鍵的推導過程都配有清晰的圖形輔助說明，這對於我這種視覺型學習者來說，簡直是福音。它不僅僅是一本知識的載體，更像是一位耐心的導師，它引導你一步步走過測量和評價的復雜迷宮，讓你在感到睏惑時，總能找到一條清晰的路徑指引你前進。這本書的紮實內容和良好的呈現方式，讓學習過程本身也成瞭一種享受。

評分☆☆☆☆☆

對於資深的研究者來說，這本書的價值在於它提供瞭一個極佳的“復盤”和“校準”的機會。在快速迭代的教育改革浪潮中，很多看似科學的工具和方法論，其實經不起仔細推敲。這本書對測量誤差的來源進行瞭深入的剖析，這一點非常關鍵。它沒有停留在“存在誤差”的層麵，而是細緻地討論瞭係統性誤差和隨機性誤差在不同情境下的錶現，以及研究者應該如何通過設計優化來最小化這些誤差。我特彆欣賞它在論述“項目反應理論”（IRT）等高級模型時所采取的漸進式講解方法，既保持瞭理論的嚴謹性，又避免瞭讓初學者望而卻步。更重要的是，它強調瞭評估的倫理邊界，提醒我們在追求數據精確性的同時，不能忘記對被評估者的尊重和保護。這本書更像是一本“內功心法”，它打磨的是你的思維框架，讓你在麵對任何新的測量技術或理論時，都能迅速辨彆齣其內在的邏輯漏洞和潛在的效用。

評分☆☆☆☆☆

坦白說，我最初翻開這本書時，心裏是有些打鼓的，因為我對“測量”這個詞天然帶著一種抗拒感，總覺得和冰冷的數據脫不瞭乾係。然而，這本書的敘事方式非常有人情味，它成功地將“冰冷”的評價技術，轉化成瞭一種理解人類學習和行為的有力工具。作者似乎很懂得教育工作者的痛點，他們需要評估，但又不想讓評估過程變成一種讓師生都感到壓力的形式。書中對於不同測量工具的設計原則，比如問捲、訪談量錶，都給齣瞭詳盡的指導，特彆是對於定性資料如何進行係統性的編碼和量化處理的部分，對我啓發極大。我過去總是在定性和定量之間搖擺不定，覺得兩者水火不容，但這本書教會我如何搭建一座橋梁，讓它們互相印證，形成一個更全麵的評估圖景。它不是教你如何簡單地“打分”，而是教你如何通過結構化的觀察，更全麵、更公正地捕捉學生的成長軌跡，這纔是教育的真正精髓所在。

評分☆☆☆☆☆

我是一個非常注重實踐操作的教育管理者，我需要的是可以直接應用到學校日常管理中的工具和思路，而不是純粹的理論堆砌。這本書在這方麵錶現得非常齣色。它不僅僅停留在“是什麼”和“為什麼”，更大量地涉及瞭“怎麼做”。比如，在講解如何進行大規模成績的橫嚮和縱嚮比較時，書中提供瞭非常清晰的步驟和注意事項，讓我明白瞭為什麼不同年份、不同學校的平均分不能簡單地劃等號。它對於“形成性評價”和“總結性評價”在資源分配和績效考核中的不同應用場景進行瞭細緻的區分，這直接指導瞭我如何調整我們學校的年度評估體係，使其更側重於學生的進步而非單純的起點差異。書中對“測量工具的本地化”的探討也很有價值，教會我不能盲目照搬國外的成熟模型，必須結閤本地的文化背景和學生的認知水平來調整題項和標準，確保測量的“文化適切性”。