機器學習中的不平衡分類方法

機器學習中的不平衡分類方法 pdf epub mobi txt 電子書 下載 2025

康琦,吳啓迪 著
圖書標籤:
  • 機器學習
  • 不平衡數據
  • 分類算法
  • 數據挖掘
  • 模式識彆
  • 特徵工程
  • 模型評估
  • 樣本重采樣
  • 代價敏感學習
  • 集成學習
想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 同濟大學齣版社
ISBN:9787560869803
版次:1
商品編碼:12268389
包裝:平裝
開本:16開
齣版時間:2017-10-01
用紙:膠版紙
頁數:185
正文語種:中文

具體描述

內容簡介

  《機器學習中的不平衡分類方法》是作者在機器學習領域不平衡數據分類問題的係統性研究成果。作者密切跟蹤國內外機器學習領域的新研究動態,對當前受到關注的典型不平衡分類學習方法進行瞭係統闡述;考慮到不平衡分類問題在實際應用問題中的普遍性以及求解的復雜性,從框架建模、學習策略、算法實現等方麵給齣一係列高性能、魯棒性強的不平衡分類方法,豐富機器學習理論與方法體係,以期為人工智能相關領域的研究提供新的思路和方法。
  《機器學習中的不平衡分類方法》可供人工智能、自動化、計算機科學、電子信息等相關專業領域的研究生、教師、科研人員以及工程技術人員參考使用,也可供高等教育相關專業高年級本科生作為開拓視野、增長知識的閱讀材料。

目錄

前言
第1章 緒論
1.1 概述
1.2 分類問題概述
1.3 不平衡分類問題概述
1.4 研究背景
1.5 發展曆程
1.6 應用現狀
參考文獻

第2章 模型評估與選擇
2.1 訓練誤差與測試誤差
2.2 過擬閤與欠擬閤
2.3 模型選擇
2.4 評估方法
2.5 假設檢驗
2.5.1 T-test檢驗
2.5.2 Wilcoxon秩和檢驗
2.5.3 方差分析(ANOVA)

第3章 不平衡分類學習策略
3.1 重采樣策略
3.1.1 經典過采樣技術
3.1.2 經典欠采樣方法
3.2 代價敏感學習
3.3 單類彆學習
3.4 集成學習方法
3.5 新型采樣策略
3.5.1 基於KNN降噪濾波的不平衡分類框架
3.5.2 KNN噪聲濾波器
3.5.3 基於欠采樣方法的KF噪聲濾波器
3.5.4 算法復雜度分析
3.5.5 實驗與結果分析
3.5.6 基於迭代分割濾波器的降噪不平衡分類算法
參考文獻

第4章 貝葉斯分類器
4.1 貝葉斯理論
4.1.1 條件概率和乘法公式
4.1.2 全概率公式和貝葉斯公式
4.1.3 極大後驗假設與極大似然假設
4.1.4 事件的獨立性
4.2 樸素貝葉斯分類器
4.2.1 樸素貝葉斯分類器描述
4.2.2 性能分析
4.2.3 NBC特徵分析
4.3 代價敏感樸素貝葉斯分類器
4.3.1 二類不平衡分類
4.3.2 多類不平衡分類
4.4 參數選擇
4.4.1 二類不平衡分類
4.4.2 多類不平衡分類
4.5 仿真實驗與比較分析
4.5.1 二類不平衡分類
4.5.2 多類不平衡分類
4.6 本章小結
參考文獻

第5章 決策樹與隨機森林
5.1 基本流程
5.1.1 決策樹定義及結構
5.1.2 決策樹學習步驟
5.2 劃分選擇
5.2.1 信息增益
5.2.2 增益率
5.2.3 基尼基數
5.3 剪枝處理
5.4 隨機森林
5.5 隨機森林集成
5.5.1 融閤的基本原則
5.5.2 不平衡數據的模型集成方案
5.6 本章小結
參考文獻

第6章 支持嚮量機
6.1 支持嚮量機原理
6.1.1 超平麵與幾何間隔最大化
6.1.2 拉格朗日對偶函數
6.1.3 核函數的引入
6.2 序列最小優化算法
6.3 不平衡分類SVM研究
6.4 基於距離的多子域加權欠采樣SVM算法
6.4.1 基於幾何間距的多子域加權欠采樣算法
6.4.2 WU-SVM算法
6.4.3 小結
6.5 基於GA過采樣的SVM算法
6.5.1 基於GA的過采樣
6.5.2 遞歸支持嚮量機(R-SVM)
6.5.3 GR-SVM算法
6.6 WU-SVM仿真實驗與結果分析
6.6.1 二類不平衡分類
6.6.2 多類不平衡分類
6.7 本章小結
參考文獻

第7章 集成學習與強化學習
7.1 個體與集成
7.2 Boosting
7.3 Bagging
7.4 強化學習
7.4.1 強化學習的基本元素
7.4.2 策略選擇
7.4.3 有模型學習
7.4.4 免模型學習
7.5 本章小結
參考文獻

第8章 遺傳規劃分類
8.1 進化計算基本理論
8.2 遺傳規劃理論
8.2.1 遺傳規劃基本流程
8.2.2 遺傳規劃的特點
8.2.3 個體錶示和適應度函數
8.2.4 種群的産生方法
8.2.5 遺傳操作
8.2.6 終止準則與結果判定
8.3 遺傳規劃分類器
8.3.1 遺傳規劃分類模型
8.3.2 兩類問題
8.3.3 多類問題
8.4 遺傳規劃分類器集成
8.4.1 利用遺傳規劃進行集成的基本原理
8.4.2 遺傳規劃集成學習的相關設置
8.4.3 算法描述
8.5 遺傳規劃不平衡分類器
8.5.1 多目標遺傳規劃
8.5.2 不平衡分類問題中的多目標問題
8.5.3 基於多目標的遺傳規劃用於不平衡分類
8.6 遺傳規劃用於不平衡分類實例
8.6.1 MOGP進化搜索算法
8.6.2 分類器集成選擇
8.6.3 實驗結果
8.6.4 分類器集成改進
8.7 本章小結
參考文獻

第9章 非平穩環境學習
9.1 非平穩環境下的變化檢測
9.1.1 檢測變量與檢驗方法
9.1.2 非平穩環境檢測的最新研究進展
9.2 增量式學習算法的研究
9.2.1 增量學習方式
9.2.2 最新動態
9.2.3 經典測試數據集及評估指標
9.3 本章小結
參考文獻

第10章 遷移學習
10.1 遷移學習
10.2 遷移學習類型
10.2.1 同構遷移學習
10.2.2 異構遷移學習
10.3 遷移學習方法
10.3.1 實例權重法
10.3.2 特徵錶示法
lO.3.3 參數遷移法
10.3.4 知識關聯法
10.4 遷移學習運用
10.5 本章小結
參考文獻

第11章 典型應用案例
11.1 網絡入侵檢測
11.1.1 背景
11.1.2 網絡入侵檢測數據
11.1.3 GA過采樣
11.1.4 SVM參數尋優
11.1.5 特徵提取分析
11.1.6 實驗結果及分析
11.2 醫療診斷
11.2.1 不平衡分類在醫療診斷中的應用
11.2.2 乳腺癌診斷
11.2.3 仿真結果與分析
11.3 短文本分類
11.3.1 短文本分類概述
11.3.2 文本錶示相關的主要模型
11.3.3 特徵降維
11.3.4 基於WU-SVM的短文本分類
11.3.5 小結

第12章 人工智能平颱——AIThink
12.1 AIThink平颱介紹
12.2 平颱功能及用途
12.3 平颱內容

精彩書摘

  集成學習法將數據層麵改進算法和傳統分類算法相結閤來提高不平衡數據分類效果。集成學習依據其包含的分類器種類,分為同態集成學習和異態集成學習。同態集成學習指的是基礎分類器由相同類型構成,這些基礎分類器可以有不同的參數;異態集成學習指的是基礎分類器由不同類型構成,即包含兩種或兩種以上的基礎分類器。同態集成學習先對原始訓練數據集進行一係列采樣,獲得一係列訓練子數據集,訓練齣多個分類器,然後對測試樣本的分類結果用投票的方式集成獲得最後的分類結果。異態集成學習中的基礎分類器都具有不同的屬性,某個基礎分類器對某類特定數據集可能會更有效。Schapire等人將AdaBoost算法運用到不平衡分類學習中獲得瞭較好的分類效果,但由於AdaBoost以分類準確率最大化為目標,多數類對分類準確率的影響大,少數類對分類準確率影響相對較小,使AdaBoost算法並不利於少數類的學習,導緻少數類的準確率提高程度有限。據此提齣瞭改進AdaBoost方法如RareBoostl、AdaCost,兩者主要策略都是改變樣本權重更新方法並賦予分類錯誤的少數類樣本更高的權值,使其下一輪迭代過程中更傾嚮於被分類正確。Chawla等人提齣SMOTEBoost方法,具體是將SMOTE算法和集成學習Boosting相結閤,先利用SMOTE算法增加少數類樣本的個數,提高少數類的分類效果,然後利用集成學習提高類彆不平衡分類的整體性能。He和Han等人將過采樣和集成學習相結閤提齣瞭C-SMOTE算法用於不平衡分類學習,也取得瞭良好的分類性能。劉胥影等人將欠采樣和集成學習相結閤,提齣瞭EasyEnsemble和BalanceCascade兩種方法,通過從多數類中抽取多個子集,然後利用這些子集學習一係列弱分類器,最後閤並這些弱分類器,獲得一個集成分類器。Maryam和Roozbeh等針對位於不平衡環境下的集成學習提齣一種有效的采樣方法,先對少類樣本進行缺失值處理,依照輸入缺失值重要性來産生新的閤成數據集,有利於提高軸承缺陷診斷的準確率。
  ……
《探索數據世界的未知:不平衡分類的奧秘與實踐》 數據,是現代社會最重要的驅動力之一。從海量的交易記錄到精密的醫療影像,從社交媒體的每一次互動到物聯網設備的每一次讀數,數據無時無刻不在産生並積纍。然而,並非所有數據都擁有一緻的代錶性。在許多現實世界的應用場景中,我們常常麵臨著一個普遍而棘手的問題:數據的不平衡。 想象一下,在網絡欺詐檢測中,絕大多數的交易是正常的,隻有極少數是欺詐性的;在醫療診斷中,患有某種罕見疾病的病人遠少於健康人群;在金融風險評估中,違約的客戶隻是少數。當我們的模型訓練數據中,某個類彆的樣本數量遠遠多於另一個類彆時,我們就遇到瞭“不平衡分類”的挑戰。 這類問題帶來的直接後果是,傳統的機器學習模型往往會“偏愛”數量占優的類彆,從而在預測少數類時錶現不佳。一個宣稱準確率高達99%的模型,可能隻是因為其預測所有樣本都屬於多數類,而對真正重要的少數類信息視而不見。這在金融、醫療、安全等領域是無法接受的,因為它可能導緻巨大的經濟損失、延誤寶貴的治療時機,甚至威脅到生命安全。 《探索數據世界的未知:不平衡分類的奧秘與實踐》這本書,正是為瞭深入剖析這一普遍存在且極具挑戰性的問題而誕生。它並非簡單羅列算法,而是從數據産生的本質、不平衡現象的根源齣發,係統地梳理瞭不平衡分類問題帶來的挑戰,並以此為起點,引領讀者一步步探索解決之道。 第一部分:理解不平衡的根源與影響 在本書的開篇,我們將首先深入探討數據不平衡産生的根本原因。我們分析瞭自然界、社會現象以及人為因素如何導緻某些類彆樣本的稀缺性。通過具體的案例,如罕見病診斷、工業缺陷檢測、異常流量識彆等,讓讀者切身感受不平衡數據的普遍性。 緊接著,我們會詳細闡述不平衡數據對傳統機器學習算法的影響。我們將解釋為何精度(Accuracy)作為最直觀的評估指標,在不平衡數據集上會産生誤導。通過數學推導和可視化示例,我們揭示瞭混淆矩陣(Confusion Matrix)的重要性,並引入瞭對不平衡分類至關重要的評估指標,如精確率(Precision)、召迴率(Recall)、F1分數(F1-Score)以及ROC麯綫(Receiver Operating Characteristic Curve)和AUC值(Area Under the Curve)。讀者將深刻理解這些指標為何能夠更真實地反映模型在少數類上的錶現,並學會如何根據具體業務需求選擇閤適的評估指標。 第二部分:數據層麵的應對策略:重塑數據的平衡之美 麵對不平衡數據,最直觀的思路便是嘗試在數據層麵進行調整,以期獲得更加均衡的樣本分布。《探索數據世界的未知》在這一部分將係統介紹各種數據層麵的處理技術,並深入探討其背後的原理與適用場景。 過采樣(Oversampling)技術:我們將詳細介紹SMOTE(Synthetic Minority Over-sampling Technique)及其變種,如ADASYN(Adaptive Synthetic Sampling Approach)等。這些技術通過生成閤成的少數類樣本,有效地增加瞭少數類的數量。我們會探討不同SMOTE變種在處理不同類型數據時的優劣,以及如何避免因過度生成樣本而導緻的過擬閤問題。 欠采樣(Undersampling)技術:我們還將介紹各種欠采樣策略,例如隨機欠采樣(Random Undersampling)、Tomek Links、Edited Nearest Neighbors(ENN)等。這些方法通過移除多數類樣本來降低其數量,從而達到平衡的目的。書中會分析欠采樣可能帶來的信息損失問題,並提供如何平衡信息保留與類彆平衡的建議。 混閤采樣策略:認識到單一采樣方法的局限性,本書將重點介紹如何結閤過采樣和欠采樣技術,形成更加魯棒的混閤采樣策略。我們將探討如何根據數據集的特性,智能地選擇過采樣和欠采樣技術的組閤比例,以及如何使用集成學習的思想來增強混閤采樣效果。 在數據層麵的處理,並非一成不變的套路。本書將引導讀者理解,不同的采樣技術適用於不同規模和類型的數據集。我們會提供詳細的實踐指導,包括如何預處理數據、選擇閤適的采樣算法、調整采樣參數,以及在模型訓練前後的數據驗證方法,確保數據層麵的調整真正服務於模型性能的提升。 第三部分:算法層麵的優化:賦予模型識彆稀疏的能力 除瞭調整數據本身,我們還可以從算法層麵著手,讓模型更加關注少數類。這一部分將深入講解針對不平衡分類的算法優化方法。 代價敏感學習(Cost-Sensitive Learning):本書將詳細解釋代價敏感學習的核心思想,即為不同類彆的誤分類分配不同的代價。我們將介紹如何在模型訓練過程中引入樣本權重(Sample Weight)或類彆權重(Class Weight),使得模型在學習過程中更加重視少數類的正確分類。我們將詳細講解如何在流行的機器學習庫(如Scikit-learn)中實現代價敏感學習,並分析不同代價矩陣設計對模型性能的影響。 集成學習方法:集成學習在不平衡分類問題中展現齣強大的生命力。我們將深入探討Bagging(如Balanced Bagging)和Boosting(如AdaBoost, Gradient Boosting, XGBoost, LightGBM)算法在不平衡分類中的應用。特彆是,我們將重點介紹專門為不平衡數據設計的集成方法,如EasyEnsemble和BalanceCascade。這些方法通過構建多個子模型,並在訓練過程中對數據進行采樣或加權,顯著提升瞭模型識彆少數類的能力。 特定算法的改進:除瞭通用的優化策略,本書還會探討一些針對特定算法的改進,以增強其在不平衡數據集上的錶現。例如,我們將分析決策樹(Decision Tree)和支持嚮量機(Support Vector Machine, SVM)等算法在不平衡數據上的局限性,並介紹如何通過調整參數或引入新的分裂準則來優化其性能。 在算法層麵的優化,我們將強調理論與實踐相結閤。書中將包含大量代碼示例,幫助讀者在實際項目中應用這些算法。同時,我們會引導讀者思考,為何某種算法在特定不平衡場景下錶現更優,以及如何根據數據特點選擇最適閤的算法。 第四部分:進階探索與實際應用 《探索數據世界的未知》不會止步於基礎方法。本書的最後一部分將帶領讀者進行更深入的探索,並聚焦於不平衡分類的實際應用。 度量學習(Metric Learning)與距離度量(Distance Metrics):我們將探討如何通過學習更加適閤不平衡數據的距離度量,來改進分類器的性能。這包括對傳統歐氏距離(Euclidean Distance)的改進,以及引入馬氏距離(Mahalanobis Distance)等概念,以便更好地捕捉不同類彆樣本之間的分隔。 模型評估的再思考:在真實世界中,單一的評估指標往往不足以全麵評價模型的優劣。本書將引導讀者深入理解,在不平衡分類問題中,如何結閤多種評估指標,並考慮業務場景中的“代價”,來做齣更明智的模型選擇。例如,我們將討論在醫療診斷中,召迴率的重要性遠高於精確率,而在垃圾郵件過濾中,精確率則更為關鍵。 實際案例分析與部署:本書將精選多個來自不同領域的真實不平衡分類案例,如金融反欺詐、網絡入侵檢測、醫療圖像分析、電商推薦係統中的冷門商品識彆等。我們將詳細分析這些案例中不平衡問題的成因、采用的解決方案、以及最終的部署與監控策略。通過這些案例,讀者將能夠將書中所學的方法融會貫通,並應用於自身的實際問題中。 前沿研究方嚮展望:最後,我們將簡要介紹當前不平衡分類領域的一些前沿研究方嚮,如深度學習在不平衡分類中的應用、在綫不平衡學習(Online Imbalanced Learning)、以及對長尾分布(Long-tailed Distribution)問題的研究等,為讀者提供進一步學習和研究的思路。 《探索數據世界的未知:不平衡分類的奧秘與實踐》旨在成為您在處理不平衡數據時不可或缺的指南。它不僅僅是一本技術手冊,更是一次深入理解數據世界背後復雜性的旅程。無論您是數據科學傢、機器學習工程師,還是對數據分析充滿好奇的學生,本書都將幫助您掌握駕馭不平衡數據的核心技能, unlocking the hidden insights within your data, and making more informed, impactful decisions.

用戶評價

評分

這本書的排版和術語規範性做得非常到位,大量的圖錶和公式推導清晰流暢,即便是涉及復雜的數學證明,也能通過輔助性的圖示變得易於理解。我最欣賞的一點是,它對“不平衡”的理解維度非常豐富,遠超齣瞭傳統的“正負樣本比例”的範疇。作者花瞭相當大的精力去闡述時間序列數據中的概念漂移(Concept Drift)如何加劇瞭分類的難度,以及在半監督學習框架下如何利用未標記的大量多數類樣本來輔助少數類的學習。這種對情境化挑戰的關注,使得這本書的適用範圍大大拓寬,不再局限於靜態數據集的二分類問題。它成功地將數據不平衡這一技術挑戰,提升到瞭模型魯棒性和長期適應性的戰略高度,讀完後感覺思維的框架被重塑瞭,不再局限於單一的算法優化思維。

評分

這本書的封麵設計得相當專業,色彩搭配沉穩大氣,給人一種深入鑽研的預期。我尤其欣賞它在導論部分對“不平衡”這一概念的界定,它不僅僅停留在數據集中各類彆的數量差異上,而是深入探討瞭這種不平衡在實際業務場景中可能引發的深層次問題,比如風險評估中的“羊群效應”和模型對少數類彆的識彆盲區。作者似乎花瞭大量篇幅來梳理現有方法的局限性,這一點非常抓人眼球。例如,對於某些經典的欠采樣和過采樣技術,書中沒有簡單地羅列公式,而是通過一係列生動的案例分析瞭它們在處理高維稀疏數據時的性能衰退,這讓我意識到,單純追求數據量的平衡遠非解決之道。書中對評價指標的討論也極為細緻,特彆是對如何科學地使用G-mean、F-beta Score以及PR麯綫的深入剖析,足以讓一個剛接觸該領域的讀者少走很多彎路。它不是一本僅僅告訴你“怎麼做”的書,更是一本告訴你“為什麼這麼做”以及“在什麼情況下這樣做”的指南,從理論基礎到實踐考量,覆蓋麵很廣,閱讀體驗非常紮實。

評分

我拿到這本書時,首先被其嚴謹的邏輯架構所吸引。它不像市麵上很多教程那樣,上來就堆砌算法,而是循序漸進地構建知識體係。書中對數據預處理階段的探索尤為精彩,它詳細闡述瞭如何利用信息熵和特徵重要性來指導特徵選擇,以避免在采樣過程中引入過多噪聲。尤其是在討論集成學習方法時,作者沒有停留在Bagging和Boosting的通用介紹上,而是聚焦於如何將這些範式與不平衡問題結閤——比如如何構建一個能夠主動懲罰誤分類少數類的弱分類器序列。我印象特彆深刻的是關於成本敏感學習(Cost-Sensitive Learning)那一章,作者巧妙地引入瞭決策理論的視角,將分類錯誤轉化為實際的經濟損失或風險成本,這種跨學科的視角極大地拓寬瞭我的理解邊界。書中對SMOTE及其變體的改進性討論,也體現瞭作者深厚的實踐積纍,它指齣瞭原始SMOTE在邊界模糊區域容易産生“幻覺樣本”的固有缺陷,並提齣瞭相應的優化思路,這對於處理那些邊界難以清晰劃分的復雜任務極具參考價值。

評分

總體來說,這本書的視野是極其開闊的。它不僅係統地梳理瞭傳統機器學習中的經典策略,更將目光投嚮瞭前沿的研究領域,比如聯邦學習背景下的隱私保護與不平衡問題,以及對抗性訓練在增強少數類樣本識彆魯棒性方麵的潛力。書中對特定行業案例的穿插也恰到好處,比如在介紹異常檢測算法時,引用瞭網絡入侵檢測的實際數據分布特徵,這種緊密的結閤讓理論不再是空中樓閣。我尤其欣賞作者在總結部分提齣的未來研究方嚮的展望,他並未給齣確定的答案,而是提齣瞭幾個開放性的難題,鼓勵讀者繼續探索,這種“傳幫帶”的寫作風格,使得這本書不僅適閤作為資深從業者的案頭參考書,也對有誌於在該領域深造的研究生具有極強的指導意義。它真正做到瞭在技術深度和廣度之間找到瞭一個完美的平衡點。

評分

這本書的閱讀過程,對我而言,更像是一場與資深研究者的深度對話。我驚喜地發現,作者在探討深度學習模型應用於不平衡數據時,采用瞭極為審慎和批判性的態度。他沒有盲目地推崇最新的深度模型,反而深入剖析瞭為什麼在數據量有限且嚴重偏斜的情況下,深度網絡的泛化能力會受到嚴重製約。書中對損失函數設計的探討,堪稱點睛之筆,例如,如何通過調整焦點損失(Focal Loss)的參數來動態地平衡難易樣本的梯度貢獻,這種細節的把控,使得即便是對深度學習有一定瞭解的讀者也能獲得全新的啓發。再者,書中關於模型可解釋性(XAI)與不平衡分類的結閤部分,雖然篇幅不算長,但提齣的觀點非常前沿,即在關注少數類預測精度的同時,必須保證決策邏輯的透明度和可信賴性,這對金融、醫療等高風險領域的研究者無疑是極具價值的。

評分

東西不錯,物流很快,值得推薦~

評分

正在學習中,這類書籍比較少

評分

寫論文參考的,內容正好閤適

評分

含有多種分類學習算法

評分

書不錯。

評分

東西不錯,物流很快,值得推薦~

評分

書不錯。

評分

書是髒兮兮的。

評分

書寫地清楚明白,容易理解,編輯精美。

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有