机器学习中的不平衡分类方法

机器学习中的不平衡分类方法 pdf epub mobi txt 电子书 下载 2025

康琦,吴启迪 著
图书标签:
  • 机器学习
  • 不平衡数据
  • 分类算法
  • 数据挖掘
  • 模式识别
  • 特征工程
  • 模型评估
  • 样本重采样
  • 代价敏感学习
  • 集成学习
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 同济大学出版社
ISBN:9787560869803
版次:1
商品编码:12268389
包装:平装
开本:16开
出版时间:2017-10-01
用纸:胶版纸
页数:185
正文语种:中文

具体描述

内容简介

  《机器学习中的不平衡分类方法》是作者在机器学习领域不平衡数据分类问题的系统性研究成果。作者密切跟踪国内外机器学习领域的新研究动态,对当前受到关注的典型不平衡分类学习方法进行了系统阐述;考虑到不平衡分类问题在实际应用问题中的普遍性以及求解的复杂性,从框架建模、学习策略、算法实现等方面给出一系列高性能、鲁棒性强的不平衡分类方法,丰富机器学习理论与方法体系,以期为人工智能相关领域的研究提供新的思路和方法。
  《机器学习中的不平衡分类方法》可供人工智能、自动化、计算机科学、电子信息等相关专业领域的研究生、教师、科研人员以及工程技术人员参考使用,也可供高等教育相关专业高年级本科生作为开拓视野、增长知识的阅读材料。

目录

前言
第1章 绪论
1.1 概述
1.2 分类问题概述
1.3 不平衡分类问题概述
1.4 研究背景
1.5 发展历程
1.6 应用现状
参考文献

第2章 模型评估与选择
2.1 训练误差与测试误差
2.2 过拟合与欠拟合
2.3 模型选择
2.4 评估方法
2.5 假设检验
2.5.1 T-test检验
2.5.2 Wilcoxon秩和检验
2.5.3 方差分析(ANOVA)

第3章 不平衡分类学习策略
3.1 重采样策略
3.1.1 经典过采样技术
3.1.2 经典欠采样方法
3.2 代价敏感学习
3.3 单类别学习
3.4 集成学习方法
3.5 新型采样策略
3.5.1 基于KNN降噪滤波的不平衡分类框架
3.5.2 KNN噪声滤波器
3.5.3 基于欠采样方法的KF噪声滤波器
3.5.4 算法复杂度分析
3.5.5 实验与结果分析
3.5.6 基于迭代分割滤波器的降噪不平衡分类算法
参考文献

第4章 贝叶斯分类器
4.1 贝叶斯理论
4.1.1 条件概率和乘法公式
4.1.2 全概率公式和贝叶斯公式
4.1.3 极大后验假设与极大似然假设
4.1.4 事件的独立性
4.2 朴素贝叶斯分类器
4.2.1 朴素贝叶斯分类器描述
4.2.2 性能分析
4.2.3 NBC特征分析
4.3 代价敏感朴素贝叶斯分类器
4.3.1 二类不平衡分类
4.3.2 多类不平衡分类
4.4 参数选择
4.4.1 二类不平衡分类
4.4.2 多类不平衡分类
4.5 仿真实验与比较分析
4.5.1 二类不平衡分类
4.5.2 多类不平衡分类
4.6 本章小结
参考文献

第5章 决策树与随机森林
5.1 基本流程
5.1.1 决策树定义及结构
5.1.2 决策树学习步骤
5.2 划分选择
5.2.1 信息增益
5.2.2 增益率
5.2.3 基尼基数
5.3 剪枝处理
5.4 随机森林
5.5 随机森林集成
5.5.1 融合的基本原则
5.5.2 不平衡数据的模型集成方案
5.6 本章小结
参考文献

第6章 支持向量机
6.1 支持向量机原理
6.1.1 超平面与几何间隔最大化
6.1.2 拉格朗日对偶函数
6.1.3 核函数的引入
6.2 序列最小优化算法
6.3 不平衡分类SVM研究
6.4 基于距离的多子域加权欠采样SVM算法
6.4.1 基于几何间距的多子域加权欠采样算法
6.4.2 WU-SVM算法
6.4.3 小结
6.5 基于GA过采样的SVM算法
6.5.1 基于GA的过采样
6.5.2 递归支持向量机(R-SVM)
6.5.3 GR-SVM算法
6.6 WU-SVM仿真实验与结果分析
6.6.1 二类不平衡分类
6.6.2 多类不平衡分类
6.7 本章小结
参考文献

第7章 集成学习与强化学习
7.1 个体与集成
7.2 Boosting
7.3 Bagging
7.4 强化学习
7.4.1 强化学习的基本元素
7.4.2 策略选择
7.4.3 有模型学习
7.4.4 免模型学习
7.5 本章小结
参考文献

第8章 遗传规划分类
8.1 进化计算基本理论
8.2 遗传规划理论
8.2.1 遗传规划基本流程
8.2.2 遗传规划的特点
8.2.3 个体表示和适应度函数
8.2.4 种群的产生方法
8.2.5 遗传操作
8.2.6 终止准则与结果判定
8.3 遗传规划分类器
8.3.1 遗传规划分类模型
8.3.2 两类问题
8.3.3 多类问题
8.4 遗传规划分类器集成
8.4.1 利用遗传规划进行集成的基本原理
8.4.2 遗传规划集成学习的相关设置
8.4.3 算法描述
8.5 遗传规划不平衡分类器
8.5.1 多目标遗传规划
8.5.2 不平衡分类问题中的多目标问题
8.5.3 基于多目标的遗传规划用于不平衡分类
8.6 遗传规划用于不平衡分类实例
8.6.1 MOGP进化搜索算法
8.6.2 分类器集成选择
8.6.3 实验结果
8.6.4 分类器集成改进
8.7 本章小结
参考文献

第9章 非平稳环境学习
9.1 非平稳环境下的变化检测
9.1.1 检测变量与检验方法
9.1.2 非平稳环境检测的最新研究进展
9.2 增量式学习算法的研究
9.2.1 增量学习方式
9.2.2 最新动态
9.2.3 经典测试数据集及评估指标
9.3 本章小结
参考文献

第10章 迁移学习
10.1 迁移学习
10.2 迁移学习类型
10.2.1 同构迁移学习
10.2.2 异构迁移学习
10.3 迁移学习方法
10.3.1 实例权重法
10.3.2 特征表示法
lO.3.3 参数迁移法
10.3.4 知识关联法
10.4 迁移学习运用
10.5 本章小结
参考文献

第11章 典型应用案例
11.1 网络入侵检测
11.1.1 背景
11.1.2 网络入侵检测数据
11.1.3 GA过采样
11.1.4 SVM参数寻优
11.1.5 特征提取分析
11.1.6 实验结果及分析
11.2 医疗诊断
11.2.1 不平衡分类在医疗诊断中的应用
11.2.2 乳腺癌诊断
11.2.3 仿真结果与分析
11.3 短文本分类
11.3.1 短文本分类概述
11.3.2 文本表示相关的主要模型
11.3.3 特征降维
11.3.4 基于WU-SVM的短文本分类
11.3.5 小结

第12章 人工智能平台——AIThink
12.1 AIThink平台介绍
12.2 平台功能及用途
12.3 平台内容

精彩书摘

  集成学习法将数据层面改进算法和传统分类算法相结合来提高不平衡数据分类效果。集成学习依据其包含的分类器种类,分为同态集成学习和异态集成学习。同态集成学习指的是基础分类器由相同类型构成,这些基础分类器可以有不同的参数;异态集成学习指的是基础分类器由不同类型构成,即包含两种或两种以上的基础分类器。同态集成学习先对原始训练数据集进行一系列采样,获得一系列训练子数据集,训练出多个分类器,然后对测试样本的分类结果用投票的方式集成获得最后的分类结果。异态集成学习中的基础分类器都具有不同的属性,某个基础分类器对某类特定数据集可能会更有效。Schapire等人将AdaBoost算法运用到不平衡分类学习中获得了较好的分类效果,但由于AdaBoost以分类准确率最大化为目标,多数类对分类准确率的影响大,少数类对分类准确率影响相对较小,使AdaBoost算法并不利于少数类的学习,导致少数类的准确率提高程度有限。据此提出了改进AdaBoost方法如RareBoostl、AdaCost,两者主要策略都是改变样本权重更新方法并赋予分类错误的少数类样本更高的权值,使其下一轮迭代过程中更倾向于被分类正确。Chawla等人提出SMOTEBoost方法,具体是将SMOTE算法和集成学习Boosting相结合,先利用SMOTE算法增加少数类样本的个数,提高少数类的分类效果,然后利用集成学习提高类别不平衡分类的整体性能。He和Han等人将过采样和集成学习相结合提出了C-SMOTE算法用于不平衡分类学习,也取得了良好的分类性能。刘胥影等人将欠采样和集成学习相结合,提出了EasyEnsemble和BalanceCascade两种方法,通过从多数类中抽取多个子集,然后利用这些子集学习一系列弱分类器,最后合并这些弱分类器,获得一个集成分类器。Maryam和Roozbeh等针对位于不平衡环境下的集成学习提出一种有效的采样方法,先对少类样本进行缺失值处理,依照输入缺失值重要性来产生新的合成数据集,有利于提高轴承缺陷诊断的准确率。
  ……
《探索数据世界的未知:不平衡分类的奥秘与实践》 数据,是现代社会最重要的驱动力之一。从海量的交易记录到精密的医疗影像,从社交媒体的每一次互动到物联网设备的每一次读数,数据无时无刻不在产生并积累。然而,并非所有数据都拥有一致的代表性。在许多现实世界的应用场景中,我们常常面临着一个普遍而棘手的问题:数据的不平衡。 想象一下,在网络欺诈检测中,绝大多数的交易是正常的,只有极少数是欺诈性的;在医疗诊断中,患有某种罕见疾病的病人远少于健康人群;在金融风险评估中,违约的客户只是少数。当我们的模型训练数据中,某个类别的样本数量远远多于另一个类别时,我们就遇到了“不平衡分类”的挑战。 这类问题带来的直接后果是,传统的机器学习模型往往会“偏爱”数量占优的类别,从而在预测少数类时表现不佳。一个宣称准确率高达99%的模型,可能只是因为其预测所有样本都属于多数类,而对真正重要的少数类信息视而不见。这在金融、医疗、安全等领域是无法接受的,因为它可能导致巨大的经济损失、延误宝贵的治疗时机,甚至威胁到生命安全。 《探索数据世界的未知:不平衡分类的奥秘与实践》这本书,正是为了深入剖析这一普遍存在且极具挑战性的问题而诞生。它并非简单罗列算法,而是从数据产生的本质、不平衡现象的根源出发,系统地梳理了不平衡分类问题带来的挑战,并以此为起点,引领读者一步步探索解决之道。 第一部分:理解不平衡的根源与影响 在本书的开篇,我们将首先深入探讨数据不平衡产生的根本原因。我们分析了自然界、社会现象以及人为因素如何导致某些类别样本的稀缺性。通过具体的案例,如罕见病诊断、工业缺陷检测、异常流量识别等,让读者切身感受不平衡数据的普遍性。 紧接着,我们会详细阐述不平衡数据对传统机器学习算法的影响。我们将解释为何精度(Accuracy)作为最直观的评估指标,在不平衡数据集上会产生误导。通过数学推导和可视化示例,我们揭示了混淆矩阵(Confusion Matrix)的重要性,并引入了对不平衡分类至关重要的评估指标,如精确率(Precision)、召回率(Recall)、F1分数(F1-Score)以及ROC曲线(Receiver Operating Characteristic Curve)和AUC值(Area Under the Curve)。读者将深刻理解这些指标为何能够更真实地反映模型在少数类上的表现,并学会如何根据具体业务需求选择合适的评估指标。 第二部分:数据层面的应对策略:重塑数据的平衡之美 面对不平衡数据,最直观的思路便是尝试在数据层面进行调整,以期获得更加均衡的样本分布。《探索数据世界的未知》在这一部分将系统介绍各种数据层面的处理技术,并深入探讨其背后的原理与适用场景。 过采样(Oversampling)技术:我们将详细介绍SMOTE(Synthetic Minority Over-sampling Technique)及其变种,如ADASYN(Adaptive Synthetic Sampling Approach)等。这些技术通过生成合成的少数类样本,有效地增加了少数类的数量。我们会探讨不同SMOTE变种在处理不同类型数据时的优劣,以及如何避免因过度生成样本而导致的过拟合问题。 欠采样(Undersampling)技术:我们还将介绍各种欠采样策略,例如随机欠采样(Random Undersampling)、Tomek Links、Edited Nearest Neighbors(ENN)等。这些方法通过移除多数类样本来降低其数量,从而达到平衡的目的。书中会分析欠采样可能带来的信息损失问题,并提供如何平衡信息保留与类别平衡的建议。 混合采样策略:认识到单一采样方法的局限性,本书将重点介绍如何结合过采样和欠采样技术,形成更加鲁棒的混合采样策略。我们将探讨如何根据数据集的特性,智能地选择过采样和欠采样技术的组合比例,以及如何使用集成学习的思想来增强混合采样效果。 在数据层面的处理,并非一成不变的套路。本书将引导读者理解,不同的采样技术适用于不同规模和类型的数据集。我们会提供详细的实践指导,包括如何预处理数据、选择合适的采样算法、调整采样参数,以及在模型训练前后的数据验证方法,确保数据层面的调整真正服务于模型性能的提升。 第三部分:算法层面的优化:赋予模型识别稀疏的能力 除了调整数据本身,我们还可以从算法层面着手,让模型更加关注少数类。这一部分将深入讲解针对不平衡分类的算法优化方法。 代价敏感学习(Cost-Sensitive Learning):本书将详细解释代价敏感学习的核心思想,即为不同类别的误分类分配不同的代价。我们将介绍如何在模型训练过程中引入样本权重(Sample Weight)或类别权重(Class Weight),使得模型在学习过程中更加重视少数类的正确分类。我们将详细讲解如何在流行的机器学习库(如Scikit-learn)中实现代价敏感学习,并分析不同代价矩阵设计对模型性能的影响。 集成学习方法:集成学习在不平衡分类问题中展现出强大的生命力。我们将深入探讨Bagging(如Balanced Bagging)和Boosting(如AdaBoost, Gradient Boosting, XGBoost, LightGBM)算法在不平衡分类中的应用。特别是,我们将重点介绍专门为不平衡数据设计的集成方法,如EasyEnsemble和BalanceCascade。这些方法通过构建多个子模型,并在训练过程中对数据进行采样或加权,显著提升了模型识别少数类的能力。 特定算法的改进:除了通用的优化策略,本书还会探讨一些针对特定算法的改进,以增强其在不平衡数据集上的表现。例如,我们将分析决策树(Decision Tree)和支持向量机(Support Vector Machine, SVM)等算法在不平衡数据上的局限性,并介绍如何通过调整参数或引入新的分裂准则来优化其性能。 在算法层面的优化,我们将强调理论与实践相结合。书中将包含大量代码示例,帮助读者在实际项目中应用这些算法。同时,我们会引导读者思考,为何某种算法在特定不平衡场景下表现更优,以及如何根据数据特点选择最适合的算法。 第四部分:进阶探索与实际应用 《探索数据世界的未知》不会止步于基础方法。本书的最后一部分将带领读者进行更深入的探索,并聚焦于不平衡分类的实际应用。 度量学习(Metric Learning)与距离度量(Distance Metrics):我们将探讨如何通过学习更加适合不平衡数据的距离度量,来改进分类器的性能。这包括对传统欧氏距离(Euclidean Distance)的改进,以及引入马氏距离(Mahalanobis Distance)等概念,以便更好地捕捉不同类别样本之间的分隔。 模型评估的再思考:在真实世界中,单一的评估指标往往不足以全面评价模型的优劣。本书将引导读者深入理解,在不平衡分类问题中,如何结合多种评估指标,并考虑业务场景中的“代价”,来做出更明智的模型选择。例如,我们将讨论在医疗诊断中,召回率的重要性远高于精确率,而在垃圾邮件过滤中,精确率则更为关键。 实际案例分析与部署:本书将精选多个来自不同领域的真实不平衡分类案例,如金融反欺诈、网络入侵检测、医疗图像分析、电商推荐系统中的冷门商品识别等。我们将详细分析这些案例中不平衡问题的成因、采用的解决方案、以及最终的部署与监控策略。通过这些案例,读者将能够将书中所学的方法融会贯通,并应用于自身的实际问题中。 前沿研究方向展望:最后,我们将简要介绍当前不平衡分类领域的一些前沿研究方向,如深度学习在不平衡分类中的应用、在线不平衡学习(Online Imbalanced Learning)、以及对长尾分布(Long-tailed Distribution)问题的研究等,为读者提供进一步学习和研究的思路。 《探索数据世界的未知:不平衡分类的奥秘与实践》旨在成为您在处理不平衡数据时不可或缺的指南。它不仅仅是一本技术手册,更是一次深入理解数据世界背后复杂性的旅程。无论您是数据科学家、机器学习工程师,还是对数据分析充满好奇的学生,本书都将帮助您掌握驾驭不平衡数据的核心技能, unlocking the hidden insights within your data, and making more informed, impactful decisions.

用户评价

评分

我拿到这本书时,首先被其严谨的逻辑架构所吸引。它不像市面上很多教程那样,上来就堆砌算法,而是循序渐进地构建知识体系。书中对数据预处理阶段的探索尤为精彩,它详细阐述了如何利用信息熵和特征重要性来指导特征选择,以避免在采样过程中引入过多噪声。尤其是在讨论集成学习方法时,作者没有停留在Bagging和Boosting的通用介绍上,而是聚焦于如何将这些范式与不平衡问题结合——比如如何构建一个能够主动惩罚误分类少数类的弱分类器序列。我印象特别深刻的是关于成本敏感学习(Cost-Sensitive Learning)那一章,作者巧妙地引入了决策理论的视角,将分类错误转化为实际的经济损失或风险成本,这种跨学科的视角极大地拓宽了我的理解边界。书中对SMOTE及其变体的改进性讨论,也体现了作者深厚的实践积累,它指出了原始SMOTE在边界模糊区域容易产生“幻觉样本”的固有缺陷,并提出了相应的优化思路,这对于处理那些边界难以清晰划分的复杂任务极具参考价值。

评分

这本书的阅读过程,对我而言,更像是一场与资深研究者的深度对话。我惊喜地发现,作者在探讨深度学习模型应用于不平衡数据时,采用了极为审慎和批判性的态度。他没有盲目地推崇最新的深度模型,反而深入剖析了为什么在数据量有限且严重偏斜的情况下,深度网络的泛化能力会受到严重制约。书中对损失函数设计的探讨,堪称点睛之笔,例如,如何通过调整焦点损失(Focal Loss)的参数来动态地平衡难易样本的梯度贡献,这种细节的把控,使得即便是对深度学习有一定了解的读者也能获得全新的启发。再者,书中关于模型可解释性(XAI)与不平衡分类的结合部分,虽然篇幅不算长,但提出的观点非常前沿,即在关注少数类预测精度的同时,必须保证决策逻辑的透明度和可信赖性,这对金融、医疗等高风险领域的研究者无疑是极具价值的。

评分

这本书的封面设计得相当专业,色彩搭配沉稳大气,给人一种深入钻研的预期。我尤其欣赏它在导论部分对“不平衡”这一概念的界定,它不仅仅停留在数据集中各类别的数量差异上,而是深入探讨了这种不平衡在实际业务场景中可能引发的深层次问题,比如风险评估中的“羊群效应”和模型对少数类别的识别盲区。作者似乎花了大量篇幅来梳理现有方法的局限性,这一点非常抓人眼球。例如,对于某些经典的欠采样和过采样技术,书中没有简单地罗列公式,而是通过一系列生动的案例分析了它们在处理高维稀疏数据时的性能衰退,这让我意识到,单纯追求数据量的平衡远非解决之道。书中对评价指标的讨论也极为细致,特别是对如何科学地使用G-mean、F-beta Score以及PR曲线的深入剖析,足以让一个刚接触该领域的读者少走很多弯路。它不是一本仅仅告诉你“怎么做”的书,更是一本告诉你“为什么这么做”以及“在什么情况下这样做”的指南,从理论基础到实践考量,覆盖面很广,阅读体验非常扎实。

评分

总体来说,这本书的视野是极其开阔的。它不仅系统地梳理了传统机器学习中的经典策略,更将目光投向了前沿的研究领域,比如联邦学习背景下的隐私保护与不平衡问题,以及对抗性训练在增强少数类样本识别鲁棒性方面的潜力。书中对特定行业案例的穿插也恰到好处,比如在介绍异常检测算法时,引用了网络入侵检测的实际数据分布特征,这种紧密的结合让理论不再是空中楼阁。我尤其欣赏作者在总结部分提出的未来研究方向的展望,他并未给出确定的答案,而是提出了几个开放性的难题,鼓励读者继续探索,这种“传帮带”的写作风格,使得这本书不仅适合作为资深从业者的案头参考书,也对有志于在该领域深造的研究生具有极强的指导意义。它真正做到了在技术深度和广度之间找到了一个完美的平衡点。

评分

这本书的排版和术语规范性做得非常到位,大量的图表和公式推导清晰流畅,即便是涉及复杂的数学证明,也能通过辅助性的图示变得易于理解。我最欣赏的一点是,它对“不平衡”的理解维度非常丰富,远超出了传统的“正负样本比例”的范畴。作者花了相当大的精力去阐述时间序列数据中的概念漂移(Concept Drift)如何加剧了分类的难度,以及在半监督学习框架下如何利用未标记的大量多数类样本来辅助少数类的学习。这种对情境化挑战的关注,使得这本书的适用范围大大拓宽,不再局限于静态数据集的二分类问题。它成功地将数据不平衡这一技术挑战,提升到了模型鲁棒性和长期适应性的战略高度,读完后感觉思维的框架被重塑了,不再局限于单一的算法优化思维。

评分

书写地清楚明白,容易理解,编辑精美。

评分

经常在京东买书,又快又好,这本书挺好的。

评分

有印迹,而且还有折痕,买到二手书了,而且没有塑料封

评分

书是脏兮兮的。

评分

有印迹,而且还有折痕,买到二手书了,而且没有塑料封

评分

经常在京东买书,又快又好,这本书挺好的。

评分

有印迹,而且还有折痕,买到二手书了,而且没有塑料封

评分

含有多种分类学习算法

评分

正在学习中,这类书籍比较少

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有