内容简介
《机器学习中的不平衡分类方法》是作者在机器学习领域不平衡数据分类问题的系统性研究成果。作者密切跟踪国内外机器学习领域的新研究动态,对当前受到关注的典型不平衡分类学习方法进行了系统阐述;考虑到不平衡分类问题在实际应用问题中的普遍性以及求解的复杂性,从框架建模、学习策略、算法实现等方面给出一系列高性能、鲁棒性强的不平衡分类方法,丰富机器学习理论与方法体系,以期为人工智能相关领域的研究提供新的思路和方法。
《机器学习中的不平衡分类方法》可供人工智能、自动化、计算机科学、电子信息等相关专业领域的研究生、教师、科研人员以及工程技术人员参考使用,也可供高等教育相关专业高年级本科生作为开拓视野、增长知识的阅读材料。
目录
前言
第1章 绪论
1.1 概述
1.2 分类问题概述
1.3 不平衡分类问题概述
1.4 研究背景
1.5 发展历程
1.6 应用现状
参考文献
第2章 模型评估与选择
2.1 训练误差与测试误差
2.2 过拟合与欠拟合
2.3 模型选择
2.4 评估方法
2.5 假设检验
2.5.1 T-test检验
2.5.2 Wilcoxon秩和检验
2.5.3 方差分析(ANOVA)
第3章 不平衡分类学习策略
3.1 重采样策略
3.1.1 经典过采样技术
3.1.2 经典欠采样方法
3.2 代价敏感学习
3.3 单类别学习
3.4 集成学习方法
3.5 新型采样策略
3.5.1 基于KNN降噪滤波的不平衡分类框架
3.5.2 KNN噪声滤波器
3.5.3 基于欠采样方法的KF噪声滤波器
3.5.4 算法复杂度分析
3.5.5 实验与结果分析
3.5.6 基于迭代分割滤波器的降噪不平衡分类算法
参考文献
第4章 贝叶斯分类器
4.1 贝叶斯理论
4.1.1 条件概率和乘法公式
4.1.2 全概率公式和贝叶斯公式
4.1.3 极大后验假设与极大似然假设
4.1.4 事件的独立性
4.2 朴素贝叶斯分类器
4.2.1 朴素贝叶斯分类器描述
4.2.2 性能分析
4.2.3 NBC特征分析
4.3 代价敏感朴素贝叶斯分类器
4.3.1 二类不平衡分类
4.3.2 多类不平衡分类
4.4 参数选择
4.4.1 二类不平衡分类
4.4.2 多类不平衡分类
4.5 仿真实验与比较分析
4.5.1 二类不平衡分类
4.5.2 多类不平衡分类
4.6 本章小结
参考文献
第5章 决策树与随机森林
5.1 基本流程
5.1.1 决策树定义及结构
5.1.2 决策树学习步骤
5.2 划分选择
5.2.1 信息增益
5.2.2 增益率
5.2.3 基尼基数
5.3 剪枝处理
5.4 随机森林
5.5 随机森林集成
5.5.1 融合的基本原则
5.5.2 不平衡数据的模型集成方案
5.6 本章小结
参考文献
第6章 支持向量机
6.1 支持向量机原理
6.1.1 超平面与几何间隔最大化
6.1.2 拉格朗日对偶函数
6.1.3 核函数的引入
6.2 序列最小优化算法
6.3 不平衡分类SVM研究
6.4 基于距离的多子域加权欠采样SVM算法
6.4.1 基于几何间距的多子域加权欠采样算法
6.4.2 WU-SVM算法
6.4.3 小结
6.5 基于GA过采样的SVM算法
6.5.1 基于GA的过采样
6.5.2 递归支持向量机(R-SVM)
6.5.3 GR-SVM算法
6.6 WU-SVM仿真实验与结果分析
6.6.1 二类不平衡分类
6.6.2 多类不平衡分类
6.7 本章小结
参考文献
第7章 集成学习与强化学习
7.1 个体与集成
7.2 Boosting
7.3 Bagging
7.4 强化学习
7.4.1 强化学习的基本元素
7.4.2 策略选择
7.4.3 有模型学习
7.4.4 免模型学习
7.5 本章小结
参考文献
第8章 遗传规划分类
8.1 进化计算基本理论
8.2 遗传规划理论
8.2.1 遗传规划基本流程
8.2.2 遗传规划的特点
8.2.3 个体表示和适应度函数
8.2.4 种群的产生方法
8.2.5 遗传操作
8.2.6 终止准则与结果判定
8.3 遗传规划分类器
8.3.1 遗传规划分类模型
8.3.2 两类问题
8.3.3 多类问题
8.4 遗传规划分类器集成
8.4.1 利用遗传规划进行集成的基本原理
8.4.2 遗传规划集成学习的相关设置
8.4.3 算法描述
8.5 遗传规划不平衡分类器
8.5.1 多目标遗传规划
8.5.2 不平衡分类问题中的多目标问题
8.5.3 基于多目标的遗传规划用于不平衡分类
8.6 遗传规划用于不平衡分类实例
8.6.1 MOGP进化搜索算法
8.6.2 分类器集成选择
8.6.3 实验结果
8.6.4 分类器集成改进
8.7 本章小结
参考文献
第9章 非平稳环境学习
9.1 非平稳环境下的变化检测
9.1.1 检测变量与检验方法
9.1.2 非平稳环境检测的最新研究进展
9.2 增量式学习算法的研究
9.2.1 增量学习方式
9.2.2 最新动态
9.2.3 经典测试数据集及评估指标
9.3 本章小结
参考文献
第10章 迁移学习
10.1 迁移学习
10.2 迁移学习类型
10.2.1 同构迁移学习
10.2.2 异构迁移学习
10.3 迁移学习方法
10.3.1 实例权重法
10.3.2 特征表示法
lO.3.3 参数迁移法
10.3.4 知识关联法
10.4 迁移学习运用
10.5 本章小结
参考文献
第11章 典型应用案例
11.1 网络入侵检测
11.1.1 背景
11.1.2 网络入侵检测数据
11.1.3 GA过采样
11.1.4 SVM参数寻优
11.1.5 特征提取分析
11.1.6 实验结果及分析
11.2 医疗诊断
11.2.1 不平衡分类在医疗诊断中的应用
11.2.2 乳腺癌诊断
11.2.3 仿真结果与分析
11.3 短文本分类
11.3.1 短文本分类概述
11.3.2 文本表示相关的主要模型
11.3.3 特征降维
11.3.4 基于WU-SVM的短文本分类
11.3.5 小结
第12章 人工智能平台——AIThink
12.1 AIThink平台介绍
12.2 平台功能及用途
12.3 平台内容
精彩书摘
集成学习法将数据层面改进算法和传统分类算法相结合来提高不平衡数据分类效果。集成学习依据其包含的分类器种类,分为同态集成学习和异态集成学习。同态集成学习指的是基础分类器由相同类型构成,这些基础分类器可以有不同的参数;异态集成学习指的是基础分类器由不同类型构成,即包含两种或两种以上的基础分类器。同态集成学习先对原始训练数据集进行一系列采样,获得一系列训练子数据集,训练出多个分类器,然后对测试样本的分类结果用投票的方式集成获得最后的分类结果。异态集成学习中的基础分类器都具有不同的属性,某个基础分类器对某类特定数据集可能会更有效。Schapire等人将AdaBoost算法运用到不平衡分类学习中获得了较好的分类效果,但由于AdaBoost以分类准确率最大化为目标,多数类对分类准确率的影响大,少数类对分类准确率影响相对较小,使AdaBoost算法并不利于少数类的学习,导致少数类的准确率提高程度有限。据此提出了改进AdaBoost方法如RareBoostl、AdaCost,两者主要策略都是改变样本权重更新方法并赋予分类错误的少数类样本更高的权值,使其下一轮迭代过程中更倾向于被分类正确。Chawla等人提出SMOTEBoost方法,具体是将SMOTE算法和集成学习Boosting相结合,先利用SMOTE算法增加少数类样本的个数,提高少数类的分类效果,然后利用集成学习提高类别不平衡分类的整体性能。He和Han等人将过采样和集成学习相结合提出了C-SMOTE算法用于不平衡分类学习,也取得了良好的分类性能。刘胥影等人将欠采样和集成学习相结合,提出了EasyEnsemble和BalanceCascade两种方法,通过从多数类中抽取多个子集,然后利用这些子集学习一系列弱分类器,最后合并这些弱分类器,获得一个集成分类器。Maryam和Roozbeh等针对位于不平衡环境下的集成学习提出一种有效的采样方法,先对少类样本进行缺失值处理,依照输入缺失值重要性来产生新的合成数据集,有利于提高轴承缺陷诊断的准确率。
……
机器学习中的不平衡分类方法 电子书 下载 mobi epub pdf txt