编辑推荐
1.大数据从数据产生和数据收集开始,在数据存储和管理阶段存在不小的挑战,本书使用元启发式演算法作为这些挑战的解决方案,首先,这种算法可以处理大量的难题,其次非常灵活,对不同类型的数据和文档都能读取。
2.本书介绍非常全面,提供了元启发式算法应用于大数据信息挖掘的各个方面。
内容简介
本书的第一部分介绍了如何使用元启发式算法来克服数据挖掘过程中的问题,算法性能评估,并具体介绍了原启发式算法。第二部分详细描述了一系列的数据挖掘任务,包括聚类算法、关联规则、监督分类法以及特征选择,然后探讨了如何通过通用启发式算法来处理数据挖掘任务。
本书内容介绍齐全,读者可以系统理解书中的所有概念,并且提供了将通用启发式演算法应用到从大数据信息挖掘的相关方法总览。
作者简介
Clarisse DHAENENS、Laetitia JOURDAN,两人均是法国里尔大学的教授,CRIStAL实验室(计算机科学、信号和自动化研究中心),以及法国国家信息与自动化研究所(INRIA)的研究团队成员。
精彩书评
NULL
目录
目录
第1章 优化与大数据 //1
1.1 大数据环境 //2
1.1.1 大数据环境示例 //3
1.1.2 定义 //4
1.1.3 大数据面临的挑战 //6
1.1.4 元启发式算法和大数据 //9
1.2 大数据中的知识发现 //11
1.2.1 数据挖掘与知识发现 //11
1.2.2 主要的数据挖掘任务 //13
1.2.3 数据挖掘任务作为优化问题 //17
1.3 数据挖掘算法的性能分析 //17
1.3.1 环境 //17
1.3.2 一个或多个数据集评估 //19
1.3.3 存储库和数据集 //20
1.4 本章小结 //21
第2章 元启发式算法简介 //23
2.1 引言 //24
2.1.1 组合优化问题 //25
2.1.2 解决组合优化问题 //25
2.1.3 优化方法的主要类型 //26
2.2 元启发式算法的通用概念 //27
2.2.1 表示/编码 //27
2.2.2 约束满足 //28
2.2.3 优化标准/目标函数 //29
2.2.4 性能分析 //30
2.3 基于单一解/局部搜索的方法 //31
2.3.1 方案邻域 //31
2.3.2 爬山算法 //33
2.3.3 禁忌搜索 //34
2.3.4 模拟退火和阈值接受法 //35
2.3.5 结合局部搜索方法 //36
2.4 基于群体的元启发式算法 //37
2.4.1 进化计算 //38
2.4.2 群智能算法 //41
2.5 多目标元启发式算法 //43
2.5.1 多目标优化的基本概念 //44
2.5.2 使用元启发式算法进行多目标优化 //46
2.5.3 多目标优化的性能评估 //50
2.6 本章小结 //51
第3章 元启发式算法与并行优化 //53
3.1 并行计算 //54
3.1.1 位级别并行 //55
3.1.2 指令级并行 //55
3.1.3 任务与数据并行 //55
3.2 并行元启发式算法 //56
3.2.1 一般概念 //56
3.2.2 并行基于单一解的元启发式算法 //56
3.2.3 并行基于总体的元启发式算法 //58
3.3 并行元启发式算法的基础设施和技术 //58
3.3.1 分布式模型 //58
3.3.2 硬件型号 //59
3.4 质量措施 //62
3.4.1 加速 //62
3.4.2 效率 //62
3.4.3 串行分数 //63
3.5 本章小结 //63
第4章 元启发式算法与聚类算法 //65
4.1 任务描述 //66
4.1.1 划分法 //67
4.1.2 层次法 //68
4.1.3 基于网格法 //70
4.1.4 基于密度法 //70
4.2 大数据与聚类分析 //71
4.3 优化模型 //71
4.3.1 组合问题 //71
4.3.2 质量措施 //72
4.3.3 表示 //79
4.4 方法概述 //83
4.5 验证 //84
4.5.1 内部验证 //86
4.5.2 外部验证 //86
4.6 本章小结 //88
第5章 元启发式算法与关联规则 //89
5.1 任务描述和经典算法 //91
5.1.1 初始化问题 //91
5.1.2 先验算法 //92
5.2 优化模型 //93
5.2.1 组合问题 //93
5.2.2 质量测量 //93
5.2.3 单目标还是多目标问题 //95
5.3 关联规则挖掘问题的元启发式算法概述 //96
5.3.1 一般性 //96
5.3.2 分类关联规则的元启发式算法 //97
5.3.3 定量关联规则的进化算法 //102
5.3.4 模糊关联规则的元启发式算法 //105
5.4 总表 //108
5.5 本章小结 //110
第6章 元启发式算法与(监督)分类 //111
6.1 任务描述和标准算法 //112
6.1.1 问题描述 //112
6.1.2 K最近邻分类算法(KNN) //113
6.1.3 决策树 //114
6.1.4 朴素贝叶斯算法 //115
6.1.5 人工神经网络 //115
6.1.6 支持向量机 //116
6.2 优化模型 //117
6.2.1 组合问题 //117
6.2.2 质量措施 //117
6.2.3 监督分类的性能评估方法 //119
6.3 构建标准分类器的元启发式算法 //120
6.3.1 KNN算法优化 //120
6.3.2 决策树 //121
6.3.3 ANN算法优化 //124
6.3.4 SVM算法优化 //125
6.4 元启发式算法分类规则 //127
6.4.1 建模 //127
6.4.2 目标函数 //128
6.4.3 算子 //130
6.4.4 算法 //131
6.5 本章小结 //133
第7章 使用元启发式算法在分类中进行特征选择 //135
7.1 任务描述 //137
7.1.1 筛选器模型 //137
7.1.2 封装器模型 //138
7.1.3 嵌入式模型 //138
7.2 优化模型 //139
7.2.1 组合优化问题 //139
7.2.2 表示 //140
7.2.3 算子 //141
7.2.4 质量测量 //141
7.2.5 验证 //144
7.3 算法概述 //144
7.4 本章小结 //145
第8章 框架 //147
8.1 设计元启发式算法的框架 //148
8.1.1 EasyLocal++ //149
8.1.2 HeuristicLab //150
8.1.3 jMetal //150
8.1.4 Mallba //150
8.1.5 ParadisEO //151
8.1.6 ECJ //152
8.1.7 OpenBeagle //152
8.1.8 JCLEC //152
8.2 数据挖掘框架 //153
8.2.1 Orange //154
8.2.2 R与Rattle GUI //154
8.3 元启发式算法数据挖掘框架 //155
8.3.1 RapidMiner //155
8.3.2 WEKA //156
8.3.3 KEEL //157
8.3.4 MO-Mine //158
8.4 本章小结 //159
结论 //161
参考文献 //163
精彩书摘
《大数据元启发式算法教程》:
在文献(FRI 05)中,Friedrichs等人提出了一种用于确定多个SVM超参数的进化方法:自适应协方差矩阵进化策略(CMA-ES)。它用于从参数化的内核空间确定内核并控制正则化。他们认为CMA进化策略是一种强大且通用的SVM超参数选择方法。它可以处理大量的内核参数,并且既不需要可微分的内核和模型选择标准,也不需要数据的可分离性。在这项研究之后,文献(SUT 06)中提出了一种三目标方法,以考虑优化的几个方面。这一方法基于假阳性率、假阴性率和支持向量的数量的最小化,以此降低计算复杂性。
在文献(SHA 13)中,我们使用较不常规的元启发式算法来优化SVM的参数:萤火虫算法(FFA)。萤火虫是一种通过生物发光过程而发光的昆虫。对于这种算法,应遵循一些理想化的规则:(1)萤火虫不分性别地吸引其他萤火虫;也就是说,吸引力纯粹是基于光的亮度;(2)两个纤维之间的亮度越大,两者之间的吸引力越大。如果没有更亮的光,运动随机发生;(3)荧光的亮度由其目标函数的值决定。为优化SVM参数,每个函数表示一个参数集,并且向群中其他函数的移动会修改参数值。
因为元启发式算法可能需要大量的评估(每一评估都需要SVM执行),所以利用并行计算来减少搜索所需时间可能是有用的。因此,Runarsson等人提出将平行进化策略(ES)应用到支持向量机的模型选择上。在这项工作中,选择异步并行进化策略是因为处理器上的负载通常是不平衡的。
……
大数据元启发式算法教程 电子书 下载 mobi epub pdf txt