本书以基本概念和发展现状作为切入点,对多种大数据关键技术进行逻辑性阐述和分析,同时结合典型应用领域,论述了大数据技术在通信、互联网中扮演的重要角色,系统地向读者阐述了大数据的内涵。
本书从大数据的基本概念出发,深入解析了大数据应用的关键技术与应用。以大数据的数据挖掘技术、大数据的存储与处理、大数据应用的总体架构三方面为线索,详细阐述了大数据挖掘的诸多常用算法,介绍了Hadoop、HDFS及MapReduce等大数据存储与处理的关键技术与应用、大数据应用的框架与构架。本书以通信运营商及互联网电子商务等应用为背景,从典型实例的角度系统地介绍了大数据挖掘应用从目标构建、算法建模到程序实现,再到大数据分析及结果描述应用的整个过程,以期为读者提供从理论到实务的有效借鉴。
黄宏程:重庆邮电大学副教授,主要从事复杂网络与信息处理、大数据技术等方向的研究与应用,近年来,作为项目负责人或主研人员,参加多项国家自然科学基金和省部级重点科研项目10余项,2012、2013年度中国人民解放军科学技术进步奖获得者。发表论文20余篇,其中SCI/EI检索10余篇次,申请国家发明专利8项,授权5项。
第1章 大数据概述 1
1.1 大数据的概念 1
1.1.1 什么是大数据 1
1.1.2 大数据的产生和来源 2
1.1.3 大数据的技术 3
1.1.4 大数据的特征 8
1.1.5 数据、信息与知识 10
1.2 大数据的价值与挑战 10
1.2.1 大数据的潜在价值 11
1.2.2 大数据对业务的挑战 12
1.2.3 大数据对技术架构的挑战 13
1.2.4 大数据对管理策略的挑战 14
1.3 大数据与相关领域的关系 16
1.3.1 大数据与统计分析 16
1.3.2 大数据与数据挖掘 16
1.3.3 大数据与云计算 17
1.4 大数据发展状况 20
参考文献 23
第2章 大数据挖掘技术 24
2.1 数据挖掘与过程 24
2.1.1 数据挖掘的七大功能 24
2.1.2 数据挖掘的实质 25
2.2 数据挖掘过程 26
2.2.1 定义挖掘目标 27
2.2.2 数据取样 28
2.2.3 数据探索 30
2.2.4 数据预处理 32
2.2.5 数据模式发现 37
2.2.6 模型评价 40
2.3 常用算法 47
2.3.1 决策树 48
2.3.2 回归 50
2.3.3 关联规则 54
2.3.4 聚类 59
2.3.5 贝叶斯分类方法 66
2.3.6 神经网络 69
2.3.7 支持向量机(SVM) 73
2.3.8 假设检验 77
2.3.9 遗传算法 81
参考文献 84
第3章 大规模存储与处理技术 86
3.1 Hadoop概述 86
3.1.1 什么是Hadoop 86
3.1.2 Hadoop发展简史 88
3.1.3 Hadoop的优势 90
3.1.4 Hadoop的子项目 90
3.2 HDFS 92
3.2.1 HDFS的设计目标 93
3.2.2 HDFS文件系统的原型GFS 93
3.2.3 HDFS文件的基本结构 95
3.2.4 HDFS的文件读/写操作 97
3.2.5 HDFS的存储过程 101
3.3 MapReduce编程框架 105
3.3.1 MapReduce的发展历史 105
3.3.2 MapReduce的基本工作过程 107
3.3.3 MapReduce的特点 110
3.4 建立Hadoop开发环境 111
3.4.1 相关准备工作 111
3.4.2 JDK的安装配置 113
3.4.3 SSH无钥登录 113
3.4.4 安装、配置Hadoop环境变量 115
3.5 大数据处理系统分类 118
3.5.1 批量数据处理系统 118
3.5.2 流式数据处理系统 119
3.5.3 交互式数据处理 122
3.5.4 图数据处理系统 124
3.6 大数据查询和分析技术:SQL on Hadoop 126
3.6.1 数据库简介 126
3.6.2 图数据库 128
3.6.3 Hive:基本的Hadoop分析 130
3.6.4 实时互动的SQL:Impala和Drill 134
3.7 以通信业务分析为例的大数据的技术环境部署 136
3.7.1 应用架构规划与设计 136
3.7.2 技术环境部署与配置 137
第4章 大数据应用的总体架构和关键技术 148
4.1 大数据的业务分析 148
4.2 大数据的总架体构模型 152
4.3 大数据高级分析 161
4.3.1 数据仓库与联机分析处理技术 162
4.3.2 大数据分析与传统分析 167
4.3.3 非结构化复杂数据分析 168
4.3.4 实时预测分析 177
4.4 可视化分析 181
4.4.1 可视化技术 181
4.4.2 可视化工具 192
参考文献 195
第5章 运营商数据分析 196
5.1 案例背景 196
5.1.1 大数据运营已为大势所趋 196
5.1.2 采取大数据运营的原因 196
5.1.3 大数据分析如何提升电信行业绩效 197
5.1.4 大数据的社会价值 199
5.2 挖掘目标的提出 200
5.3 案例分析 201
5.3.1 体系架构 201
5.3.2 Hadoop集群抽取模块 202
5.3.3 数据处理模块 208
5.3.4 数据分发 211
5.4 MapReduce操作 218
5.5 结果分析 221
第6章 互联网电影推荐系统 223
6.1 背景描述 223
6.2 业务目标 224
6.3 业务需求 225
6.4 协同过滤推荐系统建模 225
6.4.1 推荐系统概述 225
6.4.2 基于对立用户的协同过滤模型 227
6.5 项目处理过程 229
6.5.1 项目数据 229
6.5.2 数据预处理 230
6.5.3 Hadoop并行算法 242
6.6 总结 250
前 言
大数据已经成为当今知识信息时代的一个强烈的音符,几乎所有的领域都在寻找着来自大数据的灵感,几乎每个与海量数据相关的应用都有大数据奏响的乐章。
大数据是指那些数据量特别大、数据类别特别复杂的数据集,这些数据无法用传统的数据库进行存储、管理和处理。大数据的主要特点为数据量大(Volume)、数据类别复杂(Variety)、数据处理速度快(Velocity)和数据真实性高(Veracity),合起来称为4V。
大数据中的数据量巨大,甚至达到了拍字节级别。这些庞大的数据中不仅包括如数字、符号等结构化数据,还包括如文本、图像、声音、视频等非结构化数据。这使得传统的关系型数据库很难满足大数据的存储、管理和处理的需要。在大数据之中,有价值的信息往往深藏其中,这就需要对大数据的处理速度非常快,才能在短时间之内从大量的复杂数据之中获取有价值的信息。在大数据的大量、复杂的数据之中,通常不仅包含真实的数据,虚假的数据也可能混杂其中,这就需要对大数据进行清洗处理,将虚假的数据剔除,利用真实的数据来分析,得出可靠的结果。
大数据表面上看就是大量、复杂的数据,这些数据本身的价值并不高或难以直观获取,但对这些大量、复杂的数据进行分析、处理后,却能从中提炼出很有价值的信息。对大数据的分析主要有数据挖掘算法(Date Mining Algorithms)、分布式计算(Distributed Computing)、预测性分析能力(Predictive Analytic Capabilities)、可视化分析(Analytic Visualization)等。
数据挖掘算法是大数据分析的理论核心,其本质是根据数据处理模型建立起的一组算法,将收集到的数据作为输入,从而能够从大量、复杂的数据中提取有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者之间的联系,并利用这种联系,提升了商品的销量。淘宝、当当等电子商务系统的推荐引擎和百度的广告系统都大量使用了数据挖掘算法。
对于如何处理大数据,通常采用分布式计算的方式进行分布式存储和分布式处理。Hadoop作为大数据处理的杰出代表,成为分布式计算事实上的国际标准,其采用MapReduce分布式计算框架,以HDFS分布式文件系统作为存储系统,并开发了HBase数据存储系统。
预测性分析能力是大数据分析最重要的应用领域。从大量、复杂的数据中挖掘出规律,建立起科学的模型,通过将新的数据输入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在业务分析、辅助决策、科学研究等领域。
可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,可视化分析将大量复杂的数据转化成直观形象的诸如文字、图表等形式,使其能够更加容易地被用户所接受和理解。
本书力图系统地呈现包括数据挖掘算法、Hadoop大数据存储处理系统等大数据关键技术,并通过通信运营商及互联网电子商务等应用为背景的案例,详尽介绍大数据应用从目标构建、算法建模、程序实现到数据分析与结果呈现的整个过程。
本书由黄宏程、舒毅、欧阳春、舒娜编著,参加编写工作的还有陆卫金、王言通、孙欣然、杨立娜、黄春妮、魏青、冯榆斌。在本书的编写过程中,得到了重庆邮电大学胡敏老师及通信软件工程研究中心的老师和研究生们的诸多帮助,同时也得到了电子工业出版社的大力支持,特表示衷心感谢。本书的部分内容在编著过程中参考了业界的出版物,未能在书中穷尽,在此一并向原作者表示诚挚的感谢!
大数据所涉及的技术内容较多,其发展也非常迅速,由于作者水平有限,书中疏漏之处在所难免,恳请广大读者批评指正。
编著者
2016年3月
这本书给我的第一感觉是,它不像市面上许多同类书籍那样,只是堆砌枯燥的技术术语,而是真正地从读者的角度出发,用一种更加人性化、更具启发性的方式来解读大数据。书名中的“之美”并非虚言,作者在文字中融入了对数据价值的深刻理解,以及对技术背后逻辑的细腻描绘。我之前对大数据一直有一种“雾里看花”的感觉,知道它的重要性,但总摸不着门道。这本书的出现,如同一盏明灯,照亮了我前行的道路。“挖掘”这一部分,作者并没有仅仅提供算法的列表,而是深入剖析了不同挖掘方法背后的思想,以及它们是如何被应用到解决具体的业务问题上的。例如,书中关于用户行为分析的章节,让我看到了如何通过挖掘海量用户行为数据,来预测用户的购买意向,从而实现更加精准的营销推送。这对于我一直在思考如何提升营销ROI的部门来说,简直是雪中送炭。而Hadoop的部分,也做得非常到位。作者并没有回避其技术上的复杂性,但通过精妙的讲解,将Hadoop的分布式存储、并行计算等核心概念一一拆解,让我理解了它为何能够处理海量数据。而且,书中还提及了Hadoop生态系统中其他重要的组件,比如Hive、Spark等,并解释了它们与Hadoop的关系,让我对整个大数据技术栈有了更全面的认识。最后,关于“架构”的论述,让我看到了大数据系统设计的宏观图景,从数据湖的构建到数据仓库的管理,再到实时数据流的处理,作者都给出了清晰的思路和可行的建议。这本书让我对大数据不再感到遥不可及,而是能够充满信心地去探索和实践。
评分这本《大数据之美》简直是大数据领域的“宝藏”,我迫不及待地想和大家分享我的阅读体验。书中的内容,可以说是将大数据的前沿技术与实际应用完美地结合在了一起。我一直对Hadoop这个名字如雷贯耳,但总觉得它是一个高不可攀的技术门槛。然而,这本书的讲解方式让我大跌眼镜,它将Hadoop的复杂概念分解成易于理解的部分,从最基础的分布式存储原理,到MapReduce的计算模型,再到YARN的任务调度,都讲解得清晰明了。作者似乎很懂读者的心理,在讲解技术的同时,会穿插一些生动的比喻和形象的图示,让我在轻松的氛围中掌握了Hadoop的核心知识。更重要的是,这本书没有仅仅停留在Hadoop本身,而是将其置于整个大数据架构的大背景下进行讨论。它详细介绍了构建一个完整大数据平台所需要的各个环节,包括数据采集、清洗、存储、处理、分析以及可视化等。我特别喜欢书中关于“架构”的设计思路,作者从不同的业务场景出发,给出了多种可行的架构方案,并且分析了它们的优缺点,这让我对如何根据自身需求选择和搭建大数据架构有了更深刻的理解。而“挖掘”部分,更是将数据分析的价值展现得淋漓尽致。书中列举了大量贴近实际业务的案例,从电商的精准营销,到金融的风控模型,再到医疗的个性化推荐,都展示了大数据分析如何赋能业务,带来切实的商业价值。这本书让我看到了数据背后蕴藏的巨大能量,也让我对如何利用大数据解决实际业务问题有了更清晰的方向。
评分这本书我是在一个技术论坛上偶然看到的,当时就被这个书名吸引了。“大数据之美”这个词组本身就充满了一种探索和发现的意味,加上后面紧跟着的“挖掘、Hadoop、架构”,感觉这本书会深入浅出地讲解大数据的核心技术和应用。我一直对数据背后的洞察力非常感兴趣,也知道Hadoop是目前大数据领域非常重要的一个开源框架,但具体它如何工作、如何构建一个完整的大数据架构,我之前一直停留在模糊的概念层面。这本书的书名承诺要“更精准地发现业务与营销”,这对我来说太重要了。我所在的部门一直在思考如何利用数据来优化我们的营销策略,找到那些被隐藏的业务增长点。很多时候,我们手头都有大量的数据,但却不知道如何有效地利用它们,感觉就像坐拥金山却不知道如何开采。这本书能否揭示出其中的奥秘,能否提供切实可行的方法论和技术指导,这是我最期待的。我希望它不仅仅是理论的堆砌,更能提供一些实际的案例分析,让我看到别人是如何通过大数据分析实现业务突破的。我甚至设想,读完这本书,我能够更清晰地理解数据是如何从原始状态转化为有价值的业务洞察的,从而在工作中更有底气,也更能为公司带来实际的效益。这本书的封面设计也很简洁大气,给人的感觉很专业,这也在一定程度上增加了我的购买欲望。我准备找个周末,静下心来,好好钻研一下这本书,希望能给我带来全新的启发。
评分最近读完一本让我耳目一新的大数据技术书籍,虽然书名听起来有些宏大,但实际内容却非常扎实。一开始我有点担心这本书会过于偏重理论,导致学习起来枯燥乏味,但事实证明我的顾虑是多余的。书中对大数据“挖掘”的阐述,不仅仅是停留在概念层面,而是通过一系列的实例,生动地展示了如何从海量数据中提炼出有价值的信息。我尤其欣赏它对于各种数据挖掘算法的介绍,讲解得非常细致,并且能结合实际业务场景进行说明,让我这个初学者也能逐渐理解其中的逻辑。关于Hadoop的部分,这本书也做得相当不错。它没有直接抛出复杂的代码,而是先从Hadoop的分布式思想、核心组件(如HDFS、MapReduce)的原理入手,逐步构建起读者的认知框架。这种循序渐进的讲解方式,对于我这种对分布式系统接触不多的读者来说,简直是福音。而且,书中还穿插了一些实际的Hadoop集群搭建和优化的技巧,这对于想要实际操作的读者来说,无疑是锦上添花。最让我感到欣慰的是,这本书在“架构”这一块,给出了很多关于大数据平台构建的思路和建议,涵盖了从数据采集、存储、处理到分析的整个生命周期。这让我看到了如何将零散的技术点串联起来,构建一个稳定、高效的大数据系统。我一直觉得,技术的学习最终还是要服务于业务,而这本书恰恰在这方面做得很好,它反复强调了技术与业务的结合点,让我看到了大数据在驱动业务增长方面的巨大潜力,这对于我在实际工作中制定数据战略非常有帮助。
评分我最近翻阅了一本让人眼前一亮的大数据书籍,这本书的独特之处在于它能够将复杂的技术概念以一种非常易于理解的方式呈现出来,同时又紧密地结合实际的业务应用,这一点让我尤为赞赏。书中关于“挖掘”的部分,让我深刻体会到了数据中隐藏的巨大价值。作者通过大量的案例研究,展示了如何利用各种数据挖掘技术,从看似杂乱无章的数据中发现规律、洞察趋势,并最终转化为具有商业意义的洞察。我尤其欣赏书中对于如何将挖掘结果应用于营销策略制定的讲解,这让我看到了数据分析不仅仅是技术层面的工作,更是驱动业务增长的关键。Hadoop的部分,这本书也做得非常出色。作者并没有让读者沉溺于晦涩的技术细节,而是从原理层面入手,将Hadoop的分布式架构、MapReduce的计算模式等核心概念讲得非常透彻。我之前对Hadoop一直存在一些误解,总觉得它是一个非常难以掌握的技术,但读完这本书,我发现它并没有我想象中那么遥不可及。书中还提及了Hadoop在实际项目中的应用场景,让我对它的实用性有了更直观的认识。而“架构”的设计,则让我在构建大数据系统的过程中,有了更清晰的指引。作者从不同的角度,探讨了大数据架构的演进和发展,并提供了一些实用的架构设计原则和最佳实践。这让我能够更有条理地思考如何搭建一个适合自己业务需求的大数据平台。这本书让我看到了大数据不仅仅是技术,更是一种思维方式,一种能够帮助我们更好地理解世界、发现机遇的强大工具。
评分理论和大数据的空话比较多,比较符合搞学术的人的风格,可以来做为论文的研究背景的素材。全书算法公式非常生硬,没有推理,所以,不太值得买,建议先看电子书
评分书不错,很不错
评分就是太慢了,等了十几天,东西印刷质量不错,
评分一直在京东购书,速度快,快递态度也不错,就是装图书的外包装不太好,有破损情况出现
评分嗯 栗子很好的 讲的内容很实用
评分不错,采购的是公用的物资,送货上门
评分整体这样:数据源、数据存储、数据应用。
评分书还行
评分感谢快递师傅。但真的想问问打开的时候书为什么没有塑封起来呢?
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有