编辑推荐
数据科学和大数据分析是指利用数据的力量来发现新的见解。本书涵盖了数据科学涉及的行为广度以及所使用的方法和工具。本书内容侧重于任何行业和技术环境中都会用到的概念、原理和实际应用,并通过开源软件来分析案例,以帮助读者更好地理解。
本书将帮助您:
成为数据科学团队中的一名贡献者;
部署结构化的生命周期方法来分析数据问题;
应用合适的分析技术和工具来分析大数据;
学习如何用数据来讲一个动人的故事,以推动商业行为;
备考EMC Proven Professional数据科学家认证。
EEMC专家认证是IT行业领先的教育和认证项目,涵盖了信息存储技术、虚拟化技术、云计算、数据科学与大数据分析等领域。
通过认证是一种很好的自我投资方式,同时也是对自己专业知识的正式验证。
本书可以作为准备数据科学专员(EMCDSA)认证的资料。
在驱动企业和服务提供商转型其运营方式以及以服务形式交付IT(IT as a service)方面,EMC是全球领导者。而该转型的基础则是云计算。通过创新的产品和服务,EMC加速了云计算的进展,旨在帮助IT部门以一种更为敏捷、可信和具备成本效益的方式来存储、管理、保护和分析它们有价值的资产——信息。关于EMC的更多信息,请访问www.EMC.com。
内容简介
数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。
《数据科学与大数据分析——数据的发现 分析 可视化与表示》总共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。
《数据科学与大数据分析——数据的发现 分析 可视化与表示》内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。
作者简介
David Dietrich是EMC Education Services的数据科学教育团队的负责人,他领导着大数据分析和数据科学相关的课程、策略和课程开发工作。他参与编写了EMC数据科学课程的首门课程,以及两门额外的EMC课程(以向领导和管理人员讲授大数据和数据科学为主),而且还是本书的作者兼编辑。他在数据科学、数据隐私和云计算领域已经申请了14项专利。
David曾指导若干所大学开设数据分析相关的课程项目,而且还经常在会议和行业活动中发表演讲。他还是波士顿地区几所大学的客座讲师。他的作品已被精选到包括福布斯杂志、哈佛商业评论以及由美国马萨诸塞州长Deval Patrick委托起草的2014 马萨诸塞大数据报告等内在的主流出版物中。
David在分析和技术领域已经浸淫了近20年。在其职业生涯中,他曾在多家财富500强公司工作过,出任多个与数据分析相关的职位,其中包括管理分析和运营团队,提供分析咨询服务,管理用于规范美国银行业的分析软件产品线,以及开发软件即服务(Software-as-a-Service)和Bl即服务(Bl-as-a-Service)的产品。此外,David还曾与美联储一起合作开发用于监控房产抵押贷款的预测模型。
Barry Heller是EMC Education Services的一名咨询技术教育顾问。Barry是大数据和数据科学新兴技术领域的课程开发人员和课程顾问。在此之前,Barry曾是一名顾问研究科学家,在EMC全面客户体验(Total Customer Experience)部门内发起并领导了许多与数据分析相关的项目。在其EMC职业生涯的早期,他负责管理统计工程团队,并负责企业资源企划(ERP)实施中的数据仓库工作。在加盟EMC之前,Barry在医疗诊断和技术公司担任过可靠性工程功能(Reliability Engineering Functions)的管理和分析角色。在此期间,他将其数量分析技能应用到了客户服务、工程、制造、销售/营销、金融和法律领域内的无数商业应用中。他强调与客户管理人员深入互动的重要性,他的许多成功案例不仅源自对分析的技术细节的关注,也源自针对分析结果会做出的决策的关注。Barry拥有罗彻斯特理工学院计算数学专业的本科学位,以及纽约州立大学新帕尔兹分校数学专业的硕士学位。
Beibei Yang是EMC Education Services的一名技术教育顾问,在EMC负责开发若干与数据科学和大数据分析相关的公开课程。Bebei在IT行业有7年的从业经验。在加盟EMC之前,她在一家财富500强公司先后担任过软件工程师、系统管理员和网络管理员等职位,并引入了多种提升效率和鼓励合作的新技术。Beibei曾在国际会议上发表过学术论文,并申请了多项专利。她在马萨诸塞大学卢维尔分校获得了计算机科学专业的博士学位。她专注于自然语言处理和数据挖掘,尤其是使用各种工具和技术来发现数据中隐藏的模式,以及用数据来讲故事。数据科学和大数据分析是一个令人振奋的领域。在这个领域,数字信息的潜力可以很大程度地用来帮助做出明智的商业决策。我们相信,无论是短期、中期还是长期来看,这一领域都将会吸引越来越多有才华的学生和专业人士投身其中。
译者简介
曹逾,于新加坡国立大学获得计算机博士学位,杰出大数据与机器学习专家,当前供职于EMC中国卓越研发集团首席技术官办公室,同时担任EMC中国研究院数据科学实验室主任,主要负责EMC大中华区大数据与数据科学方向的应用型研究以及创新解决方案研发,同时也负责EMC在亚太特别是中国大陆地区的高校科研合作项目。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等国际会议和期刊发表论文20余篇,并多次受邀担任国际会议和期刊审稿人,而且其相关研究成果在EMC内部产品及解决方案中得以广泛应用。曹博士拥有60余项美国及国际专利授权或申请。
刘文苗,现任EMC IT第三平台高级项目经理,对大数据、存储系统、网络系统以及文件系统具有一定研究,还具有国内金融行业多年从业经验。刘先生曾经参与过上海证券交易所新一代交易系统、海通期货核心交易系统的设计与建设工作。
李枫林,于上海交通大学获得软件工程硕士学位,曾在微软中国公司担任数据库工程师,现就职于EMC中国研发中心,担任Senior Social Engagement Manager一职,主要负责EMC中文技术社区的运营与后台数据处理工作,近年来潜心钻研数据存储与大数据相关技术,曾在EMC中文社区及社交媒体上发表多篇大数据技术相关的文章。
主审人员简介
孙宇熙(Ricky Sun),EMC中国研究院院长,在EMC主要负责大数据、软件定义的数据中心、云计算、超融合架构、高性能计算、高效存储等领域的研发、战略合作与创新等工作。
Ricky有在硅谷和国内近20年的学习、工作、生活和创业的经验。Ricky既有在大型跨国公司(EMC、微软、Yahoo!)的工作经历,也有过往成功的创业经历,曾于2001年在美国加州硅谷地区创立WL科技公司并成功带领公司在2004年与香港Telewave集团合并。Ricky在混合云架构、大数据快数据处理与分析、软件定义存储等领域有着多年的国际领先的工作经验业界的影响力,并持有多项专利。Ricky在近年的专业著作有《程序员生存手册:面试篇》、《软件定义数据中心:技术与实践》等。
前言/序言
数据科学与大数据分析 数据的发现 分析 可视化与表示 电子书 下载 mobi epub pdf txt