对于数据驱动型公司,设计和构建流式数据架构能够实现实时或近实时应用,提升整个组织的效率。《流式架构:Kafka与MapR Streams数据流处理》简明的指南讲述了流设计中的关键因素(聚焦于消息层的关键特性)、新的消息技术 ApacheKafka 和 MapR Streams、流架构是如何支持微服务的,以及当下可供选择的流技术:Apache Spark Streaming、Apache Flink、Apache Storm和 Apache Apex,适合架构师、大数据科学家及 IT 工程师阅读。
所有连续的事件流都可以称为数据流。对连续数据流设计和构建流式数据架构,能够实现实时或近实时应用,提升整个组织的效率。本书以Apache Kafka 和MapRStreams为例,重点讲解如何确定使用流数据的时机、如何为多用户系统设计流式架构、为什么要求消息传递层具备某些特定功能,以及为什么需要微服务,并且描述了目前*符合流式设计需求的消息传递和流分析工具,适合架构师、大数据科学家及IT工程师阅读。
TedDunning,MapRTechnologies首席应用架构师,开源社区的活跃成员。现任ApacheFoundation孵化器的VP,是大量项目的冠军得主和导师,也是ApacheZooKeeper和Drill项目的贡献者和PMC成员。
EllenFriedman,解决方案咨询师,著名演讲者和作家,目前主要撰写大数据方面的著作。她是ApacheDrill和ApacheMahout项目的贡献者。
译者简介
唐李洋,博士,研究方向为云计算、并行计算、数据挖掘与分析等。曾经在Cisco从事过数据架构方面的设计与分析工作。
目录
第1 章 为什么使用流 1
飞机、火车和汽车:车联网和物联网 3
流数据:这才是现实世界 6
什么时候需要流 8
不止是实时:流架构的更多优势 11
流架构的最佳实践 13
医疗数据流案例 14
流数据:架构设计的核心 17
第2 章 流式架构 19
狭义视角:实时应用 20
通用流式架构的关键问题 21
消息传递技术的重要性 24
实时分析工具 28
Apache Storm 30
Apache Spark Streaming 31
Apache Flink 32
Apache Apex 33
流分析功能比较 33
小结 36
第3 章 流架构:微服务的理想平台 37
为什么需要微服务 38
微服务需要哪些支撑 41
关于微服务的更多详情 42
设计流架构:以在线视频服务为例 45
新设计:支持消息传递的基础设施 47
通用微架构的重要性 49
命名问题 50
为什么使用分布式文件和NoSQL 数据库 52
视频服务的新设计 52
小结:综合平台视角 54
第4 章 使用Kafka 进行流传输 57
Kafka 的动机 57
Kafka 的创新 58
Kafka 的基本概念 60
排序 61
持久化 62
Kafka API 62
KafkaProducer API 63
KafkaConsumer API 66
遗留API 70
Kafka 实用程序 71
负载均衡 71
镜像 72
Kafka 的陷阱 73
产品环境下的Kafka 73
主题和分区的数目有限 74
手动均衡分区负载 75
没有固有的序列化机制 76
镜像的不足 77
小结 78
第5 章 MapR Streams 79
MapR Streams 的创新 79
MapR 流系统的历史和情境 82
MapR Streams 的工作原理 84
配置MapR Streams 86
地理分布式复制 89
MapR Streams 的陷阱 91
第6 章 基于流数据的欺诈检测 ..93
刷卡速度 94
快速响应决策:“这是欺诈吗” 95
多用途流数据 98
欺诈检测器的向上扩展 99
小结 101
第7 章 地理分布式数据流 103
利益相关者 104
设计目标 106
设计选择 106
我们的设计 108
数据 108
控制谁能访问流数据 109
基于流的地理分布式复制的优势 .110
第8 章 总结 113
流式架构的优势 115
过渡到流架构 116
小结 119
附录A 附加资源 121
作者简介 125
使用和处理连续数据流的能力,是一项极具竞争力的优势。因此,能够利用流数据,逐渐成为构建数据驱动型组织的一个重要条件。流数据的广泛使用引发了如何进行更好的系统设计才能有效处理流数据的思考,涉及从多个数据源提取数据,以及各种不同的使用场景,包括流分析和持久化问题。流架构设计的最佳实践层出不穷,甚至会让我们目瞪口呆——流系统设计的范畴已经远远超出服务于特定的实时或近实时应用。使用新的方法进行流设计,能够极大地提升整个组织的效率。
目标读者
如果你已经在使用流数据,并且希望设计出一种能够实现最佳性能的体系结构,或者正要探索流数据的价值,那么这本书应该对你很有帮助。本书提供了很多真实案例,帮助你理解如何将这些方法应用到不同场景。此外,本书还为开发人员提供了示例程序的链接。
本书适合非技术或技术出身的读者,包括商业分析师、架构师、团队领导、数据科学家及开发人员。
内容梗概
本书内容包括:
- - 如何确定使用流数据的时机
- - 在多用户系统中如何更好地设计流架构
- - 为什么这种设计要求消息传递层具备某些特定的功能
- - 为什么流式架构支持微服务
- - 最符合流设计需求的消息传递和流分析工具的描述
第1~3 章阐述了流和微服务架构的基本知识。如果你已经对流数据的业务目标很熟悉,可以直接从第2 章开始读,第2 章描述了我们推荐的适合流系统的架构。
我们不仅解释了流架构最佳实践所需的能力,还介绍了一些目前能够满足这些要求的技术。第4 章详细讲述Apache Kafka,并提供了示例代码链接。第5 章介绍另一种更适合消息传递的技术,即MapR Streams,它使用Apache Kafka API,但提供的功能更多。
后面的章节深入介绍了利用流数据的真实案例,并对这一激动人心的领域做出了前景展望。
相关补充资料(示例代码、练习等)在这里下载:https://www.mapr.com/blog/getting-started-sample-programs-apache-kafka-09 以及https://www.mapr.com/blog/getting-started-sample-programsmapr-streams。
本书的目的是帮助你完成工作。一般来说,如果书中有示例代码,你可以在自己的程序和文档中使用这些示例代码。只要不是大批量复制这些代码,都不必联系我们请求许可。例如,借用书中若干块代码编写程序,不需要许可;而将O’eilly 书中的例子制作成CD 售卖或发行,则需要许可。引用书中的示例代码回答某个问题,不需要许可;而在产品文档中大量使用示例代码,则需要许可。
我们非常希望你能在引用本书内容时标明出处,但并不强求。出处一般包含有书名、作者、出版商和ISBN。例如:“Streaming Architecture: New Designs Using Apache Kafka and MapR Streams
by Ted Dunning and Ellen Friedman (O’eilly).Copyright 2016 Ted Dunning and Ellen Friedman, 978-1-491-95392-1”
如果你觉得示例代码的使用可能超越了合理使用范围,或者需要获得许可,请随时联系我们:permissions@oreilly.com。
Safari Books Online Safari Books Online
Safari Books Online 是应需而变的数字图书馆。它同时以图书和视频的形式出版世界顶级技术和商务作家的专业作品
技术专家、软件开发者、Web 设计师、商务人士和创意精英都可以将Safari 在线图书作为他们的调研、解决问题、学习和认证的主要资料来源。
Safari Books Online 对于组织团体、政府机构和个人提供各种产品组合和灵活的定价策略。用户可通过一个功能完备的数据库检索系统访问O’Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sam、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGarw-Hill、Jones & Bartlett、Course Technology 及其他数十家出版社的上千种图书、培训视频和正式出版前的书稿。要了解更多关于Safari Books Online 的信息,请访问我们的网站。
联系方式
请将对本书的评价和发现的问题通过如下地址告知出版者。
美国:
O’eilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2 号成铭大厦C 座807 室
(100035)
奥莱利技术咨询(北京)有限公司
我们在http://bit.ly/streaming-architecture 上列出了勘误表、示例和所有额外的信息。
要评论或者询问关于本书的任何技术问题, 请发邮件到bookquestions@oreilly.com。
要了解O’eilly 更多的图书、课程、会议和新闻,请访问我们的网站http://www.oreilly.com。
我们的Facebook 账号:http://facebook.com/oreilly
我们的Twitter 账号:http://twitter.com/oreillymedia
我们的YouTube 网址:http://www.youtube.com/oreillymedia
读者服务
轻松注册成为博文视点社区用户(www.broadview.com.cn),您即可享受以下服务:
·提交勘误:您对书中内容的修改意见可在 提交勘误处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
·交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。
页面入口:http://www.broadview.com.cn/31722
这本书简直是我近期遇到的关于流式架构最棒的读物之一!作者以一种非常直观且深入浅出的方式,将Kafka和MapR Streams这两个强大的数据流处理引擎呈现在读者面前。我一直对实时数据处理的概念感到好奇,而这本书恰好满足了我的求知欲。它从最基础的概念入手,逐步引导读者理解流式数据是如何被捕获、传输、处理和消费的。书中的图示非常精美,而且恰到好处地帮助我理解了复杂的架构图和数据流转过程。 作者在讲解Kafka的部分,让我对其核心组件有了前所未有的清晰认识。从Topic、Partition的分布和管理,到Producer如何将数据高效写入,再到Consumer如何可靠地消费数据,每一个细节都经过了细致的阐述。尤其让我印象深刻的是关于Offset的管理,这是保证数据不丢失、不重复的关键,作者在这方面的讲解既全面又实用。而MapR Streams的部分,它在兼容Kafka API的基础上,展现了其在企业级应用中的独特优势,例如与MapR的分布式文件系统的深度整合,这对于那些在MapR环境中工作的开发者来说,简直是福音。 让我觉得这本书与众不同的是,它不仅仅是工具的介绍,更是对整个流式架构理念的升华。作者不仅仅是告诉你“怎么做”,更是告诉你“为什么这么做”。他深入探讨了流式架构在现代业务场景中的重要性,比如实时推荐系统、物联网数据分析、金融风控等等,并且通过实际案例展示了如何利用Kafka和MapR Streams来解决这些问题。书中关于数据管道设计、容错机制、以及与Spark、Flink等计算框架的集成,都提供了宝贵的指导。 我特别赞赏书中关于性能调优和可靠性保证的章节。在实际工作中,我们常常会遇到数据延迟、吞吐量瓶颈等问题,这本书提供了很多实用的技巧和策略来解决这些挑战。例如,对于Kafka的Broker配置、Producer的ack机制、Consumer的group管理等,都有详细的优化建议。MapR Streams在这些方面也提供了自身的解决方案,让我能够根据实际情况做出更优的选择。 总而言之,这是一本能够让你从“知道”到“做到”的宝典。它不仅仅是理论的堆砌,更是实战的经验总结。对于任何想要深入了解流式架构,特别是希望掌握Kafka和MapR Streams这两大主流数据流处理工具的开发者、架构师或数据工程师来说,这本书都绝对值得拥有。它会帮助你建立起扎实的理论基础,掌握实用的操作技巧,并为你设计和构建高性能、高可用的流式数据处理系统打下坚实的基础。
评分这本书简直是我近期在技术阅读领域的一大惊喜!《流式架构:Kafka与MapR Streams数据流处理》这本书,让我对数据流处理这个概念有了从模糊到清晰的转变。作者的写作风格非常细腻,他不仅仅是罗列技术要点,而是用一种引人入胜的方式,带领读者一步步探索流式数据的奥秘。 我之前对Kafka的了解仅仅停留在“消息队列”这个层面,但这本书彻底颠覆了我的认知。作者深入剖析了Kafka的设计理念,从Broker的分布式架构、Partition的副本机制,到Producer的发送策略、Consumer的Offset管理,每一个细节都讲解得淋漓尽致。尤其让我印象深刻的是关于Kafka的容错和高可用性设计,这对于构建稳定可靠的数据处理系统至关重要。而MapR Streams部分,它在Kafka API兼容的基础上,更加强调了其在企业级应用中的优势,比如与MapR的Hadoop平台深度整合,这为那些已经使用MapR生态的用户提供了更便捷的解决方案。 本书的强大之处在于它不仅关注技术工具本身,更着眼于整个流式架构的构建。作者从数据产生的源头开始,详细讲解了如何设计和部署一个端到端的流式数据管道。无论是实时数据采集、消息缓冲、流式计算,还是最终的数据存储和消费,书中都给出了详实的指导和建议。我尤其欣赏书中关于构建实时数据仓库和数据湖的章节,它为我提供了很多新的思路和实践方法。 书中对一些复杂的技术概念,比如Exactly-once语义、幂等性处理、以及流式 Join 等,都进行了非常深入的讲解,并且提供了具体的代码示例和实现思路。这对于我这种在实际项目中会遇到这些挑战的开发者来说,简直是雪中送炭。MapR Streams在这些方面也提供了一些独特的解决方案,让我对不同流式处理平台的优劣有了更直观的对比。 总的来说,这是一本集理论深度、实践指导和前沿视野于一体的优秀著作。如果你是大数据领域的新人,希望系统学习流式架构;如果你是资深开发者,希望深入理解Kafka和MapR Streams的底层原理和高级应用;又或者你是一位架构师,希望构建高性能、高可用的实时数据处理系统,那么这本书绝对是你的不二之选。它会让你在流式处理的世界里,如鱼得水。
评分这本书的出现,简直是我在数据处理领域的一次“启蒙”!《流式架构:Kafka与MapR Streams数据流处理》这本书,以一种非常系统且全面的方式,为我打开了通往流式数据处理世界的大门。作者的叙事方式非常流畅,他能够将看似晦涩的技术概念,用最通俗易懂的语言娓娓道来,让我听得津津有味。 我之前对Kafka的认识,一直停留在“一个用于解耦的组件”层面,但这本书彻底改变了我的看法。它深入挖掘了Kafka作为分布式流处理平台的强大之处,从Topic、Partition的内部机制,到Broker的集群管理,再到Producer和Consumer的精细化配置,每一个环节都让我茅塞顿开。作者对于Kafka的容错机制和伸缩性的讲解,更是让我看到了它在构建大规模实时数据处理系统中的核心价值。而MapR Streams的部分,它在保留Kafka核心特性的同时,还提供了更强大的企业级功能,比如与MapR其他组件的无缝集成,这使得它在特定场景下具有独特的优势。 这本书的真正价值在于它不仅仅局限于某个工具的介绍,而是从整体的“流式架构”角度来审视和构建数据处理系统。作者详细阐述了如何设计一个端到端的流式数据管道,从数据采集、消息队列、流式计算,到最终的数据持久化和分析,每一个环节都进行了深入的探讨。书中对实时分析、事件驱动架构等概念的讲解,更是为我提供了很多新的思考维度。 我特别欣赏书中关于流式处理中数据一致性、去重以及低延迟处理的章节。这些都是在实际项目中常常遇到的难题,作者不仅指出了问题所在,还提供了切实可行的解决方案和技术选型建议。MapR Streams在这些方面也展示了其独有的技术特点,让我对如何根据具体需求选择合适的流式处理平台有了更清晰的认识。 总而言之,这本书是一份关于流式架构和数据流处理的“圣经”。无论你是刚刚踏入大数据领域的新手,还是经验丰富的老兵,都能从中获益匪浅。它不仅会帮助你掌握Kafka和MapR Streams这两个强大的工具,更重要的是,它会为你构建一个现代化、高效率、可扩展的流式数据处理系统打下坚实的基础。这本书绝对是我近期技术阅读清单中的佼佼者!
评分这本书的标题就足够吸引人——《流式架构:Kafka与MapR Streams数据流处理》。我一直对实时数据处理这个概念非常感兴趣,但总是觉得缺乏一个系统性的指导。这本书的出现,简直像一股清流,让我对流式架构有了全新的认识。作者非常善于将复杂的概念简单化,通过生动形象的比喻和逻辑清晰的讲解,一步步引导我走进了流式处理的世界。 我特别喜欢书中对Kafka基础知识的深入挖掘。它不仅仅是列出API,而是深入到Kafka的设计哲学和核心原理。例如,它详细解释了ZooKeeper在Kafka集群中的作用,Topic-Partition的划分策略如何影响并发度,以及Producer和Consumer之间的交互机制。读完这部分,我感觉自己对Kafka的理解从“会用”提升到了“懂”。而MapR Streams的部分,作者也同样给出了详实的介绍,特别是它如何与MapR的分布式文件系统无缝集成,为企业级的大规模流数据处理提供了强大的支持。 本书的价值不仅仅在于技术细节的讲解,更在于它所传达的架构思想。作者不仅仅是介绍工具,更是阐述了构建一个完整的流式数据处理系统的思路。从数据源的接入,到消息队列的部署,再到流式计算引擎的选择和整合,再到最终的数据存储和分析,每一个环节都被作者考虑在内。书中还涉及了流式处理中的一些“痛点”,例如数据一致性、幂等性处理、以及如何保证数据不丢失。作者提供的解决方案和最佳实践,对于实际项目落地非常有价值。 我尤其欣赏书中关于数据可视化和监控的内容。在流式处理系统中,实时监控系统的运行状态和数据流向至关重要。本书提供了一些实用的方法和工具,可以帮助我们构建强大的监控体系,及时发现和解决潜在的问题。MapR Streams在这方面也提供了一些独有的功能,让我对其在企业级场景下的应用潜力有了更深的认识。 总而言之,这是一本我愿意反复阅读并时常翻阅的宝典。它不仅为我提供了一个关于流式架构的完整框架,更让我掌握了Kafka和MapR Streams这两大主流工具的精髓。对于任何想要在实时数据处理领域有所建树的开发者、架构师或者数据科学家来说,这本书都是一份不可多得的财富。它将帮助你构建出更具竞争力、更适应未来业务需求的数据处理系统。
评分这本书简直是Kafka和MapR Streams的百科全书!我之前对流式架构的概念一直有点模糊,但读完这本书,感觉豁然开朗。作者从最基础的原理讲起,非常清晰地解释了什么是流式处理,为什么它在现代大数据时代如此重要,以及它与传统的批处理模式有什么根本性的区别。我尤其喜欢书中对“事件”这个核心概念的深入剖析,它帮助我理解了数据是如何在实时系统中流动和被处理的。 书中的例子非常贴合实际,让我能够将理论知识与实际应用相结合。无论是构建实时的用户行为分析系统,还是实现金融交易的实时监控,作者都给出了详实的步骤和代码示例。我特别对其中关于Kafka的深入讲解印象深刻,从Topic、Partition、Producer、Consumer到Offset的管理,每一个环节都讲得明明白白。作者并没有停留在表面的API调用,而是深入到Kafka的内部机制,例如Broker的协调、Leader-Follower复制机制等等,这让我对Kafka的稳定性和高可用性有了更深刻的认识。MapR Streams部分也同样出色,它在Kafka API兼容的基础上,提供了更强大的分布式文件系统整合能力,对于那些已经部署了MapR环境的用户来说,这本书简直是量身定做的。 这本书的另一个亮点在于它对流式架构的整体性思考。作者不仅仅是讲解了Kafka和MapR Streams这两个工具,更是将它们置于整个数据流处理的生态系统中进行阐述。比如,书中会讨论如何将这些流式平台与其他大数据技术,如Hadoop、Spark、Flink等进行集成,以及如何利用它们构建端到端的实时数据管道。这让我对整个流式处理的解决方案有了更全面的认知,而不是仅仅停留在某个单一的技术点上。此外,书中还涉及了流式处理中的一些挑战,例如数据一致性、延迟控制、容错机制等,并且提供了相应的解决方案和最佳实践,这些内容对于实际项目落地非常有指导意义。 我之前尝试过一些关于Kafka的在线教程,但总感觉碎片化,而且很多内容都只是蜻蜓点水。这本书则不同,它就像一位经验丰富的导师,循序渐进地引导我进入流式处理的世界。从搭建开发环境,到编写第一个Producer和Consumer,再到实现复杂的流处理逻辑,每一个步骤都非常清晰。我尤其欣赏书中对“exactly-once”语义的讨论,这是一个在分布式系统中非常关键但又充满挑战的难题,作者通过深入浅出的讲解和具体的实现方法,让我对其有了更透彻的理解。MapR Streams的部分虽然我目前还不是MapR的用户,但书中对它在企业级应用中的优势和与Kafka的比较,也让我对不同流式处理平台有了更客观的认识。 这是一本理论与实践并重的佳作!书中对流式架构的描述,从数据产生的源头到最终的消费和分析,形成了一个完整的闭环。作者并没有回避流式处理中可能遇到的复杂性,而是积极地探讨如何应对。我特别喜欢书中关于数据湖与流式处理结合的部分,它为我构建更现代化、更实时的数据仓库提供了新的思路。MapR Streams的介绍也让我看到了在已经存在的MapR生态中,如何更有效地利用流式数据。总而言之,如果你对大数据、实时计算感兴趣,或者正在寻找关于Kafka和MapR Streams的权威指南,这本书绝对是你的不二之选。它不仅能帮助你掌握核心技术,更能让你理解流式架构的深层价值和应用前景。
评分买书一向选京东 超值
评分书很好,正品,第二天就到了
评分好
评分没用
评分买书一向选京东 超值
评分书很好,给同事买的,快递很快
评分太薄啦!不值!
评分非常好,装帧精美,物流迅速,好评
评分流式架构:Kafka与MapR Streams数据流处理 还可以
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有