内容简介
《Oracle大数据解决方案》由Oracle大数据团队成员联袂撰写,全面介绍用于获取、组织、分析和利用非结构化数据的Oracle综合集成化产品。本书讨论成功实现大数据方案必需的策略和技术,包括ApacheHadoop、Oracle大数据机、Oracle大数据连接器、OracleNoSQL数据库、OracleEndeca、Oracle高级分析和Oracle开源R产品,还讲述迁移既有系统并将现有数据仓库和分析解决方案集成到企业大数据基础架构的最佳实践。
主要内容
●理解综合性大数据战略的价值
●最大限度地提高ApacheHadoop平台的分布式处理能力
●介绍将Oracle大数据机用作Hadoop和OracleNoSQL数据库工程系统的优势
●使用Oracle大数据机来配置、部署、监控Hadoop和OracleNoSQL数据库
●将现有数据仓库和分析基础架构集成到大数据架构
●使用Oracle数据连接器在Hadoop和关系型数据库之间共享数据
●理解如何将OracleNoSQL数据库集成到Oracle大数据架构
●使用数据库内分析更快地实现价值
●使用Oracle高级分析(OracleR企业版和Oracle数据挖掘)、OracleR分发版、ROracle和OracleRConnectorforHadoop来分析数据
●使用OracleEndeca信息发现来分析独立数据
●规划和实施大数据管理战略,开发架构和路线图
作者简介
TomPlunkett,曾撰写多本Oracle书籍。2009年,Tom带领一个团队为美国国防部办公室实施大数据研究项目;2012年,Tom帮助Frederick癌症研究实验室赢得多项行业大奖,包括政府大数据解决方案奖。Tom在大数据和云计算领域发表过40多次国际演讲。
BrianMacdonald,是一位杰出的解决方案顾问,是获得认证的Oracle企业架构师。Brian在架构设计和分析平台实施方面拥有逾20年的经验。Brian曾在InformationResources公司工作,期间用OLAP和数据仓库技术实现了管理贷款组合的复杂数学算法。
BruceNelson,是美国西部地区Oracle大数据的负责人,专注于Hadoop和NoSQL。他在IT行业拥有超过24年的高性能数据库系统经验。Bruce曾任Bizrate数据库管理员和工程化总监,期间全面升级了Bizrate.com的数据系统。
目录
第Ⅰ部分引言
第1章大数据简介
1.1大数据
1.2谷歌的MapReduce算法和ApacheHadoop
1.3Oracle的大数据平台
1.4总结
第2章大数据的价值
2.1我是大数据吗?还是大数据是我?
2.2大数据,小数据--仍然是数据
2.2.1什么已经发生了?
2.2.2现在发生了什么?
2.3请看看现实!
2.4你想把它做成什么?
2.5大数据,大数字,大企业?
2.5.1Twitter
2.5.2Facebook
2.5.3内部源
2.5.4ICR:连接
2.5.5ICR:变更
2.6需要:大数据的价值
2.6.1大数据案例1:医疗行业的临床试验研究
2.6.2大数据案例2:在汽车行业的汽车设计中改进驾驶员安全
2.7总结
第II部分大数据平台
第3章ApacheHadoop平台
3.1软件与硬件
3.2Hadoop的软件平台
3.2.1Hadoop的发布与版本
3.2.2HadoopDistributedFileSystem(HDFS)
3.2.3调度、计算和处理
3.3操作系统的选择
3.4Hadoop硬件平台
3.4.1CPU和内存
3.4.2网络
3.4.3磁盘
3.5整合在一起
第4章选择Appliance的理由
4.1Oracle创建大数据机的理由
4.2Appliance的概念
4.3OracleBigDataAppliance的发展目标
4.4Appliance优化
4.5OracleBigDataAppliance第2版软件
4.6Oracle大数据机X3-2硬件
4.7Oracle获取Hadoop知识的地方
4.8配置Hadoop集群
4.8.1选择核心集群组件
4.8.2组装集群
4.9自己组建的集群
4.10集群总成本
4.11时间价值
4.12如何打造更大的集群
4.13Oracle大数据机可否支持其他软件
4.14一体机的缺陷
第5章BDA配置、部署架构和监控
5.1介绍
5.1.1大数据机X3-2满配机架(18个节点)
5.1.2大数据机X3-2入门机架(6个节点)
5.1.3大数据机X3-2扩展机架(6个节点)
5.1.4BDA的硬件修改
5.1.5大数据机X3-2的软件支持
5.2BDA安装和配置过程
5.3关键和非关键节点
5.4NameNode故障自动切换
5.5BDA磁盘存储布局
5.6为Hadoop集群增加存储
5.7仅有Hadoop配置和Hadoop+NoSQL数据库
5.7.1仅有Hadoop的一体机
5.7.2Hadoop和NoSQL数据库
5.8内存选项
5.9部署架构
5.9.1云中的多租户和Hadoop
5.9.2可扩展性
5.9.3BDA多机架的注意事项
5.10在BDA上安装其他软件
5.11数据中心的BDA
5.11.1管理网络
5.11.2客户端访问网络
5.11.3Infiniband私有网络
5.11.4网络需求
5.11.5连接到数据中心的局域网
5.11.6连接架构的例子
5.12Oracle大数据机的使用限制
5.13BDA的管理和监控
5.13.1企业管理器
5.13.2Cloudera管理器
5.13.3Hadoop的监控工具:Web图形用户界面
5.13.4OracleILOM
5.13.5Hue
5.13.6DCLI工具
第6章为大数据集成数据仓库和分析基础架构
6.1数据仓库作为存储历史记录的数据库
6.1.1Oracle数据库作为数据仓库
6.1.2为什么要把数据仓库和Hadoop部署在一起
6.2完成路径:业务分析师工具
6.3扩建基础设施
第7章BDA连接器
7.1OracleBigDataConnectors
7.2OracleLoaderforHadoop
7.2.1在线模式
7.2.2OracleOCIDirectPathOutput
7.2.3JDBCOutput
7.2.4离线模式
7.2.5OracleDataPumpOutput
7.2.6带分隔符的文本输出
7.3安装OracleLoaderforHadoop
7.4调用OracleLoaderforHadoop
7.5输入格式
7.5.1DelimitedTextInputFormat
7.5.2RegexInputFormat
7.5.3AvroInputFormat
7.5.4HiveToAvroInputFormat
7.5.5KVAvroInputFormat
7.5.6自定义输入格式
7.6OracleLoaderforHadoop配置文件
7.6.1LoaderMaps
7.6.2额外的优化
7.6.3利用Infiniband
7.6.4对比ApacheSqoop
7.7OracleSQLConnectorforHDFS
7.8安装OracleSQLConnectorforHDFS
7.9Hive安装
7.10使用OracleSQLConnectorforHDFS创建外部表
7.10.1ExternalTable配置工具
7.10.2数据源类型
7.10.3配置工具语法
7.10.4必需的属性
7.10.5可选属性
7.10.6针对带分隔符的ExternalTable工具
7.10.7在使用--noexecute选项的情况下测试DDL
7.10.8在位置文件里增加一个新的HDFS文件
7.10.9外部表的手动配置
7.11Hive源
7.12OracleDataPump源
7.13配置文件
7.14使用OracleSQLConnectorforHDFS查询
7.15OracleRConnectorforHadoop
7.16OracleDataIntegratorApplicationAdapterforHadoop
第8章OracleNoSQL数据库
8.1NoSQL数据库系统的定义
8.2OracleNoSQL数据库
8.3架构
8.3.1客户端驱动程序
8.3.2键-值对
8.3.3存储节点
8.3.4复制
8.3.5智能拓扑
8.3.6在线的灵活性
8.3.7没有单点故障
8.4数据管理
8.4.1API
8.4.2CRUD操作
8.4.3多种更新操作
8.4.4查找操作
8.4.5事务
8.4.6可预测的性能
8.5集成
8.6安装和管理
8.6.1简单安装
8.6.2管理
8.7OracleNoSQL数据库的特性
8.8有用的链接
第III部分分析信息和制定决策
第9章数据库库内分析:快速交付彰显时间价值
9.1介绍
9.1.1Oracle数据库内分析
9.1.2为什么在数据库内运行如此重要
9.2Oracle数据挖掘和统计分析介绍
9.2.1Oracle库内高级分析
9.2.2Oracle数据挖掘
9.2.3R语言介绍
9.2.4文本挖掘
9.3库内统计函数
9.4空间分析
9.4.1理解空间数据模型
9.4.2查询空间数据模型
9.4.3使用空间分析
9.4.4让BI工具更聪明
9.5基于图形分析
9.5.1图形数据模型
9.5.2查询图形数据
9.6多维分析
9.7库内分析:综合范例
9.7.1在ETL过程中集成分析
9.7.2提供指导浏览
9.7.3提供混搭式分析
9.8总结
第10章使用R分析数据
第11章Endeca信息发现
第12章大数据治理
第13章大数据开发架构和路线图
精彩书摘
本书从Oracle的角度,介绍了与大数据相关的很多主题,包括Oracle大数据机(OracleBigDataAppliance)、大数据连接器(BigDataConnectors)、数据库云服务器(Exadata)、商务智能云服务器(Exalytics)、R、OracleNoSQL以及其他一些主题。大数据是一项新兴技术,本章将大篇幅讨论这种技术,特别是将系统集成到大数据的价值。本章是对本书其余部分的一个简单介绍,有关这些主题的更详细描述会贯穿全书。
1.1大数据
企业组织越来越需要分析信息来做出决策,以提高效率、利润和生产率。由于关系型数据库已经扩大了规模以满足这些要求,因此这些组织也发现可以使用其他技术来存储这些海量的信息。这些新系统通常被冠以“大数据”的帽子。
Gartner公司已经明确了大数据的三个主要特点:大数据量(Volume)、数据处理速度(Velocity)和多种数据类型(Variety)。传统的结构化系统在处理大数据量和数据处理速度上是高效的;然而,传统的系统对于处理各种非结构化数据源或半结构化数据源来说不是最有效的解决方案。大数据解决方案能够处理更多种类的不同类型的数据格式,这超出了传统事务型系统的处理能力。尽管大数据量(Volume)、数据处理速度(Velocity)和多种数据类型(Variety)的定义各不相同,但绝大多数对大数据的定义都关心信息的体量,这些信息量对于传统的系统来说很难处理——要么是数据量太大,要么是数据处理速度太快,要么是数据类型太复杂。
第4个V(即价值(Value))可能在讨论大数据的特性时也是非常有用的,因为非结构化数据源中的信息在孤立时价值可能是很低的,而传统的结构化系统中的信息在孤立时价值可能是很高的。非结构化信息可能是“低密度”的;也就是说,对它本身的单个的观察可能不会增加价值。然而,当这个数据被聚合时,它的价值趋势可能就体现出来了。
当然可以确定其他的V(真实性——Veracity等),但我们的分析将集中在这四个V上(大数据量、数据处理速度、多种数据类型和价值)。Web日志和应用程序日志经常被描述为大数据。数字视频和音乐、手持设备、互联网不断增长的需求使得被存储的数据量急剧增加。这些示例包括点击流数据、社交网络、基于位置服务的智能手机、Web服务器日志、仪器中的数据流、实时交易数据、博客和社交媒体(如Twitter和Facebook)。
我们的社会正变得越来越充斥着数字信息。如今,信息从卫星广播出并且通过无线电波、电缆、光纤网络以及其他方式传送。2004年,每月的上网流量超过1EB(exabyte),相当于1000PB(petabyte)。2011年,每月的上网流量超过27EB。EB是信息或计算机存储的单位,相当于一百万的三次方个字节。1KB(kilobyte)等于1000个字节。1MB(megabyte)等1000KB(kilobyte)。1GB(gigabyte)等于1000MB(megabyte)。1TB(terabyte)等于1000GB。1PB等于1000TB。1EB等于1000PB。
1.2谷歌的MapReduce算法和ApacheHadoop
在20世纪90年代后期,市场上有很多搜索引擎:AltaVista、微软Bing的一些前身、DirectHit、Inktomi、Yahoo和很多其他的搜索引擎。甚至还有一些元搜索引擎(如MetaCrawler),可以结合来自多个搜索引擎的搜索结果。大多数搜索引擎试图分析Web页面的文本意义,然后创建一个Web页面的索引,可以通过使用关键词进行搜索。有些搜索引擎是采用人工分析的目录,如Yahoo。
谷歌超越其在搜索引擎市场上的所有竞争对手,并成为搜索引擎的领导者。谷歌通过提供比其竞争对手更好的搜索结果而获得市场份额。世界上有数以百万计的网页,还有更多的网页正在被世界各地人们创建着。谷歌创始人认识到,在万维网上识别相关的文档,基于传统的方法是不够的。基于人工的目录不能随着Web的大小而任意扩展;甚至,雅虎不得不设计使用自动化的搜索引擎,为其目录结果提供
附加的搜索结果。然而,传统的自动化算法也是不够的。关注于关键词及一个特定的词在一个文档中出现的频率不足以为该文档提供理想的相关性分析。谷歌的创始人认识到,在20世纪90年代,大多数的超链接是由人工在创建或更新一个网页时创建的。一个超链接中的文本通常用来描述要链接的页面。谷歌创始人意识到这个文本会给他们提供一个网页的描述信息,以至于他们可以在搜索引擎中使用这种文本作为其网页的上下文。他们进一步认识到,由于这个原因他们并不需要在其搜索引擎上处理整个万维网;他们需要处理的全部事情就是超链接以及与超链接相关联的文本,从而可以显著地减少他们需要处理和存储的信息量。
谷歌产生的搜索结果比基于人工目录的(如Yahoo)或者是自动化的搜索引擎(如AltaVista)所产生的结果都更好。从某种意义上说,谷歌是第一个Web2.0应用,因为谷歌通过依赖其他
人如何描述Web页面的超链接来为他们的搜索引擎有效地建立网页的群包。随后,谷歌为将其搜索引擎扩展到迅猛增长的万维网,在搜索检索领域做了许多其他的创新。他们最重要的一个创新是如何扩展他们的搜索索引,以涵盖万维网上巨大规模的网页。谷歌发明了一项称为MapReduce的技术,他们在2004年发表的论文中描述了这项技术。后续章节将描述谷歌文件系统(GoogleFileSystem)、BigTable、Dremel、Spanner和其他一些先进的技术。
2006年,DougCutting正在研究ApacheLucene(一个开源的搜索引擎),他意识到需要一个与谷歌MapReduce技术提供的相类似的功能。然而,谷歌并没有把它的MapReduce技术提
供给其他人使用。因此,DougCutting开始研究一个开源的MapReduce工具,这项工作后来成为ApacheHadoop项目。Yahoo很快就认识到ApacheHadoop的价值,并聘请了DougCutting来引导他们在这个领域继续努力研发。Facebook、政府情报机构和其他组织也采用了ApacheHadoop。
在ApacheHadoop成功地作为一个开源项目提供MapReduce功能后,开源社区创建了基于谷歌其他研究论文的开源项目。这些项目包括HBase(基于BigTable)、Pig和Hive(基于
Sawzall)和Impala(基于Dremel)。
ApacheHadoop是一种技术,它是将在本书中大篇幅讨论的很多大数据技术的基础。目前,ApacheHadoop功能正用于以各种不同的方式来高效地、低成本和快速地存储信息,在
此之前这是不可能的。Hadoop不只局限于简单地对网络信息进行分析。现有的数据仓库基础设施能够继续提供分析功能,然而新的技术(如ApacheHadoop)可提
供用于处理信息的新功能。
ApacheHadoop包含两个主要组件:Hadoop分布式文件系统(HDFS),它是用于存储信息的分布式文件系统;以及MapReduce编程框架,它用于处理信息。Hadoop能并行处理大数据集,因为HDFS和MapReduce可以扩展到数千个节点。第3章中将对ApacheHadoop进行更详细的描述。
……
前言/序言
大数据包含很多种技术,因此本书所有的作者都精通各自负责的对应的Oracle大数据产品。该团队在架构设计、大数据、商务智能、Hadoop、Java、MapReduce和平台设计等方面都拥有丰富经验。下面详细介绍每个作者的具体信息。
TomPlunkett是多本书的主要作者,包括OracleExalogicElasticCloudHandbook。2009年,Tom带领一个团队为美国国防部办公室实施过一个大数据研究项目。2010年,Tom与其他人合作为弗吉尼亚理工大学的计算机科学系讲授了一学期的MapReduce和其他大数据主题的课程。2012年,Tom帮助Frederick国家癌症研究实验室(FrederickNationalLaboratoryforCancerResearch)凭借Oracle大数据一体机在分析基因与癌症亚型之间的关系上赢得多项行业大奖,包括2012年政府大数据解决方案奖(从80多个提名的大数据项目中脱颖而出),作为卓越创新者入围2013年政府卓越创新决赛,并获2013计算机世界创新奖。除了为Oracle工作外,Tom还担任弗吉尼亚理工大学计算机科学研究生的兼职讲师,并提供远程学习指导。Tom在大数据和云计算领域发表过40多次国际会议演讲。之前,Tom在IBM工作过并实施了FlieslerMeyer专利法。Tom拥有乔治·梅森大学(GeorgeMasonUniversity)的文学学士和法学博士学位、弗吉尼亚理工大学(VirginiaTech)计算机科学的理学硕士,并且已经参加学习了斯坦福大学(StanfordUniversity)管理科学与工程研究生课程(ManagementScienceandEngineering)。
Oracle大数据解决方案 [Oracle Big Data Handbook] 电子书 下载 mobi epub pdf txt