本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | Spark快速大数据分析+Hive编程指南+Hadoop权威指南 全3册 |
作者: | |
市场价: | 276.00 |
ISBN号: | Hadoop权威指南:大数据的存储与分析 9787302465133 Hive编程指南 9787115333834 Spark快速大数据分析 9787115403094 |
出版社: | |
商品类型: | 图书 |
内容简介 | |
《Hadoop权威指南:大数据的存储与分析》 本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的.新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。
《Hive编程指南》 卡普廖洛、万普勒、卢森格林编著的《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。
《Spark快速大数据分析》 本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。 |
目录 | |
《Hadoop权威指南:大数据的存储与分析》
第Ⅰ部分 Hadoop基础知识 第1章 初识Hadoop 3 1.1 数据!数据! 3 1.2 数据的存储与分析 5 1.3 查询所有数据 6 1.4 不仅仅是批处理 7 1.5 相较于其他系统的优势 8 1.6 Apache Hadoop发展简史 12 1.7 本书包含的内容 16 第2章 关于MapReduce 19 2.1 气象数据集 19 2.2 使用Unix工具来分析数据 21 2.3 使用Hadoop来分析数据 22 2.4 横向扩展 31 2.5 Hadoop Streaming 37 第3章 Hadoop分布式文件系统 42 3.1 HDFS的设计 42 3.2 HDFS的概念 44 3.3 命令行接口 50 3.4 Hadoop文件系统 52 3.5 Java接口 56 3.6 数据流 68 3.7 通过distcp并行复制 76 第4章 关于YARN 78 4.1 剖析YARN应用运行机制 79 4.2 YARN与MapReduce 1相比 82 4.3 YARN中的调度 85 4.4 延伸阅读 95 第5章 Hadoop的I/O操作 96 5.1 数据完整性 96 5.2 压缩 99 5.3 序列化 109 5.4 基于文件的数据结构 127 第Ⅱ部分 关于MapReduce 第6章 MapReduce应用开发 141 6.1 用于配置的API 142 6.2 配置开发环境 144 6.3 用MRUnit来写单元测试 152 6.4 本地运行测试数据 156 6.5 在集群上运行 160 6.6 作业调优 174 6.7 MapReduce的工作流 176 第7章 MapReduce的工作机制 184 7.1 剖析MapReduce作业运行机制 184 7.2 失败 191 7.3 shuffle和排序 195 7.4 任务的执行 201 第8章 MapReduce的类型与格式 207 8.1 MapReduce的类型 207 8.2 输入格式 218 8.3 输出格式 236 第9章 MapReduce的特性 243 9.1 计数器 243 9.2 排序 252 9.3 连接 264 9.4 边数据分布 270 9.5 MapReduce库类 276 第Ⅲ部分 Hadoop的操作 第10章 构建Hadoop集群 279 第11章 管理Hadoop 314 第Ⅳ部分 Hadoop相关开源项目 第12章 关于Avro 341 第13章 关于Parquet 363 第14章 关于Flume 377 ······
《Hive编程指南》 ***章 基础知识 ......
《Spark快速大数据分析》 推荐序 xi译者序 xiv 序 xvi 前言 xvii 第1章 Spark数据分析导论 1 1.1 Spark是什么 1 1.2 一个大一统的软件栈 2 1.3 Spark的用户和用途 4 1.4 Spark简史 5 1.5 Spark的版本和发布 6 1.6 Spark的存储层次 6 第2章 Spark下载与入门 7 2.1 下载Spark 7 2.2 Spark中Python和Scala的shell 9 2.3 Spark 核心概念简介 12 2.4 独立应用 14 2.5 总结 19 第3章 RDD编程 21 3.1 RDD基础 21 3.2 创建RDD 23 3.3 RDD操作 24 3.4 向Spark传递函数 27 3.5 常见的转化操作和行动操作 30 3.6 持久化( 缓存) 39 3.7 总结 40 第4章 键值对操作 41 4.1 动机 41 4.2 创建Pair RDD 42 4.3 Pair RDD的转化操作 42 4.4 Pair RDD的行动操作 52 4.5 数据分区(进阶) 52 4.6 总结 61 第5章 数据读取与保存 63 5.1 动机 63 5.2 文件格式 64 5.3 文件系统 78 5.5 数据库 81 5.6 总结 86 第6章 Spark编程进阶 87 6.1 简介 87 6.2 累加器 88 6.3 广播变量 91 6.4 基于分区进行操作 94 6.5 与外部程序间的管道 96 6.6 数值RDD 的操作 99 6.7 总结 100 第7章 在集群上运行Spark 101 第8章 Spark调优与调试 123 第9章 Spark SQL 141 第10章 Spark Streaming 161 第11章 基于MLlib的机器学习 187 作者简介 210 封面介绍 210 |
作者简介 | |
《Hadoop权威指南:大数据的存储与分析》 Tom White是.杰出的Hadoop专家之一。自2007年2月以来,Tom White一直是Apache Hadoop的提交者(committer),也是Apache软件基金会的成员。Tom是Cloudera的软件工程师,他是Cloudera的首批员工,对Apache和Cloudera做出了举足轻重的贡献。在此之前,他是一名独立的Hadoop顾问,帮助公司搭建、使用和扩展Hadoop。他是很多行业大会的专题演讲人,比如ApacheCon、OSCON和Strata。Tom在英国剑桥大学获得数学学士学位,在利兹大学获得科学哲学硕士学位。他目前与家人居住在威尔士。
《Hive编程指南》 Edward Capriolo,Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop—Hive项目成员。 Dean Wampler,Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。 Jason Rutherglen,Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。
《Spark快速大数据分析》 Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。 Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。 Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。 |