书籍详情
《Spark快速大数据分析+Hive编程指南+Hadoop权威指南 全3册 数据库设计 spark大数》[41M]百度网盘|亲测有效|pdf下载
  • Spark快速大数据分析+Hive编程指南+Hadoop权威指南 全3册 数据库设计 spark大数

  • 热度:8370
  • 上架时间:2024-06-30 08:52:20
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

  商品基本信息,请以下列介绍为准
商品名称:   Spark快速大数据分析+Hive编程指南+Hadoop权威指南 全3册
作者:   
市场价:    276.00
ISBN号:   

Hadoop权威指南:大数据的存储与分析    9787302465133

Hive编程指南    9787115333834

Spark快速大数据分析    9787115403094

出版社:    
商品类型:   图书


  内容简介

《Hadoop权威指南:大数据的存储与分析》

本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。

本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的.新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。

 

 

《Hive编程指南》

卡普廖洛、万普勒、卢森格林编著的《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。
    《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,***终演示Hive如何在Hadoop生态系统进行工作。
     《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。

 

《Spark快速大数据分析》

本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。


  目录

《Hadoop权威指南:大数据的存储与分析》

 

第Ⅰ部分  Hadoop基础知识

第1章  初识Hadoop    3

1.1  数据!数据!    3

1.2  数据的存储与分析    5

1.3  查询所有数据    6

1.4  不仅仅是批处理    7

1.5  相较于其他系统的优势    8

1.6  Apache Hadoop发展简史    12

1.7  本书包含的内容    16

第2章  关于MapReduce    19

2.1  气象数据集    19

2.2  使用Unix工具来分析数据    21

2.3  使用Hadoop来分析数据    22

2.4  横向扩展    31

2.5  Hadoop Streaming    37

第3章  Hadoop分布式文件系统    42

3.1  HDFS的设计    42

3.2  HDFS的概念    44

3.3  命令行接口    50

3.4  Hadoop文件系统    52

3.5  Java接口    56

3.6  数据流    68

3.7  通过distcp并行复制    76

第4章  关于YARN    78

4.1  剖析YARN应用运行机制    79

4.2  YARN与MapReduce 1相比    82

4.3  YARN中的调度    85

4.4  延伸阅读    95

第5章  Hadoop的I/O操作    96

5.1  数据完整性    96

5.2  压缩    99

5.3  序列化    109

5.4  基于文件的数据结构    127

第Ⅱ部分  关于MapReduce

第6章  MapReduce应用开发    141

6.1  用于配置的API    142

6.2  配置开发环境    144

6.3  用MRUnit来写单元测试    152

6.4  本地运行测试数据    156

6.5  在集群上运行    160

6.6  作业调优    174

6.7  MapReduce的工作流    176

第7章  MapReduce的工作机制    184

7.1  剖析MapReduce作业运行机制    184

7.2  失败    191

7.3  shuffle和排序    195

7.4  任务的执行    201

第8章  MapReduce的类型与格式    207

8.1  MapReduce的类型    207

8.2  输入格式    218

8.3  输出格式    236

第9章  MapReduce的特性    243

9.1  计数器    243

9.2  排序    252

9.3  连接    264

9.4  边数据分布    270

9.5  MapReduce库类    276

第Ⅲ部分  Hadoop的操作

第10章  构建Hadoop集群    279

第11章  管理Hadoop    314

第Ⅳ部分  Hadoop相关开源项目

第12章  关于Avro    341

第13章  关于Parquet    363

第14章  关于Flume    377

······

 

《Hive编程指南》

***章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.6 Hive命令
2.7 命令行界面
第3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式
第4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.4 分区表、管理表
4.5 删除表
4.6 修改表
第5章 HiveQL:数据操作
5.1 向管理表中装载数据
5.2 通过查询语句向表中插入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据
第6章 HiveQL:查询
6.1 SELECT…FROM语句
6.2 WHERE语句
6.3 GROUP BY 语句
6.4 JOIN语句
6.5 ORDER BY和SORT BY
6.6 含有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.10 UNION ALL
第7章 HiveQL:视图
7.1 使用视图来降低查询复杂度
7.2 使用视图来限制基于条件过滤的数据
7.3 动态分区中的视图和map类型
7.4 视图零零碎碎相关的事情
第8章 HiveQL:索引
8.1 创建索引
8.2 重建索引
8.3 显示索引
8.4 删除索引
8.5 实现一个定制化的索引处理器
第9章 模式设计
9.1 按天划分的表
9.2 关于分区
9.3 ***键和标准化
9.4 同一份数据多种处理
9.5 对于每个表的分区
9.6 分桶表数据存储
9.7 为表增加列
9.8 使用列存储表
9.9 (几乎)总是使用压缩
***0章 调优
10.1 使用EXPLAIN
10.2 EXPLAIN EXTENDED
10.3 限制调整
10.4 JOIN优化
10.5 本地模式
10.6 并行执行
10.7 严格模式
10.8 调整mapper和reducer个数
10.9 JVM重用
10.10 索引
10.11 动态分区调整
10.12 推测执行
10.13 单个MapReduce中多个GROUP BY
10.14 虚拟列
***1章 其他文件格式和压缩方法
***2章 开发
***3章 函数
***4章 Streaming
***5章 自定义Hive文件和记录格式
***6章 Hive的Thrift服务
***7章 存储处理程序和NoSQL
***8章 安全
***9章 锁
第20章 Hive和Oozie整合
第21章 Hive和***网络服务系统(AWS)
第22章 HCatalog
第23章 案例研究
术语词汇表

......


 

《Spark快速大数据分析》

推荐序 xi
译者序 xiv
序 xvi
前言 xvii
第1章 Spark数据分析导论 1
1.1 Spark是什么 1
1.2 一个大一统的软件栈 2
1.3 Spark的用户和用途 4
1.4 Spark简史 5
1.5 Spark的版本和发布 6
1.6 Spark的存储层次 6
第2章 Spark下载与入门 7
2.1 下载Spark 7
2.2 Spark中Python和Scala的shell 9
2.3 Spark 核心概念简介 12
2.4 独立应用 14
2.5 总结 19
第3章 RDD编程 21
3.1 RDD基础 21
3.2 创建RDD 23
3.3 RDD操作 24
3.4 向Spark传递函数 27
3.5 常见的转化操作和行动操作 30
3.6 持久化( 缓存) 39
3.7 总结 40
第4章 键值对操作 41
4.1 动机 41
4.2 创建Pair RDD 42
4.3 Pair RDD的转化操作 42
4.4 Pair RDD的行动操作 52
4.5 数据分区(进阶) 52
4.6 总结 61
第5章 数据读取与保存 63
5.1 动机 63
5.2 文件格式 64
5.3 文件系统 78
5.5 数据库 81
5.6 总结 86
第6章 Spark编程进阶 87
6.1 简介 87
6.2 累加器 88
6.3 广播变量 91
6.4 基于分区进行操作 94
6.5 与外部程序间的管道 96
6.6 数值RDD 的操作 99
6.7 总结 100
第7章 在集群上运行Spark 101
第8章 Spark调优与调试 123
第9章 Spark SQL 141
第10章 Spark Streaming 161
第11章 基于MLlib的机器学习 187
作者简介 210
封面介绍 210

  作者简介

《Hadoop权威指南:大数据的存储与分析》

Tom White是.杰出的Hadoop专家之一。自2007年2月以来,Tom White一直是Apache Hadoop的提交者(committer),也是Apache软件基金会的成员。Tom是Cloudera的软件工程师,他是Cloudera的首批员工,对Apache和Cloudera做出了举足轻重的贡献。在此之前,他是一名独立的Hadoop顾问,帮助公司搭建、使用和扩展Hadoop。他是很多行业大会的专题演讲人,比如ApacheCon、OSCON和Strata。Tom在英国剑桥大学获得数学学士学位,在利兹大学获得科学哲学硕士学位。他目前与家人居住在威尔士。

 

《Hive编程指南》

Edward Capriolo,Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop—Hive项目成员。 Dean Wampler,Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。 Jason Rutherglen,Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。

 

《Spark快速大数据分析》

Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。