书籍详情
《本 hadoop指南第版+hive编程指南+spark快速大数据分析软件工程数据库spark机器学习》[39M]百度网盘|亲测有效|pdf下载
  • 本 hadoop指南第版+hive编程指南+spark快速大数据分析软件工程数据库spark机器学习

  • 热度:8248
  • 上架时间:2024-06-30 08:52:20
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

     
 
大数据技术
大促价:
54.6
价格
69.00
折扣
7.91折
节省
¥14.4
活动: 229 23 : 58 :
     

商品参数


目录

第Ⅰ部分  Hadoop基础知识

第1章  初识Hadoop    3

1.1  数据!数据!    3

1.2  数据的存储与分析    5

1.3  查询所有数据    6

1.4  不仅仅是批处理    7

1.5  相较于其他的优势    8

1.5.1  关系型数据库管理    8

1.5.2  网格计算    10

1.5.3  志愿计算    11

1.6  Apache Hadoop发展简史    12

1.7  本书包含的内容    16

第2章  关于MapReduce    19

2.1  气象数据集    19

2.2  使用Unix工具来分析数据    21

2.3  使用Hadoop来分析数据    22

2.3.1  map和reduce    23

2.3.2  Java MapReduce    24

2.4  横向扩展    31

2.4.1  数据流    31

2.4.2  combiner函数    35

2.4.3  运行分布式的

MapReduce作业    37

2.5  Hadoop Streaming    37

2.5.1  Ruby版本    38

2.5.2  Python版本    40

第3章  Hadoop分布式文件    42

3.1  HDFS的设计    42

3.2  HDFS的概念    44

3.2.1  数据块    44

 

3.2.2  namenode和datanode    45

3.2.3  块缓存    46

3.2.4  联邦HDFS    47

3.2.5  HDFS的高可用性    47

3.3  命令行接口    50

3.4  Hadoop文件    52

3.5  Java接口    56

3.5.1  从Hadoop URL读取

数据    56

3.5.2  通过FileSystem API

读取数据    58

3.5.3  写入数据    61

3.5.4  目录    63

3.5.5  查询文件    63

3.5.6  删除数据    68

3.6  数据流    68

3.6.1  剖析文件读取    68

3.6.2  剖析文件写入    71

3.6.3  一致模型    74

3.7  通过distcp并行复制    76

第4章  关于YARN    78

4.1  剖析YARN应用运行机制    79

4.1.1  资源请求    80

4.1.2  应用生命期    81

4.1.3  构建YARN应用    81

4.2  YARN与MapReduce 1相比    82

4.3  YARN中的调度    85

4.3.1  调度选项    85

4.3.2  容量调度器配置    87

4.3.3  公平调度器配置    89

4.3.5  调度    93

4.3.5  主导资源公平性    94

4.4  延伸阅读    95

第5章  Hadoop的I/O操作    96

5.1  数据完整性    96

5.1.1  HDFS的数据完整性    97

5.1.2  LocalFileSystem    98

5.1.3  ChecksumFileSystem    98

5.2  压缩    99

5.2.1  codec    100

5.2.2  压缩和输入分片    105

 

5.2.3  在MapReduce中使用

压缩    106

5.3  序列化    109

5.3.1  Writable接口    110

5.3.2  Writable类    112

5.3.3  实现定制的Writable

集合    121

5.3.4  序列化框架    125

5.4  基于文件的数据结构    127

5.4.1  关于SequenceFile    127

5.4.2  关于MapFile    135

5.4.3  其他文件格式和

面向列的格式    136

 

第Ⅱ部分  关于MapReduce

 

第6章  MapReduce应用开发    141

6.1  用于配置的API    142

6.1.1  资源合并    143

6.1.2  变量扩展    144

6.2  配置开发环境    144

6.2.1  管理配置    146

6.2.2  辅助类GenericOptionsParser,

Tool和ToolRunner    149

6.3  用MRUnit来写单元测试    152

6.3.1  关于Mapper    152

6.3.2  关于Reducer    156

6.4  本地运行测试数据    156

6.4.1  在本地作业运行器上

运行作业    156

6.4.2  测试驱动程序    158

6.5  在集群上运行    160

6.5.1  打包作业    160

6.5.2  启动作业    162

6.5.3  MapReduce的Web

界面    165

6.5.4  获取结果   

联系我们:ebook666@outlook.com