本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
|
第Ⅰ部分 Hadoop基础知识
第1章 初识Hadoop 3
1.1 数据!数据! 3
1.2 数据的存储与分析 5
1.3 查询所有数据 6
1.4 不仅仅是批处理 7
1.5 相较于其他的优势 8
1.5.1 关系型数据库管理 8
1.5.2 网格计算 10
1.5.3 志愿计算 11
1.6 Apache Hadoop发展简史 12
1.7 本书包含的内容 16
第2章 关于MapReduce 19
2.1 气象数据集 19
2.2 使用Unix工具来分析数据 21
2.3 使用Hadoop来分析数据 22
2.3.1 map和reduce 23
2.3.2 Java MapReduce 24
2.4 横向扩展 31
2.4.1 数据流 31
2.4.2 combiner函数 35
2.4.3 运行分布式的
MapReduce作业 37
2.5 Hadoop Streaming 37
2.5.1 Ruby版本 38
2.5.2 Python版本 40
第3章 Hadoop分布式文件 42
3.1 HDFS的设计 42
3.2 HDFS的概念 44
3.2.1 数据块 44
3.2.2 namenode和datanode 45
3.2.3 块缓存 46
3.2.4 联邦HDFS 47
3.2.5 HDFS的高可用性 47
3.3 命令行接口 50
3.4 Hadoop文件 52
3.5 Java接口 56
3.5.1 从Hadoop URL读取
数据 56
3.5.2 通过FileSystem API
读取数据 58
3.5.3 写入数据 61
3.5.4 目录 63
3.5.5 查询文件 63
3.5.6 删除数据 68
3.6 数据流 68
3.6.1 剖析文件读取 68
3.6.2 剖析文件写入 71
3.6.3 一致模型 74
3.7 通过distcp并行复制 76
第4章 关于YARN 78
4.1 剖析YARN应用运行机制 79
4.1.1 资源请求 80
4.1.2 应用生命期 81
4.1.3 构建YARN应用 81
4.2 YARN与MapReduce 1相比 82
4.3 YARN中的调度 85
4.3.1 调度选项 85
4.3.2 容量调度器配置 87
4.3.3 公平调度器配置 89
4.3.5 调度 93
4.3.5 主导资源公平性 94
4.4 延伸阅读 95
第5章 Hadoop的I/O操作 96
5.1 数据完整性 96
5.1.1 HDFS的数据完整性 97
5.1.2 LocalFileSystem 98
5.1.3 ChecksumFileSystem 98
5.2 压缩 99
5.2.1 codec 100
5.2.2 压缩和输入分片 105
5.2.3 在MapReduce中使用
压缩 106
5.3 序列化 109
5.3.1 Writable接口 110
5.3.2 Writable类 112
5.3.3 实现定制的Writable
集合 121
5.3.4 序列化框架 125
5.4 基于文件的数据结构 127
5.4.1 关于SequenceFile 127
5.4.2 关于MapFile 135
5.4.3 其他文件格式和
面向列的格式 136
第Ⅱ部分 关于MapReduce
第6章 MapReduce应用开发 141
6.1 用于配置的API 142
6.1.1 资源合并 143
6.1.2 变量扩展 144
6.2 配置开发环境 144
6.2.1 管理配置 146
6.2.2 辅助类GenericOptionsParser,
Tool和ToolRunner 149
6.3 用MRUnit来写单元测试 152
6.3.1 关于Mapper 152
6.3.2 关于Reducer 156
6.4 本地运行测试数据 156
6.4.1 在本地作业运行器上
运行作业 156
6.4.2 测试驱动程序 158
6.5 在集群上运行 160
6.5.1 打包作业 160
6.5.2 启动作业 162
6.5.3 MapReduce的Web
界面 165
6.5.4 获取结果