本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
适读人群 :这本书面向了解Java基础知识并且想使用Hadoop和Spark 开发MapReduce 算法(数据挖掘、机器学习、生物信息技术、基因组和统计领域)和解决方案的软件工程师、软件架构师、数据科学家和应用开发人员。
市面上N0.1本关于Hadoop与Spark大数据处理技巧的教程,提供了丰富的算法和工具。
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成DNA和RNA测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■算法和成对文档相似性。 ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 ■ 等位基因频率和DNA挖掘。 ■ 社交网络分析(、三角形计数和情感分析)。
《高性能MySQL(第3版)》是MySQL 领域的经典之作,拥有广泛的影响力。第3 版更新了大量的内容,不但涵盖了MySQL5.5版本的新特性,也讲述了关于固态盘、高可扩展性设计和云计算环境下的数据库相关的新内容,原有的基准测试和性能优化部分也做了大量的扩展和补充。全书共分为16章和6 个附录,内容涵盖MySQL架构和历史,基准测试和性能剖析,数据库软硬件性能优化,复制、备份和恢复,高可用与高可扩展性,以及云端的MySQL和MySQL相关工具等方面的内容。每一章都是相对独立的主题,读者可以有选择性地单独阅读。 《高性能MySQL(第3版)》不但适合数据库管理员(DBA)阅读,也适合开发人员参考学习。不管是数据库新手还是专家,相信都能从本书有所收获。
序
前言
第1章 MySQL 架构与历史
1.1 MySQL 逻辑架构
1.1.1 连接管理与安全性
1.1.2 优化与执行
1.2 并发控制
1.2.1 读写锁
1.2.2 锁粒度
1.3 事务
1.3.1 隔离级别
1.3.2 死锁
1.3.3 事务日志
1.3.4 MySQL 中的事务
1.4 多版本并发控制
1.5 MySQL 的存储引擎
1.5.1 InnoDB 存储引擎
1.5.2 MyISAM 存储引擎
1.5.3 MySQL 内建的其他存储引擎
1.5.4 第三方存储引擎
1.5.5 选择合适的引擎
1.5.6 转换表的引擎
1.6 MySQL 时间线(Timeline)
1.7 MySQL 的开发模式
1.8 总结
第2章 MySQL 基准测试
2.1 为什么需要基准测试
2.2 基准测试的策略
2.2.1 测试何种指标
2.3 基准测试方法
2.3.1 设计和规划基准测试
2.3.2 基准测试应该运行多长时间
2.3.3 获取性能和状态
........
本书结合理论和实践,由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。全书5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例,分别来自卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce 的数据处理API)。本书是一本、全面的Hadoop 参考书和工具书,阐述了Hadoop 生态圈的新发展和应用,程序员可以从中探海量数据集的存储和分析,管理员可以从中了解Hadoop 集群的安装和运维。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。
本书是一本、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的新发展和应用,程序员可以从中探海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。
内容简介 | |||
目录简介 | |||
1.1 海量数据的黎明 1 1.2 关系数据库的问题 5 1.3 非关系型数据库Not-Only-SQL(简称NoSQL) 7 1.3.1 维度 9 1.3.2 可扩展性 12 1.3.3 数据库的范式化和反范式化 12 1.4 结构 15 1.4.1 背景 15 1.4.2 表、行、列和单元格 16 1.4.3 自动分区 20 1.4.4 存储API 21 1.4.5 实现 22 1.4.6 小结 25 1.5 HBase:Hadoop数据库 25 1.5.1 历史 26 1.5.2 命名 27 1.5.3 小结 27 第2章 安装 28 2.1 快速启动指南 28 2.2条件 31 2.2.1 硬件 31 2.2.2 软件 37 2.3 HBase使用的文件 47 2.3.1 本地模式 48 2.3.2 HDFS 49 2.3.3 S3 49 2.3.4 其他文件 50 2.4 安装选项 50 2.4.1 Apache二进制发布包 50 2.4.2 编译源码 52 2.5 运行模式 53 2.5.1 单机模式 53 2.5.2 分布式模式 53 2.6 配置 57 |
每个应用程序都会产生数据,包括日志消息、度量指标、用户活动记录、响应消息等。如何移动数据,几乎变得与数据本身一样重要。如果你是架构师、开发者或者产品工程师,同时也是Apache Kafka新手,那么这本实践指南将会帮助你成为流式平台上处理实时数据的专家。
本书由出身于LinkedIn的Kafka核心作者和一线技术人员共同执笔,详细介绍了如何部署Kafka集群、开发可靠的基于事件驱动的微服务,以及基于Kafka平台构建可伸缩的流式应用程序。通过详尽示例,你将会了解到Kafka的设计原则、可靠性保证、关键API,以及复制协议、控制器和存储层等架构细节。
● 了解发布和订阅消息模型以及该模型如何被应用在大数据生态中
● 学习使用Kafka生产者和消费者来生成消息和读取消息
● 了解Kafka保证可靠性数据传递的模式和场景需求
● 使用Kafka构建数据管道和应用程序的zuijia实践
● 在生产环境中管理Kafka,包括监控、调优和维护
● 了解Kafka的关键度量指标
● 探Kafka如何成为流式处理利器
本书是关于Kafka的全面教程,主要内容包括:Kafka相对于其他消息队列的优点,主要是它如何匹配大数据平台开发;详解Kafka内部设计;用Kafka构建应用的zuijia实践;理解在生产中部署Kafka的zuijia方式;如何确保Kafka集群的安全。
《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述, 终演示Hive如何在Hadoop生态进行工作。
《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop的数据库管理员阅读使用。
Edward Capriolo:Media6degrees公司管理员,他是Apache软件基金会成员,还是Hadoop-Hive项目成员。
Dean Wampler:Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。
Jason Rutherglen:Think Big Analytics公司软件架构师,对大数据、Hadoop、搜和安全有专门的研究。
市场中**本Hive图书。 Hive在Hadoop中的应用趋势比较可观。
dy 章 基础知识
1.1 Hadoop和MapReduce综述 1.2 Hadoop生态中的Hive 1.2.1 Pig 1.2.2 HBase 1.2.3 Cascading、Crunch及其他 1.3 Java和Hive:词频统计算法 1.4 后续事情
第2章 基础 作 2.1 安装预先配置好的虚拟机 2.2 安装详细步骤 2.2.1 装Java 2.2.2 安装Hadoop 2.2.3 本地模式、伪分布式模式和分布式模式 2.2.4 测试Hadoop 2.2.5 安装Hive 2.3 Hive内部是什么 2.4 启动Hive 2.5 配置Hadoop环境 2.5.1 本地模式配置 2.5.2 分布式模式和伪分布式模式配置 2.5.3 使用JDBC连接元数据 2.6 Hive命令 2.7 命令行界面 2.7.1 CLI 选项 2.7.2 变量和属性