书籍详情
《大数据技术和应用 HDFS分布式文件NoSQL等各种数据库、数据仓库Hive 数据采集分析技术书》[36M]百度网盘|亲测有效|pdf下载
  • 大数据技术和应用 HDFS分布式文件NoSQL等各种数据库、数据仓库Hive 数据采集分析技术书

  • 热度:9388
  • 上架时间:2024-06-30 08:52:20
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

 书名:  大数据技术和应用(大数据人才培养丛书)
 出版社:  清华大学出版社
 出版日期  2019
 ISBN号:  9787302542193

这是一本大数据技术入门的简明教材。全书理论和实践相结合,以应用实战为主,深入浅出地讲解每个知识点,对每个应用实验按学习习惯,分步骤讲解,每个步骤都有文字说明和效果截图,使读者能清晰地知晓动手实操的效果和之处。
全书分为9章,全面介绍了大数据技术的相关基础知识、HDFS和数据库、采集传输工具、挖掘分析算法、Spark计算框架、可视化、大数据安全、大数据应用等内容,着重介绍了HDFS分布式文件、NoSQL等各种数据库、数据仓库Hive,以及数据采集分析技术,并配套了详细的实验教程以及练习题。
本书适合作为高等院校计算机、软件工程、大数据高职、本科生的教材,同时可供企业中从事大数据开发的工程师和科技工作者参考。

陈建平,讲师,技术总监,10年相关项目经历。长期从事大数据相关研究分析工作,曾担任IBM(上海)数据分析经理。

以Hadoop、Spark两大生态为基础,以大数据背景、软件、采集、存储、处理、分析、可视化、安全以及应用为线索,结合Flume、Sqoop、HDFS、HBase、Kafka、Kylin、Hive、Redis、MongoDB等主要组件技术,详解大数据技术基础。

第1章  了解大数据    1
1.1  大数据处理的基础技术    1
1.1.1  大数据相关概念    1
1.1.2  大数据处理流程    2
1.1.3  大数据处理基础技术    3
1.2  主流大数据技术    6
1.2.1  主流大数据技术各阶段    6
1.2.2  Hadoop生态    6
1.2.3  Hadoop核心组件简介    7
1.3  大数据平台解决方案    8
1.3.1  Cloudera    8
1.3.2  Hortonworks    8
1.3.3  MapR    9
1.3.4  FusionInsight    9
1.3.5  Transwarp Data Hub    10
1.4  大数据发展现状和趋势    11
1.4.1  大数据市场规模    11
1.4.2  国内大数据发展面临的问题    11
1.4.3  大数据发展趋势    11
1.5  习题    12
第2章  大数据基础软件    14
2.1  Linux基础介绍    14
2.1.1  用户和用户组管理    14
2.1.2  文件和目录操作    19
2.1.3  文本编辑器    23
2.2  Java基础介绍    25
2.2.1  Java基础    25
2.2.2  编程开发    29
2.2.3  Java开发环境配置    29
2.3  SQL语言基础介绍    32
2.3.1  数据库基础    32
2.3.2  SQL简介    34
2.3.3  SQL语法    34
2.3.4  SQL基础语法    36
2.4  实验一:在Linux中安装和使用Java    38
2.4.1  本实验目标    38
2.4.2  本实验知识点    38
2.4.3  项目实施过程    39
2.4.4  常见问题    45
2.5  实验二:在Linux中安装和使用MySQL    46
2.5.1  本实验目标    46
2.5.2  本实验知识点    46
2.5.3  项目实施过程    47
2.5.4  常见问题    54
2.6  习题    55
第3章  大数据采集    59
3.1  大数据采集技术介绍    59
3.2  常见采集工具和厂商    60
3.2.1  搜索引擎查看    60
3.2.2  工具分类    61
3.3  八爪鱼采集器介绍    63
3.3.1  八爪鱼采集原理    63
3.3.2  八爪鱼实现的功能    63
3.4  爬山虎采集器介绍    65
3.4.1  爬山虎介绍    65
3.4.2  产品特点和核心技术    65
3.4.3  软件界面    66
3.5  流数据采集工具Flume    68
3.5.1  Flume背景    68
3.5.2  Flume NG基本架构    68
3.5.3  Flume案例分析    70
3.6  数据传输工具Sqoop介绍    73
3.6.1  Sqoop工具介绍    73
3.6.2  Sqoop2特性    74
3.6.3  Sqoop案例    76
3.6.4  Sqoop问题集    77
3.7  实验三:Sqoop的安装配置及使用    78
3.7.1  本实验目标    78
3.7.2  本实验知识点    79
3.7.3  项目实施过程    79
3.7.4  常见问题    87
3.8  实验四:Kafka的安装、配置及使用    90
3.8.1  本实验目标    90
3.8.2  本实验知识点    90
3.8.3  项目实施过程    91
3.8.4  常见问题    97
第4章  大数据存储    99
4.1  数据库和数据仓库    99
4.1.1  数据库类型简介    99
4.1.2  数据仓库介绍    101
4.2  分布式文件HDFS    103
4.2.1  HDFS介绍    103
4.2.2  HDFS体系结构    106
4.3  分布式分析引擎Kylin介绍    108
4.3.1  Kylin简介    108
4.3.2  Kylin基本原理和架构    109
4.3.3  Kylin的新特性    114
4.4  大数据仓库Hive    115
4.4.1  Hive简介    115
4.4.2  Hive体系结构    116
4.4.3  Hive数据存储模型    118
4.4.4  Hive应用场景    121
4.5  NoSQL数据库    122
4.5.1  NoSQL简介    122
4.5.2  NoSQL在架构中的应用    125
4.6  键-值存储数据库Memcached、Redis    128
4.6.1  Redis基本介绍    128
4.6.2  Redis命令总结    128
4.7  面向文档数据库MongoDB介绍    130
4.7.1  MongoDB简介    130
4.7.2  MongoDB深入剖析    131
4.8  实验五:Hadoop的安装、配置及HDFS使用    133
4.8.1  本实验目标    133
4.8.2  本实验知识点    133
4.8.3  项目实施过程    133
4.8.4  常见问题    147
4.9  实验六:Redis数据库的安装与使用    148
4.9.1  本实验目标    148
4.9.2  本实验知识点    148
4.9.3  项目实施过程    148
4.9.4  常用命令及配置文件介绍    154
4.10  实验七:HBase的安装和配置    158
4.10.1  本实验目标    158
4.10.2  本实验知识点    159
4.10.3  项目实施过程    159
4.10.4  常见问题    165
4.11  习题    167
第5章  Spark内存计算框架    170
5.1  Spark简介    170
5.2  Spark技术原理    173
5.2.1  Spark与Hadoop的对比    173
5.2.2  Spark运行架构    175
5.2.3  RDD基本概念    177
5.3  Spark SQL介绍    181
5.4  Spark Streaming实时处理技术    183
5.5  Spark MLlib数据挖掘库    184
5.5.1  机器学习定义    184
5.5.2  Spark MLlib的优势    187
5.5.3  Spark MLlib支持的机器学习类型    187
5.6  Spark GraphX图处理技术    188
5.7  Spark编程实例    190
第6章  大数据分析挖掘    194
6.1  大数据分析概述    194
6.1.1  数据分析与数据挖掘的区别    194
6.1.2  常见数据分析挖掘工具    195
6.1.3  数据挖掘十大算法介绍    197
6.2  分类算法概述    199
6.2.1  分类预测常见算法    199
6.2.2  分类预测实现过程    199
6.3  决策树算法介绍    201
6.3.1  决策树的定义    201
6.3.2  决策树的优缺点    202
6.3.3  决策树的发展    202
6.3.4  决策树的构造流程    202
6.3.5  决策树的相关指标    203
6.3.6  常见决策树算法    204
6.4 算法介绍    208
6.4.1  常用算法介绍    208
6.4.2  主要方法对比    210
6.5  Apriori算法介绍    211
6.5.1  Apriori算法    211
6.5.2  频繁项集的评估标准    211
6.5.3  Apriori算法思想    212
6.5.4  Apriori算法流程    213
6.5.5  Apriori算法小结    214
第7章  大数据可视化    215
7.1  大数据可视化概述    215
7.1.1  数据可视化概述    215
7.1.2  数据可视化流程    216
7.1.3  数据可视化展现形式    217
7.2  大数据可视化工具概述    229
7.3  Tableau大数据可视化技术简介    230
7.4  Power BI大数据可视化技术简介    231
7.5  实验八:ECharts的安装与使用    232
7.5.1  本实验目标    232
7.5.2  本实验知识点    232
7.5.3  项目实施过程    232
7.5.4  常见问题    243
第8章  大数据安全    246
8.1  大数据安全的挑战与对策    246
8.2  数据管理安全    248
8.3  数据安全分析    250
第9章  大数据应用    253
9.1  企业大数据应用    253
9.1.1  中国企业大数据现状    253
9.1.2  企业大数据应用需求    254
9.2  互联网大数据    256
9.2.1  互联网行业拥有大数据的关键因素    256
9.2.2  大数据方案后的价值体现    256
9.3  零售大数据    258
9.4 大数据    262
9.5  大数据未来展望    263
9.6  大数据和云计算的关系    265
9.6.1  云计算的特征    265
9.6.2  云计算与大数据的关系    265
9.6.3  云计算及其分布式结构是重要途径    266
9.6.4  云数据库的必然    267
9.6.5  云数据库需满足的要求    267
9.6.6  云计算能为大数据带来的变化    268
参考文献    269

当前,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发

展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来的隐患,但是

随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得

更为深刻、全面的洞察能力提供了的空间与潜力。
大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,

以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
大数据作为典型的“新工科”,在课程体系建设方面还处于摸索阶段,没有太多可供借鉴的现成经验,需要一大批热爱教学

的高等学校教师积极投身课程体系和教材建设工作中,共同推动全国高等学校大数据教学工作不断向前发展。
关于本书
本书定位为大数据从入门到应用的简明教材,特色是理论和实践相结合,更多的是以应用实战为主,内容全面、深入浅出地讲解

了每个知识点,通俗易懂。对每个实验基本是按照学习的习惯,分步骤式地讲述,每个步骤都有文字说明和效果截图,使得读者能很

清晰地知晓自己在动手实操过程的效果和之处,一目了然。
本书使用Apache原生态的Hadoop环境,包括关系型数据库MySQL、分布式文件HDFS、非结构化数据库HBase、数据接入工具Kafka

等组件。在撰写过程中,参考了大量网络的资料,百度、谷歌、知乎、CSDN等知名网站,阅读了多种大数据相关方面的文献,对比了

各自介绍文章的优势和不足。
本书分为9章,第1章着重介绍大数据的基础应用和发展趋势;第2章着重介绍大数据开发所需的技术基础,包括Linux、Java、SQL等

;第3章着重介绍常见的数据采集器以及采集工具Flume和传输工具Sqoop;第4章着重介绍大数据存储相关的HDFS和NoSQL、Redis、

MongoDB、Neo4j等数据库;第5章着重介绍数据仓库Hive和大数据挖掘分析算法及应用;第6章着重介绍了Spark计算框架的原理机制

和处理技术;第7章着重介绍了大数据可视化原理和Tebleau、Power BI等工具;第8章分析了大数据技术目前所面临的安全挑战及其

对策;第9章对大数据技术的应用和发展做出了展望。全书提供了与章节学习内容配套的实验,重点章节配有习题。
本书适合的读者
本书是大数据技术的基础用书,适合作为中职、高职、应用型本科的前导课程,在整个人才培养方案里面属于大数据的基础课程

部分,建议授课时间为第2学期或者第3学期。
本书同时也适合大数据的初学者,对大数据感兴趣的技术人员,以及想从事大数据开发工作的初学者。
阅读本书之前,读者应该具有如下基础:有一定计算机网络基础知识;了解 Linux基本原理;懂得基本的Linux操作命令;对Java语

言有一定了解;了解传统的数据库的理论知识。
联系方式与资源下载
大数据技术的发展非常快速,在今后的工作中,笔者以及德明教育会持续跟踪大数据的发展趋势,把大数据新的技术和本书相关补

充资料及时发布到官网,方便本书读者通过网络及时获取到相关信息。由于笔者能力有限,书中难免存在不足之处,望广大读者能够

提出宝贵意见。
本书是完整的学校指导用书,配套资源包括课程标准、课程大纲、教学日历、教学课件PPT、实训手册、习题题目和答案、期末考试

卷和答案、实验环境、教学的微课、实验的视频,非常方便各高校教师的授课,相关的配套资源会在德明教育官网持续更新,欢迎大

家在线查看和下载。网页地址二维码如下:



陈建平
2020年1月



清华大学出版社官方旗舰店

^_^:0bc0475fcf5e671b30a49a86cacbc8a2