大数据Hive离线计算开发实战pdf下载

大数据Hive离线计算开发实战百度网盘pdf下载

作者:
简介:大数据Hive离线计算开发实战
出版社:
出版时间:2020-06
pdf下载价格:9.00¥


预览


内容介绍

内容提要:
        本书从数据处理平台数据库和数据仓库入手,帮助读者逐步搭建大数据Hive数据仓库平台,并介绍了这种传统数据分析方法在大数据平台成功应用的典型案例。本书通过对Hive数据定义语言、Hive数据操纵语言、Hive数据基本查询、Hive数据复杂查询的详细介绍,全面阐述了Hive大数据平台工具的应用与开发。另外,还介绍了Hive数据库对象、用户自定义函数以及Azkaban工作流作业调度器,帮助读者掌握Hive平台的强大功能和特性。 后,通过电商推荐系统、汽车销售数据分析系统以及微博数据分析系统3个实战开发项目案例,让读者对Hive大数据平台数据仓库工具的实战应用有更深的理解。

作者简介:
    杨力,原北大青鸟学术部经理兼教学总监,中信国安创客霸王课特聘 讲师,现任北京兄弟连IT教育大数据专家级讲师,一直从事大数据方向,是大数据领域专家, 顾问,致力于大数据技术的推广与普及,拥有Apache Had p、 racle CM等多项产品的技术认证证书。曾创立国内 大数据校企合作实验室平台,现已推广至全国高校,助力高校大数据学科的建设和研究,对国内大中型企业的信息系统设计与实施有丰富的实践经验。京东万象大数据平台缔造人之一,曾担任新奥集团大数据平台首席架构师,二六三网络通信反垃圾邮件系统数据平台项目经理,中信银行网银数据平台技术经理等要职。

目录:
第01章    数据仓库基础 
    1.1    数据处理平台 
    1.2    数据库 
    1.3    关系型数据库 
        1.3.1    数据库三范式 
        1.3.2    数据库事务 
        1.3.3    数据库设计理念 
    1.4    数据仓库 
        1.4.1    无数据仓库的时代 
        1.4.2    数据仓库的发展 
    1.5    数据仓库设计理念 
    1.6    数据库与数据仓库的不同 
    1.7    本章总结 
    1.8    本章习题 
第02章    Hive安装部署 
    2.1    Hive基本概念 
        2.1.1    Hive简介 
        2.1.2    Hive设计特性 
        2.1.3    Hive与传统数据库的对比 
    2.2    Hive安装部署 
    2.3    安装配置MySQL 
    2.4    配置启动Hive 
    2.5    Hive常用内部命令 
    2.6    Hive数据类型 
        2.6.1    Hive基本数据类型 
        2.6.2    Hive集合数据类型 
    2.7    本章总结 
    2.8    本章习题 
第03章    Hive数据定义与操作 
    3.1    HiveQL数据定义语言 
        3.1.1    创建数据库 
        3.1.2    删除数据库 
        3.1.3    创建表 
        3.1.4    修改表 
        3.1.5    删除表 
        3.1.6    分区表 
    3.2    HiveQL数据操作 
        3.2.1    向管理表中装载数据 
        3.2.2    经查询语句向表中插入数据 
        3.2.3    单个查询语句中创建表并加载数据 
        3.2.4    导入数据 
        3.2.5    导出数据 
    3.3    本章总结 
    3.4    本章习题 
第04章    HiveQL数据查询基础 
    4.1    HiveQL数据查询语句 
        4.1.1    SELECT语句 
        4.1.2    WHERE语句 
        4.1.3    GR UP BY语句 
        4.1.4    HAVING分组筛选 
        4.1.5     RDER BY语句和S RTBY语句 
    4.2    HiveQL连接查询语句 
    4.3    本章总结 
    4.4    本章习题 
第05章    HiveQL数据查询进阶 
    5.1    Hive内置函数 
        5.1.1    数学函数 
        5.1.2    字符函数 
        5.1.3    转换函数 
        5.1.4    日期函数 
        5.1.5    条件函数 
        5.1.6    聚合函数 
    5.2    Hive构建搜索引擎日志数据分析系统 
        5.2.1    数据预处理(Linux环境) 
        5.2.2    基于Hive构建日志数据的数据仓库 
        5.2.3    数据分析需求(1):条数统计 
        5.2.4    数据分析需求(2):关键词分析 
        5.2.5    数据分析需求(3):UID分析 
        5.2.6    数据分析需求(4):用户行为分析 
    5.3    Sq p应用与开发 
        5.3.1    Sq p简介 
        5.3.2    Sq p安装部署 
        5.3.3    Sq p将Hive表中的数据导入MySQL 
    5.4    本章总结 
    5.5    本章习题 
第06章    Hive数据库对象与用户自定义函数 
    6.1    Hive视图 
        6.1.1    创建视图 
        6.1.2    查看视图 
        6.1.3    视图应用实战 
        6.1.4    删除视图 
    6.2    Hive分桶表 
        6.2.1    创建表 
        6.2.2    插入数据 
    6.3    Hive用户自定义函数 
        6.3.1    用户自定义函数简介 
        6.3.2    UDF应用开发 
    6.4    Hive用户自定义聚合函数 
        6.4.1    用户自定义聚合函数简介 
        6.4.2    UDAF应用开发 
    6.5    本章总结 
    6.6    本章习题 
第07章    Azkaban任务调度器 
    7.1    Azkaban简介 
        7.1.1    Azkaban基本原理 
        7.1.2    Azkaban核心组件 
    7.2    Azkaban安装部署 
        7.2.1    准备工作 
        7.2.2    安装MySQL 
        7.2.3    配置MySQL 
        7.2.4    配置AzkabanWebServer 
        7.2.5    启动AzkabanWebServer服务器 
        7.2.6    配置AzkabanExecut rServer 
        7.2.7    启动AzkabanExecut rServer执行服务器 
        7.2.8    登录访问WebServer并创建工作流调度项目 
    7.3    Had p作业的设置与书写 
    7.4    Hive作业的设置与书写 
    7.5    本章总结 
    7.6    本章习题 
第08章    电商推荐系统开发实战 
    8.1    构建数据仓库 
        8.1.1    创建数据仓库 
        8.1.2    创建原始数据表 
        8.1.3    加载数据到数据仓库 
        8.1.4    验证数据结果 
    8.2    数据清洗 
        8.2.1    创建临时表 
        8.2.2    数据清洗详细步骤 
        8.2.3    验证清洗 
    8.3    推荐算法实现 
        8.3.1    Mah ut安装部署 
        8.3.2    itembase协同过滤推荐算法 
        8.3.3    路径准备 
        8.3.4    运行推荐算法 
        8.3.5    查看推荐结果 
    8.4    数据ETL 
        8.4.1    获取数据 
        8.4.2    创建数据库和表 
        8.4.3    加载数据 
        8.4.4    验证ETL过程 
    8.5    本章总结 
    8.6    本章习题 
第09章    汽车销售数据分析系统实战开发 
    9.1    数据概况 
    9.2    项目实战 
        9.2.1    构建数据仓库 
        9.2.2    创建原始数据表 
        9.2.3    加载数据到数据仓库 
        9.2.4    验证数据结果 
        9.2.5    统计乘用车辆和商用车辆的销售数量和销售数量占比 
        9.2.6    统计山西省2013年每个月的汽车销售数量的比例 
        9.2.7    统计买车的男女比例及男女对车的品牌的选择 
        9.2.8    统计车的所有权、车辆型号和车辆类型 
        9.2.9    统计不同类型车在一个月(对应一段时间,如每月或每年)的总销量 
        9.2.10    通过不同类型(品牌)车销售情况,来统计发动机型号和燃料种类 
        9.2.11    统计五菱某一年每月的销售量 
    9.3    本章总结 
    9.4    本章习题 
0章    新浪微博数据分析系统实战开发 
    10.1    数据概况 
        10.1.1    数据参数 
        10.1.2    数据类型 
    10.2    项目实战 
        10.2.1    组织数据 
        10.2.2    统计需求 
        10.2.3    特殊需求 
        10.2.4    数据ETL 
    10.3    本章总结 
    10.4    本章习题