本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | 分布式统计计算 |
作者: | 冯兴东著 |
定价: | 39.0 |
出版社: | 上海财经大学出版社 |
出版日期: | 2018-04-01 |
ISBN: | 9787564229696 |
印次: | |
版次: | 1 |
装帧: | 平装-胶订 |
开本: | 小16开 |
内容简介 | |
人类各项科学技术的发展带来了海量数据,“大数据”的概念铺天盖地。统计学这一专注于数据分析的学科理应适应于这一时代的重大变革和发展。显然大数据带给统计学的冲击是全方面的,不只是局限于理论或者计算。上众多统计学家都在思考统计学在大数据时代应该扮演的角色。然而,提高统计学专业的学生相关计算机编程能力却是刻不容缓。在这一背景之下,上海财经大学统计与管理学院开设了专业统计学硕士“数据科学与商务统计”方向,力图增强相关硕士生从事大数据分析的计算能力以及分析商务数据(包括营销数据、信用数据等)的应用能力。在这一指导思想之下,上海财经大学统计与管理学院开设了一系列相关课程。本讲义就是针对该专业方向的《分布式统计计算》一课。这门课程向学生介绍分布式计算的思想以及在统计学上的应用,将统计学传统方法和分布式计算方法相结合,通过不同的统计学问题来强化学生的分布式统计计算的编程能力和对统计计算的理解。 |
目录 | |
前言1 ? 1Apache Spark简介1 1.1Apache Spark的历史与现状1 1.2安装和运行Apache Spark2 1.3Apache Spark编程简介5 1.3.1Scala语言5 1.3.2Spark编程11 1.4公共数据集14 ? 2Breeze程序包15 2.1创建向量、矩阵及其简单计算15 2.2整行或整列的运算19 2.3常用数学计算20 2.4常用分布20 2.5基于Breeze包的分布式计算23 ? 3随机模拟和统计推断24 3.1随机数的产生24 3.1.1逆累积分布函数法25 3.1.2拒绝法26 3.1.3案例: 从回归模型中模拟数据27 3.2EM优化31 3.2.1EM基本算法31 3.2.2收敛性分析31 3.2.3分布式EM算法32 3.2.4案例: 高斯混合模型33 ? 4马尔科夫链蒙特卡洛37 4.1MetropolisHastings算法38 4.2Slice取样法40 4.3Gibbs取样法41 ? 5优化方法43 5.1交替方向乘子法43 5.1.1算法介绍43 5.1.2案例: 分位数回归分布式参数估计45 5.2数值计算方法50 5.2.1随机梯度下降算法51 5.2.2有限内存BFGS算法61 ? 6自举法65 6.1自由自举法66 6.2子集合自举法68 ? 7常用大数据统计学习方法71 7.1聚类分析71 7.1.1K组中心法72 7.1.2隐狄利克雷分配法74 7.1.3功效迭代聚类法77 7.2分类分析78 7.2.1Logistic回归79 7.2.2线性支持向量机79 7.2.3线性判别分析81 7.2.4决策树82 ? 8数据降维87 8.1主成分分析87 8.2奇异值分解88 8.3案例89 8.3.1读取图片90 8.3.2处理图片91 8.3.3存储图片92 8.3.4提取主成分向量93 ? 附录部分课程案例97 案例1基于EM算法的t分布参数估计97 案例2基于SCAD惩罚的线性回归分析115 ? 参考文献124 |