本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
本书结合作者的项目经验,从实际工程需求出发,循序渐进地介绍了大数据预处理相关技术、流行工具与应用案例,全书分为三部分,核心内容概要如下:
第一部分 数据预处理的基础知识。包括数据预处理的基本概念、工作流程、应用场景、开发环境、入门演练和Python科学计算工具包Numpy、SciPy、Pandas的实际应用等。
第二部分 数据预处理的实战进阶。内容包括:
数据采集与存储,主要涉及数据结构类型和采集方式,着重介绍了爬虫技术以及不同格式的文本信息抽取和文件读取。
高效读取文件、正则清洗文本信息、网页数据清洗和文本批量清洗。
中文分词精讲、封装分词工具包、NLTK词频处理、命名实体抽取和批量分词处理。
特征向量化处理,涉及数据解析、缺失值处理、归一化处理、特征词文本向量化、词频-逆词频、词集模型、词袋模型和批量文本特征向量化。
基于Gensim的文本特征向量化,涉及构建语料词典、词频统计、词频-逆词频计算、主题模型和特征降维等。
主成分分析PCA降维技术的原理和实际案例。
Matplotlib数据可视化分析案例。
第三部分 数据预处理的实际应用。主要介绍竞赛神器XGBoost的算法原理、应用、优化调参以及数据预处理在文本分类中的实际应用。
《Python数据预处理技术与实践》基础理论和工程应用相结合,循序渐进地介绍了数据预处理的基本概念、基础知识、工具应用和相关案例,包括网络爬虫、数据抽取、数据清洗、数据集成、数据变换、数据向量化、数据规约等知识,书中针对每个知识点,都给出了丰富的教学实例和实现代码,最后,通过一个新闻文本分类的实际项目讲解了数据预处理技术在实际中的应用。
《Python数据预处理技术与实践》的特点是几乎涵盖了数据预处理的各种常用技术及主流工具应用,示例代码很丰富,适合于大数据从业者、AI技术开发人员以及高校大数据专业的学生使用。
白宁超,大数据工程师,现任职于四川省计算机研究院,研究方向包括数据分析、自然语言处理和深度学习。主持和参与国家自然基金项目和四川省科技支撑计划项目多项,出版专著1部。
唐聃,教授,硕士生导师,成都信息工程大学软件工程学院院长,四川省学术和技术带头人后备人选。研究方向包括编码理论与人工智能,《自然语言处理理论与实战》一书作者。
文俊,硕士,大数据算法工程师,现任职于成都广播电视台橙视传媒大数据中心。曾以技术总监身份主持研发多个商业项目,负责公司核心算法模型构建。主要研究方向包括数据挖掘、自然语言处理、深度学习及云计算。