《Spark MLlib机器进修理论》内容简介、目次

3个月前 (11-26 21:49)阅读3回复0
wly
wly
  • 管理员
  • 注册排名8
  • 经验值130685
  • 级别管理员
  • 主题26137
  • 回复0
楼主

  

  Spark做为新兴的、利用范畴最为普遍的大数据处置开源框架引起了普遍的存眷,它吸引了大量法式设想和开发人员停止相关内容的进修与开发,此中 MLlib是 Spark框架利用的核心。本书是一本详尽介绍 Spark MLlib法式设想的图书,进门简单,示例丰富。

  本书分为 12章,从 Spark根底安拆和设置装备摆设起头,依次介绍 MLlib法式设想根底、MLlib的数据对象构建、MLlib中 RDD利用介绍,各类分类、聚类、回回等数据处置办法,最初还通过一个完全的实例,回忆了前面的进修内容,并通过代码实现了一个完全的阐发过程。 本书理论内容由浅而深,摘取实例和理论相连系的体例,内容全面而详尽,讲解详尽曲看,合适 Spark MLlib初学者、大数据阐发和发掘人员,也合适高校和培训进修相关专业的师生教学参考。

  目次

  第1章 星星之火

  1.1 大数据时代

  1.2 大数据阐发时代

  1.3 简单、高雅、有效——那就是Spark

  1.4 核心——MLLib

  1.5 星星之火,能够燎原

  1.6 小结

  第2章 Spark安拆和开发情况设置装备摆设

  2.1 Windows单机形式Spark安拆和设置装备摆设

  2.1.1 Windows 7安拆Java

  2.1.2 Windows 7安拆Scala

  2.1.3 Intellij IDE下载和安拆

  2.1.4 Intellij IDE中Scala插件的安拆

  2.1.5 Spark单机版安拆

  2.2 典范的WordCount

  2.2.1 Spark实现WordCount

  2.2.2 MapReduce实现WordCount

  2.3 小结

  第3章 RDD详解

  3.1 RDD是什么

  3.1.1 RDD名称的奥秘

  3.1.2 RDD特征

  3.1.3 与其他散布式共享内存的区别

  3.1.4 RDD缺陷

  3.2 RDD工做原理

  3.2.1 RDD工做原理

  3.2.2 RDD的彼此依靠

  3.3 RDD利用API详解

  3.3.1 利用aggregate办法对给定的数据集停止办法设定

  3.3.2 提早计算的的cache办法

  3.3.3 笛卡尔操做的cartesian办法

  3.3.4 分片存储的coalesce办法

  3.3.5 以value计算的countByValue办法

  3.3.6 以key计算的countByKey办法

  3.3.7 出往数据集中反复项的distinct办法

  3.3.8 过滤数据的filter办法

  3.3.9 以行为单元操做数据的flatMap办法

  3.3.10 以单个数据为目标停止操做的map办法

  3.3.11 分组数据的groupBy办法

  3.3.12 生成键值对的keyBy办法

  3.3.13 同时对两个数据停止处置的reduce办法

  3.3.14 对数据停止从头排序的sortBy办法

  3.3.15 合并压缩的zip办法

  3.4 小结

  第4章 MLLib根本概念

  4.1 MLLib根本数据类型

  4.1.1 多种数据类型

  4.1.2 从当地向量集起步

  4.1.3 向量标签的利用

  4.1.4 当地矩阵的利用

  4.1.5 散布式矩阵的利用

  4.2 MLLib数理统计根本概念

  4.2.1 根本统计量

  4.2.2 统计量根本数据

  4.2.3 间隔计算

  4.2.4 两组数据相关系数计算

  4.2.5 分层抽样

  4.2.6 假设查验

  4.2.7 随机数

  4.3 小结

  第5章 协同过滤算法

  5.1何为协同过滤

  5.1.1 何为协同过滤

  5.1.2 何为基于用户的选举

  5.1.3 何为基于物品的选举

  5.1.4 协同过滤算法的不敷

  5.2 类似度度量

  5.2.1 基于欧几里得间隔的类似度计算

  5.2.2 基于余弦角度的类似度计算

  5.2.3 欧几里得类似度与余弦类似度的比力

  5.2.4 第一个例子——余弦类似度实战

  5.3 MLLib中的瓜代最小二乘法(ALS算法)

  5.3.1 最小二乘法(LS算法)详解

  5.3.2 MLLib中瓜代最小二乘法(ALS算法)详解

  5.3.3 ALS算法实战

  5.4 小结

  第6章 MLLIB线性回回理论与实战

  6.1 随机梯度下降算法详解

  6.1.1 道士下山的故事

  6.1.2 随机梯度下降算法的理论根底

  6.1.3 随机梯度下降算法实战

  6.2 MLLib回回的过拟合

  6.2.1 过拟合产生的原因

  6.2.2 lasso回回与岭回回

  6.3 MLLib线性回回实战

  6.3.1 MLLib线性回回根本筹办

  6.3.2 MLLib线性回回实战:商品价格与消费者收进之间的关系

  6.3.3 对拟合曲线的验证

  6.4 小结

  第7章 MLLib分类实战

  7.1 逻辑回回详解

  7.1.1 逻辑回回不是回回算法

  7.1.2 逻辑回回的数学根底

  7.1.3 一元逻辑回回示例

  7.1.4 多元逻辑回回示例

  7.1.5 MLLib逻辑回回验证

  7.1.6 MLLib逻辑回回实例-胃癌的转移揣度

  7.2 撑持向量机详解

  7.2.1 三角仍是圆

  7.2.2 撑持向量机的数学根底

  7.2.3 撑持向量机利用示例

  7.2.4 利用撑持向量机阐发胃癌转移

  7.3 纯朴贝叶斯详解

  7.3.1 穿裤子的男生or女生

  7.3.2 贝叶斯定理的数学根底和意义

  7.3.3 纯朴贝叶斯定理

  7.3.4 MLLib纯朴贝叶斯利用示例

  7.3.5 MLLib纯朴贝叶斯实战——“僵尸粉”的判定

  7.4 小结

  第8章 决策树与保序回回

  8.1 决策树详解

  8.1.1 水晶球的奥秘

  8.1.2 决策树的算法根底-信息熵

  8.1.3 决策树的算法根底——ID3算法

  8.1.4 MLLib中决策树的构建

  8.1.5 MLLib中决策树示例

  8.1.6 随机雨林与梯度提拔算法(GBT)

  8.2 保序回回详解

  8.2.1 何为保序回回

  8.2.2 保序回回示例

  8.3 小结

  第9章 MLLib中聚类详解

  9.1 聚类与分类

  9.1.1 什么是分类

  9.1.2 什么是聚类

  9.2 MLLib中的Kmeans算法

  9.2.1 什么是kmeans算法

  9.2.2 MLLib中kmeans算法示例

  9.2.3 Kmeans算法中细节的议论

  9.3 高斯混合聚类

  9.3.1 从高斯散布聚类起步

  9.3.2 混合高斯聚类

  9.3.3 MLLib高斯混合模子利用示例

  9.4 快速迭代聚类

  9.4.1 快速迭代聚类理论根底

  9.4.2 快速迭代聚类示例

  9.5 小结

  第10章 MLLib中联系关系规则

  10.1 Apriori频繁项集算法

  10.1.1 啤酒与尿布

  10.1.2 典范的Apriori算法

  10.1.3 Apriori算法示例

  10.2 FP-growth算法

  10.2.1 Apriori算法的局限性

  10.2.2 FP-growth算法

  10.2.3 FP树示例

  10.3 小结

  第11章 数据降维

  11.1 奇异值合成(SVD)

  11.1.1 行矩阵(RowMatrix)详解

  11.1.2 奇异值合成算法根底

  11.1.3 MLLib中奇异值合成示例

  11.2 主成分阐发(PCA)

  11.2.1 主成分阐发(PCA)的定义

  11.2.2 主成分阐发(PCA)的数学根底

  11.2.3 MLLib中主成分阐发(PCA)示例

  11.3 小结

  第12章 特征提取和转换

  12.1 TF-IDF

  12.1.1 若何查找我要的新闻

  12.1.2 TF-IDF算法的数学计算

  12.1.3 MLLib中TF-IDF示例

  12.2 词向量化东西

  12.2.1 词向量化根底

  12.2.2 词向量化利用示例

  12.3 基于卡方查验的特征抉择

  12.3.1 “食货”的苦恼

  12.3.2 MLLib中基于卡方查验的特征抉择示例

  12.4 小结

  第13章 MLLib实战练习训练——鸢尾花阐发

  13.1 建模阐明

  13.1.1 数据的描述与阐发目标

  13.1.2 建模阐明

  13.2 数据预处置和阐发

  13.2.1 微看阐发——均值与方差的比照阐发

  13.2.2 宏看阐发——差别品种特征的长度计算

  13.2.3 往除反复项——相关系数确实定

  13.3 长与宽之间的关系——数据集的回回阐发

  13.3.1 利用线性回回阐发长与宽之间的关系

  13.3.1 利用逻辑回回阐发长与宽之间的关系

  13.4 利用分类和聚类对鸢尾花数据集停止处置

  13.4.1 利用聚类阐发对数据集停止聚类处置

  13.4.2 利用分类阐发对数据集停止分类处置

  13.5 最末的断定——决策树测试

  13.5.1 决定命据集的回类——决策树

  13.5.2 决定命据集回类的散布式办法——随机雨林

  13.6 小结

0
回帖

《Spark MLlib机器进修理论》内容简介、目次 期待您的回复!

取消