机器学习入门(一)

《机器学习实战》读书笔记(一)

Posted by Sometimes Naive on October 5, 2018

机器学习基础

本书结构

本书分为四大部分15章。

第一部分介绍了机器学习的基础知识(第一章)以及如何使用机器学习算法进行分类。算法包括:K-近邻算法(第二章)、决策树(第三章)、朴素贝叶斯(第四章)、Logistic回归算法(第五章)、支持向量机(第六章)、AdaBoost算法(第七章)。

第二部分讨论连续型数值的回归预测问题。算法包括:线性回归、局部加权线性回归和收缩方法(第八章),树回归(第九章)。

第三部分讨论无监督学习。算法包括:K-均值聚类算法(第十章)、Apriori算法(第十一章)、FP-Growth算法(第十二章)

第四部分介绍了机器学习算法使用到的附属工具。工具包括:主成分分析(第十三章)和奇异值分解(第十四章)。第十五章还引入了分布式计算。

如何选择合适的算法

  1. 需要考虑使用机器学习的目的。如果想要预测目标变量的值,则可以选择监督学习;否则可以选择无监督学习。如果选择监督学习且目标变量是离散型,可以选择分类算法;目标变量是连续型,则需要选择回归算法。如果选择无监督学习且仅需要将数据划分为离散的组,可以使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要选择密度估计算法。当然,这是在大多数情况下,实际上我们也可以使用分类算法处理回归问题。
  2. 需要考虑分析或收集的数据是什么。我们应充分了解数据,比如:特征值是离散型变量还是连续型变量,特征值中是否有缺少值,什么原因造成缺失值,是否存在异常值,某个特征值发生的频率如何等等。

一般来说,发现最好算法的关键步骤是反复试错的迭代过程。

开发机器学习应用程序的步骤

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据
  4. 训练算法
  5. 测试算法
  6. 使用算法