机器学习

机器学习入门（一）

《机器学习实战》读书笔记（一）

Posted by Sometimes Naive on October 5, 2018

机器学习基础

本书结构

本书分为四大部分15章。

第一部分介绍了机器学习的基础知识（第一章）以及如何使用机器学习算法进行分类。算法包括：K-近邻算法（第二章）、决策树（第三章）、朴素贝叶斯（第四章）、Logistic回归算法（第五章）、支持向量机（第六章）、AdaBoost算法（第七章）。

第二部分讨论连续型数值的回归预测问题。算法包括：线性回归、局部加权线性回归和收缩方法（第八章），树回归（第九章）。

第三部分讨论无监督学习。算法包括：K-均值聚类算法（第十章）、Apriori算法（第十一章）、FP-Growth算法（第十二章）

第四部分介绍了机器学习算法使用到的附属工具。工具包括：主成分分析（第十三章）和奇异值分解（第十四章）。第十五章还引入了分布式计算。

如何选择合适的算法

需要考虑使用机器学习的目的。如果想要预测目标变量的值，则可以选择监督学习；否则可以选择无监督学习。如果选择监督学习且目标变量是离散型，可以选择分类算法；目标变量是连续型，则需要选择回归算法。如果选择无监督学习且仅需要将数据划分为离散的组，可以使用聚类算法；如果还需要估计数据与每个分组的相似程度，则需要选择密度估计算法。当然，这是在大多数情况下，实际上我们也可以使用分类算法处理回归问题。
需要考虑分析或收集的数据是什么。我们应充分了解数据，比如：特征值是离散型变量还是连续型变量，特征值中是否有缺少值，什么原因造成缺失值，是否存在异常值，某个特征值发生的频率如何等等。

一般来说，发现最好算法的关键步骤是反复试错的迭代过程。

开发机器学习应用程序的步骤

收集数据
准备输入数据
分析输入数据
训练算法
测试算法
使用算法