机器学习基础
本书结构
本书分为四大部分15章。
第一部分介绍了机器学习的基础知识(第一章)以及如何使用机器学习算法进行分类。算法包括:K-近邻算法(第二章)、决策树(第三章)、朴素贝叶斯(第四章)、Logistic回归算法(第五章)、支持向量机(第六章)、AdaBoost算法(第七章)。
第二部分讨论连续型数值的回归预测问题。算法包括:线性回归、局部加权线性回归和收缩方法(第八章),树回归(第九章)。
第三部分讨论无监督学习。算法包括:K-均值聚类算法(第十章)、Apriori算法(第十一章)、FP-Growth算法(第十二章)
第四部分介绍了机器学习算法使用到的附属工具。工具包括:主成分分析(第十三章)和奇异值分解(第十四章)。第十五章还引入了分布式计算。
如何选择合适的算法
- 需要考虑使用机器学习的目的。如果想要预测目标变量的值,则可以选择监督学习;否则可以选择无监督学习。如果选择监督学习且目标变量是离散型,可以选择分类算法;目标变量是连续型,则需要选择回归算法。如果选择无监督学习且仅需要将数据划分为离散的组,可以使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要选择密度估计算法。当然,这是在大多数情况下,实际上我们也可以使用分类算法处理回归问题。
- 需要考虑分析或收集的数据是什么。我们应充分了解数据,比如:特征值是离散型变量还是连续型变量,特征值中是否有缺少值,什么原因造成缺失值,是否存在异常值,某个特征值发生的频率如何等等。
一般来说,发现最好算法的关键步骤是反复试错的迭代过程。
开发机器学习应用程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法
- 测试算法
- 使用算法