Sometimes Naive

Thinking will not overcome fear but action will.

回望2016,那个成长中的摩拜

摩拜的卖身刚告一段落,共享单车的集体涨价又把摩拜拉回大众的视野。共享单车的集体涨价,宣告了这个行业野蛮扩张的时代的结束。 然而,那个时代并没有过去多久。 2016年是共享单车元年,资本造势,行业乱战。摩拜单车也在这一年开始扬帆。 2016年4月,摩拜单车在上海开始运营。 那么,摩拜单车的体验如何呢?每天会有多少人骑摩拜单车,会骑多久,在什么时段骑呢?在哪里可以找到摩拜单车呢?…… ...

2019黑五卖家生存指南

对黑色星期五的数据分析

在5月份讨论黑色星期五(以下简称黑五),你可能会觉得有点奇怪。但实际上,距离欧美国家一年一度的“黑色星期五”仅剩不到200天。 将于2019年11月22日举行的拉开序幕的黑五,对于卖家而言至关重要。因为,消费者永远不会因为疲惫而放弃购买。 最近,笔者拿到一份部分城市的订单数据,得到了一些有意思的结论,希望能够对卖家有所帮助。 男性消费力强于女性,“他经济”崛起 数据显示,男性消费最高...

神经网络学习

背景知识 神经网络的起源是人们想创造设计出模仿人的大脑的算法。把任何传感器接入到大脑,大脑的学习算法就能找出学习数据的方法并处理这些数据。如果我们能找出大脑的学习算法并在计算机上执行,那么我们也就离真正意义上的人工智能不远了。 假设模型 神经元是大脑中的细胞,通过树突(输入通道)接受其他神经元的信息,通过轴突(输出通道)发送一段微弱电流(动作电位)给其他神经元传递信号或传送信息。 了...

特征缩放

特征缩放 特征缩放是一种用于标准化变量范围的方法,多用于数据预处理。 为什么需要特征算法? 特征缩放可以提高模型的精度。例如:分类器需要计算样本之间的距离,如果一个特征的值域范围非常大,那么距离计算就会主要取决于这个特征,导致偏离实际情况。 特征缩放可以提升模型的收敛速度。在进行梯度下降时能够获得更快的收敛。 方法 Rescaling (...

House Prices Advanced Regression Techniques -- Data Analysis

House Prices Advanced Regression Techniques 是一个Kaggle比赛,要求我们利用数据预测房价以期获得一个较好的预测值。 提出问题 数据中是否有缺失值、异常值? 数据中是否有相互关联的特征可以剔除? 哪些特征与房价之间具有较好的相关性? 是否有更好的预测方法? 数据加工 第一步是数据采集,由于平台已经为我们准备好了数据,这...

机器学习入门(五)

《机器学习实战》读书笔记(五)

Logistic回归 Logistic回归概述 回归:假设现在有一些数据点,用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归 Logistic回归:根据现有数据对分类分类边界线建立回归公式,以此进行分类 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据 首先,我们来确定分类器的函数形式。我们想要的...

机器学习入门(四)

《机器学习实战》读书笔记(四)

朴素贝叶斯 朴素贝叶斯概述 朴素贝叶斯:朴素贝叶斯就是计算未分类的数据在各类别中的概率,概率最大的类别便是数据所属的类别。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 使用数据类型:标称型数据 使用朴素贝叶斯进行分类 准备数据:从文本中构建词向量 import numpy as np def loadDataSet(): ...

机器学习入门(一)

《机器学习实战》读书笔记(一)

机器学习基础 本书结构 本书分为四大部分15章。 第一部分介绍了机器学习的基础知识(第一章)以及如何使用机器学习算法进行分类。算法包括:K-近邻算法(第二章)、决策树(第三章)、朴素贝叶斯(第四章)、Logistic回归算法(第五章)、支持向量机(第六章)、AdaBoost算法(第七章)。 第二部分讨论连续型数值的回归预测问题。算法包括:线性回归、局部加权线性回归和收缩方法(第八章)...

机器学习入门(二)

《机器学习实战》读书笔记(二)

K-近邻算法 K-近邻算法概述 工作原理:给定一个训练样本集,训练样本集中的每个数据都有自己所属的类别,输入一个不知道所属类别的新数据,在训练样本集中找到k个最邻近的数据,而这k个数据的大多数所属的类别将作为新数据所属的类别。 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适用范围:数值型和标称型 算法初涉 import numpy as np...

机器学习入门(三)

《机器学习实战》读书笔记(三)

决策树 决策树概述 决策树是一种树结构,包含终止模块,判断模块和分支。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题 适用数据类型:数值型和标称型 本章使用的是ID3算法划分数据集,而不是通常采用的二分法。 ID3算法可以归纳为以下几点: 使用所有没有使用的属性并计算与之相关的样本熵值 ...