你的博客 | Sometimes Naive

回望2016，那个成长中的摩拜

摩拜的卖身刚告一段落，共享单车的集体涨价又把摩拜拉回大众的视野。共享单车的集体涨价，宣告了这个行业野蛮扩张的时代的结束。然而，那个时代并没有过去多久。 2016年是共享单车元年，资本造势，行业乱战。摩拜单车也在这一年开始扬帆。 2016年4月，摩拜单车在上海开始运营。那么，摩拜单车的体验如何呢？每天会有多少人骑摩拜单车，会骑多久，在什么时段骑呢？在哪里可以找到摩拜单车呢？…… ...

Posted by Sometimes Naive on May 12, 2019

2019黑五卖家生存指南

对黑色星期五的数据分析

在5月份讨论黑色星期五（以下简称黑五），你可能会觉得有点奇怪。但实际上，距离欧美国家一年一度的“黑色星期五”仅剩不到200天。将于2019年11月22日举行的拉开序幕的黑五，对于卖家而言至关重要。因为，消费者永远不会因为疲惫而放弃购买。最近，笔者拿到一份部分城市的订单数据，得到了一些有意思的结论，希望能够对卖家有所帮助。男性消费力强于女性，“他经济”崛起数据显示，男性消费最高...

Posted by Sometimes Naive on May 12, 2019

神经网络学习

背景知识神经网络的起源是人们想创造设计出模仿人的大脑的算法。把任何传感器接入到大脑，大脑的学习算法就能找出学习数据的方法并处理这些数据。如果我们能找出大脑的学习算法并在计算机上执行，那么我们也就离真正意义上的人工智能不远了。假设模型神经元是大脑中的细胞，通过树突（输入通道）接受其他神经元的信息，通过轴突（输出通道）发送一段微弱电流（动作电位）给其他神经元传递信号或传送信息。了...

Posted by Sometimes Naive on October 28, 2018

特征缩放

特征缩放特征缩放是一种用于标准化变量范围的方法，多用于数据预处理。为什么需要特征算法？特征缩放可以提高模型的精度。例如：分类器需要计算样本之间的距离，如果一个特征的值域范围非常大，那么距离计算就会主要取决于这个特征，导致偏离实际情况。特征缩放可以提升模型的收敛速度。在进行梯度下降时能够获得更快的收敛。方法 Rescaling (...

Posted by Sometimes Naive on October 26, 2018

House Prices Advanced Regression Techniques -- Data Analysis

House Prices Advanced Regression Techniques 是一个Kaggle比赛，要求我们利用数据预测房价以期获得一个较好的预测值。提出问题数据中是否有缺失值、异常值？数据中是否有相互关联的特征可以剔除？哪些特征与房价之间具有较好的相关性？是否有更好的预测方法？数据加工第一步是数据采集，由于平台已经为我们准备好了数据，这...

Posted by Sometimes Naive on October 21, 2018

机器学习入门（五）

《机器学习实战》读书笔记（五）

Logistic回归 Logistic回归概述回归：假设现在有一些数据点，用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归 Logistic回归：根据现有数据对分类分类边界线建立回归公式，以此进行分类优点：计算代价不高，易于理解和实现缺点：容易欠拟合，分类精度可能不高适用数据类型：数值型和标称型数据首先，我们来确定分类器的函数形式。我们想要的...

Posted by Sometimes Naive on October 12, 2018

机器学习入门（四）

《机器学习实战》读书笔记（四）

朴素贝叶斯朴素贝叶斯概述朴素贝叶斯：朴素贝叶斯就是计算未分类的数据在各类别中的概率，概率最大的类别便是数据所属的类别。优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感使用数据类型：标称型数据使用朴素贝叶斯进行分类准备数据：从文本中构建词向量 import numpy as np def loadDataSet(): ...

Posted by Sometimes Naive on October 5, 2018

机器学习入门（一）

《机器学习实战》读书笔记（一）

机器学习基础本书结构本书分为四大部分15章。第一部分介绍了机器学习的基础知识（第一章）以及如何使用机器学习算法进行分类。算法包括：K-近邻算法（第二章）、决策树（第三章）、朴素贝叶斯（第四章）、Logistic回归算法（第五章）、支持向量机（第六章）、AdaBoost算法（第七章）。第二部分讨论连续型数值的回归预测问题。算法包括：线性回归、局部加权线性回归和收缩方法（第八章）...

Posted by Sometimes Naive on October 5, 2018

机器学习入门（二）

《机器学习实战》读书笔记（二）

K-近邻算法 K-近邻算法概述工作原理：给定一个训练样本集，训练样本集中的每个数据都有自己所属的类别，输入一个不知道所属类别的新数据，在训练样本集中找到k个最邻近的数据，而这k个数据的大多数所属的类别将作为新数据所属的类别。优点：精度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高适用范围：数值型和标称型算法初涉 import numpy as np...

Posted by Sometimes Naive on October 4, 2018

机器学习入门（三）

《机器学习实战》读书笔记（三）

决策树决策树概述决策树是一种树结构，包含终止模块，判断模块和分支。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据缺点：可能会产生过度匹配问题适用数据类型：数值型和标称型本章使用的是ID3算法划分数据集，而不是通常采用的二分法。 ID3算法可以归纳为以下几点：使用所有没有使用的属性并计算与之相关的样本熵值 ...