有监督学习简介——阿里云课堂随堂笔记

本文主要是介绍有监督学习简介——阿里云课堂随堂笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

有监督学习算法

有监督学习(Supervised learning)：利用一组已知类别的样本来训练模型，使其达到性能要求。

特点为输入数据（训练数据）均是一个明确的标识或结果（标签）。即我们提供样例”教“计算机如何学习。

分类：就是通过已有的数据集（训练集）的学习，得到一个目标函数f（模型），把每个属性集x映射到目标属性y（类），且y必须是离散的（若y是连续的，则属于回归算法）。

通过对已知类别训练集的分析，从中发现分类规则，依次预测新数据的类型。

分类算法：

按原理分类：
- 基于统计的：如贝叶斯分类
- 基于规则的：如决策树算法
- 基于神经网络的：神经网络算法
- 基于距离的：KNN（K最近邻）
常用评估指标：
- 精确率：预测结果与实际结果的比例
- 召回率：预测结果中某类结果的正确覆盖率
- F1-Score：统计量，综合评估分类模型，取值0-1之间，越大越好

KNN：k-NearestNeighbour，分类算法最简单的算法之一，其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

KNN不但可以预测分类，还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点，对新记录r使用KNN将其分类的步骤：

确定k值，确定计算距离的公式，如欧氏距离
- 确定k的取值，确定距离公式
  - 欧氏距离公式：两点间的距离
  - 曼哈顿距离：绝对值距离，横纵坐标差值绝对值的和
  - 余弦相似度：dij = cos(0A，0B)，向量值计算
- k的取值不宜过大，使用交叉验证确定
计算r和其他样本点之间的距离dir，其中i∈(1,N)
- 计算r和所有样本点的距离
得到目前和r最接近的k个样本，作为KNN距的训练样本
- 圈定符合条件的k条记录
- 使用确定的距离计算公式计算所有点
- 将距离升序排序，得到top K 个的值，选入KNN样本
将k个样本中最多归属类别的分类标签赋予新记录r，分类结束。
- 统计k个样本中各分类的数量，从而确定新纪录r的分类

repeat计算已知类别数据集中的点与当前需预测点之间的距离按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

例子：

搜索几种植物果实的颜色和味道，根据这两个信息确定是否为水果？

不考虑任何特征，直接去估计结果：2个水果，2个不是，概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断，红色3个中2个是水果，1个不是，绿色1个且不是水果，概率2/3，1/3,以及1，0；

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理以味道为参考信息，判断可得“：

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益：

在这里插入图片描述

ID3系列算法：