有监督学习简介——阿里云课堂随堂笔记

2023-10-17 18:50

本文主要是介绍有监督学习简介——阿里云课堂随堂笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有监督学习算法

有监督学习(Supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求。

特点为输入数据(训练数据)均是一个明确的标识或结果(标签)。即我们提供样例”教“计算机如何学习。

分类:Classification

分类:就是通过已有的数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y是连续的,则属于回归算法)。

通过对已知类别训练集的分析,从中发现分类规则,依次预测新数据的类型。

分类算法:

  • 按原理分类:
    • 基于统计的:如贝叶斯分类
    • 基于规则的:如决策树算法
    • 基于神经网络的:神经网络算法
    • 基于距离的:KNN(K最近邻)
  • 常用评估指标:
    • 精确率:预测结果与实际结果的比例
    • 召回率:预测结果中某类结果的正确覆盖率
    • F1-Score:统计量,综合评估分类模型,取值0-1之间,越大越好

KNN

KNN:k-NearestNeighbour,分类算法最简单的算法之一,其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

KNN不但可以预测分类,还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点,对新记录r使用KNN将其分类的步骤:

  1. 确定k值,确定计算距离的公式,如欧氏距离
    • 确定k的取值,确定距离公式
      • 欧氏距离公式:两点间的距离
      • 曼哈顿距离:绝对值距离,横纵坐标差值绝对值的和
      • 余弦相似度:dij = cos(0A,0B),向量值计算
    • k的取值不宜过大,使用交叉验证确定
  2. 计算r和其他样本点之间的距离dir,其中i∈(1,N)
    • 计算r和所有样本点的距离
  3. 得到目前和r最接近的k个样本,作为KNN距的训练样本
    • 圈定符合条件的k条记录
    • 使用确定的距离计算公式计算所有点
    • 将距离升序排序,得到top K 个的值,选入KNN样本
  4. 将k个样本中最多归属类别的分类标签赋予新记录r,分类结束。
    • 统计k个样本中各分类的数量,从而确定新纪录r的分类

实现伪码

repeat计算已知类别数据集中的点与当前需预测点之间的距离按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

KNN优缺点

  • 优点:
    1. 原理简单、容易理解、容易实现
    2. 重新训练代价低
    3. 时间、空间复杂度取决于训练集(一般不算太大)
  • 缺点:
    1. KNN属于lazy-learning 算法,得到结果的及时性差
    2. k值对结果影响大(试想K=1或K=N的极端情况)
    3. 不同类记录相差较大时容易误差
    4. 样本点较多时,计算量较大
    5. 相对于决策树,结果的可解释性不强

决策树

构建流程

  1. 准备工作

    • 明确自变量和因变量
    • 确定信息度量的方式
    • 确定终止条件
  2. 选择特征

    • 得到当前待处理子集
    • 计算所有特征信息度量
    • 得到当前最佳分类特征
  3. 创建分支

    • 根据选中特征将当前记录分为不同分支,分支的个数取决于算法
  4. 是否终止

    • 判断是否满足终止条件

      满足则退出循环、不满足则继续递归调用

  5. 结果生成

    • 判断是否需要剪枝

      需要则进行适当剪枝、不需则为最终结果。

熟悉数据,明确目标

  1. 观察数据,明确自变量因变量
  2. 明确信息度量方式:信息增益
    • 基尼系数
  3. 明确分支终止条件
    • 纯度:记录分支完成后所有选项是否符合
    • 记录条数
    • 循环次数

信息熵

  • 信息论中的概念,香农提出
  • 描述混乱程度的度量
  • 取值范围0-1,值越大,越混乱

信息增益和特征选择

  • 信息增益
    • 信息是确定性的增加
    • 从一个状态到另一个状态信息的变化
    • 信息增益越大,对确定性贡献越大

例子:

搜索几种植物果实的颜色和味道,根据这两个信息确定是否为水果?

名称颜色甜味水果
西红柿
黄瓜绿色
苹果
火龙果

不考虑任何特征,直接去估计结果:2个水果,2个不是,概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断,红色3个中2个是水果,1个不是,绿色1个且不是水果,概率2/3,1/3,以及1,0;

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理 以 味道为参考信息,判断可得“:

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益:

  • 颜色:1- 0.689 = 0.311
  • 味道:1-0 = 1

构建决策树

  • ID3

在这里插入图片描述

  1. 选择当前最佳特征(循环判断)

    1. 第一级特征选择

      1. 计算各分项的熵
      2. 计算信息增益
      3. 选择信息增益最大的分项作为第一级特征
    2. 第二级特征选择

      和第一级特征选择一样,但是缺少了第一级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

    3. 第三…级特征选择

      和第一、二级特征选择一样,但是缺少了第一、二级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

  2. 生成决策树

ID3系列算法:

  1. ID3:

    • 核心:信息熵,根据信息增益决定树的节点
    • 存在的问题:
    • 信息度量不合理:倾向于选择取值多的字段
    • 输入类型单一:离散型
    • 不做剪枝,容易发生过拟合
  2. C4.5:和ID3相比的改进

    • 用信息增益率代替信息增益
    • 能对连续属性进行离散化,对不完整数据进行处理
    • 进行剪枝
  3. C50:C4.5 相比的改进

    • 使用了boosting
    • 前修建、后修建

CART

  • 核心是基尼系数
  • 分类是二叉树
  • 支持连续值和离散值
  • 后剪枝进行修建
  • 支持回归,可以预测连续值

在这里插入图片描述

ID3是经典的决策树原型(demo),他能很好的表现决策树处理问题的思路和想法,但在实际项目中很少使用

这篇关于有监督学习简介——阿里云课堂随堂笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/227281

相关文章

Java Docx4j类库简介及使用示例详解

《JavaDocx4j类库简介及使用示例详解》Docx4j是一个强大而灵活的Java库,非常适合需要自动化生成、处理、转换MicrosoftOffice文档的服务器端或后端应用,本文给大家介绍Jav... 目录1.简介2.安装与依赖3.基础用法示例3.1 创建一个新 DOCX 并添加内容3.2 读取一个已存

linux配置podman阿里云容器镜像加速器详解

《linux配置podman阿里云容器镜像加速器详解》本文指导如何配置Podman使用阿里云容器镜像加速器:登录阿里云获取专属加速地址,修改Podman配置文件并移除https://前缀,最后拉取镜像... 目录1.下载podman2.获取阿里云个人容器镜像加速器地址3.更改podman配置文件4.使用po

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

Java Stream 并行流简介、使用与注意事项小结

《JavaStream并行流简介、使用与注意事项小结》Java8并行流基于StreamAPI,利用多核CPU提升计算密集型任务效率,但需注意线程安全、顺序不确定及线程池管理,可通过自定义线程池与C... 目录1. 并行流简介​特点:​2. 并行流的简单使用​示例:并行流的基本使用​3. 配合自定义线程池​示

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python库 Django 的简介、安装、用法入门教程

《Python库Django的简介、安装、用法入门教程》Django是Python最流行的Web框架之一,它帮助开发者快速、高效地构建功能强大的Web应用程序,接下来我们将从简介、安装到用法详解,... 目录一、Django 简介 二、Django 的安装教程 1. 创建虚拟环境2. 安装Django三、创

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

MySQL 索引简介及常见的索引类型有哪些

《MySQL索引简介及常见的索引类型有哪些》MySQL索引是加速数据检索的特殊结构,用于存储列值与位置信息,常见的索引类型包括:主键索引、唯一索引、普通索引、复合索引、全文索引和空间索引等,本文介绍... 目录什么是 mysql 的索引?常见的索引类型有哪些?总结性回答详细解释1. MySQL 索引的概念2