有监督学习简介——阿里云课堂随堂笔记

2023-10-17 18:50

本文主要是介绍有监督学习简介——阿里云课堂随堂笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有监督学习算法

有监督学习(Supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求。

特点为输入数据(训练数据)均是一个明确的标识或结果(标签)。即我们提供样例”教“计算机如何学习。

分类:Classification

分类:就是通过已有的数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y是连续的,则属于回归算法)。

通过对已知类别训练集的分析,从中发现分类规则,依次预测新数据的类型。

分类算法:

  • 按原理分类:
    • 基于统计的:如贝叶斯分类
    • 基于规则的:如决策树算法
    • 基于神经网络的:神经网络算法
    • 基于距离的:KNN(K最近邻)
  • 常用评估指标:
    • 精确率:预测结果与实际结果的比例
    • 召回率:预测结果中某类结果的正确覆盖率
    • F1-Score:统计量,综合评估分类模型,取值0-1之间,越大越好

KNN

KNN:k-NearestNeighbour,分类算法最简单的算法之一,其核心思想是如果离某一个样本最近的k个样本中大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

KNN不但可以预测分类,还可以做回归分析(预测具体的值)。

有N个已知分类结果的样本点,对新记录r使用KNN将其分类的步骤:

  1. 确定k值,确定计算距离的公式,如欧氏距离
    • 确定k的取值,确定距离公式
      • 欧氏距离公式:两点间的距离
      • 曼哈顿距离:绝对值距离,横纵坐标差值绝对值的和
      • 余弦相似度:dij = cos(0A,0B),向量值计算
    • k的取值不宜过大,使用交叉验证确定
  2. 计算r和其他样本点之间的距离dir,其中i∈(1,N)
    • 计算r和所有样本点的距离
  3. 得到目前和r最接近的k个样本,作为KNN距的训练样本
    • 圈定符合条件的k条记录
    • 使用确定的距离计算公式计算所有点
    • 将距离升序排序,得到top K 个的值,选入KNN样本
  4. 将k个样本中最多归属类别的分类标签赋予新记录r,分类结束。
    • 统计k个样本中各分类的数量,从而确定新纪录r的分类

实现伪码

repeat计算已知类别数据集中的点与当前需预测点之间的距离按照距离递增排序
until 样本点遍历完成
返回前K个样本点
统计k个样本点中出现频率最高的类别标签

KNN优缺点

  • 优点:
    1. 原理简单、容易理解、容易实现
    2. 重新训练代价低
    3. 时间、空间复杂度取决于训练集(一般不算太大)
  • 缺点:
    1. KNN属于lazy-learning 算法,得到结果的及时性差
    2. k值对结果影响大(试想K=1或K=N的极端情况)
    3. 不同类记录相差较大时容易误差
    4. 样本点较多时,计算量较大
    5. 相对于决策树,结果的可解释性不强

决策树

构建流程

  1. 准备工作

    • 明确自变量和因变量
    • 确定信息度量的方式
    • 确定终止条件
  2. 选择特征

    • 得到当前待处理子集
    • 计算所有特征信息度量
    • 得到当前最佳分类特征
  3. 创建分支

    • 根据选中特征将当前记录分为不同分支,分支的个数取决于算法
  4. 是否终止

    • 判断是否满足终止条件

      满足则退出循环、不满足则继续递归调用

  5. 结果生成

    • 判断是否需要剪枝

      需要则进行适当剪枝、不需则为最终结果。

熟悉数据,明确目标

  1. 观察数据,明确自变量因变量
  2. 明确信息度量方式:信息增益
    • 基尼系数
  3. 明确分支终止条件
    • 纯度:记录分支完成后所有选项是否符合
    • 记录条数
    • 循环次数

信息熵

  • 信息论中的概念,香农提出
  • 描述混乱程度的度量
  • 取值范围0-1,值越大,越混乱

信息增益和特征选择

  • 信息增益
    • 信息是确定性的增加
    • 从一个状态到另一个状态信息的变化
    • 信息增益越大,对确定性贡献越大

例子:

搜索几种植物果实的颜色和味道,根据这两个信息确定是否为水果?

名称颜色甜味水果
西红柿
黄瓜绿色
苹果
火龙果

不考虑任何特征,直接去估计结果:2个水果,2个不是,概率2/4;

E = -2/4 *log(2/4,2)-2/4*log(2/4,2)=1

以颜色为参考信息来判断,红色3个中2个是水果,1个不是,绿色1个且不是水果,概率2/3,1/3,以及1,0;

E=3/4*(-2/3*log(2/3,2)-1/3*log(1/3,2))+1/4*(-1*log(1,2)-0) = 0.689

同理 以 味道为参考信息,判断可得“:

E = 2/4*(-2/2*log(2/2,2))+2/4*(-2/2*log(2/2,2)) = 0

信息增益:

  • 颜色:1- 0.689 = 0.311
  • 味道:1-0 = 1

构建决策树

  • ID3

在这里插入图片描述

  1. 选择当前最佳特征(循环判断)

    1. 第一级特征选择

      1. 计算各分项的熵
      2. 计算信息增益
      3. 选择信息增益最大的分项作为第一级特征
    2. 第二级特征选择

      和第一级特征选择一样,但是缺少了第一级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

    3. 第三…级特征选择

      和第一、二级特征选择一样,但是缺少了第一、二级特征

      当拆分的数据集中整体的熵均为0,纯度以满足退出条件选择

  2. 生成决策树

ID3系列算法:

  1. ID3:

    • 核心:信息熵,根据信息增益决定树的节点
    • 存在的问题:
    • 信息度量不合理:倾向于选择取值多的字段
    • 输入类型单一:离散型
    • 不做剪枝,容易发生过拟合
  2. C4.5:和ID3相比的改进

    • 用信息增益率代替信息增益
    • 能对连续属性进行离散化,对不完整数据进行处理
    • 进行剪枝
  3. C50:C4.5 相比的改进

    • 使用了boosting
    • 前修建、后修建

CART

  • 核心是基尼系数
  • 分类是二叉树
  • 支持连续值和离散值
  • 后剪枝进行修建
  • 支持回归,可以预测连续值

在这里插入图片描述

ID3是经典的决策树原型(demo),他能很好的表现决策树处理问题的思路和想法,但在实际项目中很少使用

这篇关于有监督学习简介——阿里云课堂随堂笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/227281

相关文章

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

rust 中的 EBNF简介举例

《rust中的EBNF简介举例》:本文主要介绍rust中的EBNF简介举例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 什么是 EBNF?2. 核心概念3. EBNF 语法符号详解4. 如何阅读 EBNF 规则5. 示例示例 1:简单的电子邮件地址

Python 异步编程 asyncio简介及基本用法

《Python异步编程asyncio简介及基本用法》asyncio是Python的一个库,用于编写并发代码,使用协程、任务和Futures来处理I/O密集型和高延迟操作,本文给大家介绍Python... 目录1、asyncio是什么IO密集型任务特征2、怎么用1、基本用法2、关键字 async1、async

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx