机器学习Day2-机器学习算法过程没有免费午餐定理

2024-02-23 20:50

本文主要是介绍机器学习Day2-机器学习算法过程没有免费午餐定理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、机器学习算法过程

大部分人认为随着大数据和深度学习的发展,只要将网上的数据随意的放进模型中,就可以实现了,其实这是一个错误的观点【笔者一开始也是这样想的】,确实有时候能得到正确的结论,但是大部分是错的

1.特征提取【Feature Extraction

  • 通过训练样本获得的,对机器学习任务有帮助的多维度数据

  • 机器学习的重点不是为了研究如何去提取特征

  • 机器学习的重点:假设在已经提取好特征的前提下,去如何构造算法获得更好的性能

  • 当然也不是提取特征不重要,如果我们提取了好的特征,那么我们机器就能获得不错的性能,相反,如果我们提取的特征很差,即使我们有非常大的机器学习的算法,也是不可能获得好的性能的,

2.为什么不以特征提取为重点?

这是因为不同的任务提取特征的方式是不同的,针对不同的煤质不同的任务,提取特征的方式是千变万化的,【例如语音、图像、视频等】,要是以此为重点,即使花费几门课也讲不完,因此机器学习注重于在假设已经获得特征的前提下,去研究合理的算法,去让学习系统获得更好的性能。

3.特征选择【Feature Selection

    • 例子

  • 我们可以发现,白细胞和红细胞在周长和面积这两个特征中的重合度很少,而其圆形度,虽然红细胞在白细胞的上方,但是重合度很大,因此如果我们采用圆形度作为区分白细胞和红细胞的特征,那么其识别率并不会很高,这两种在其他方面的重合度也很大,因此,我们会采取重合度少的周长和面积,作为区分白细胞和红细胞的特征,以此来构建机器学习的系统。

4.算法构建

那么如何以这两种特征来构建算法呢?他们采取了支持向量机【Support Vector Machine】,一共有三种内核,可以把下列的三种看做三种算法模式

  1. 线性内核

  1. 多项式内核

  1. 高斯径向基函数核

5.特征空间【Feature Space

  • 基于上述两种特征,研究者将白细胞和红细胞画到了同一个二维空间中,其中横坐标代表面积纵坐标代表周长,以此去描点,并做了一定程度的归一,将这两个特征的值归一化到【-1,1】,在这个例子中,我们把这个二维空间成为特征空间【Feature Space】,如果在其他方面,有多个特征,那么特征空间可以是多维的。

  • 那么基于之前提到的三种算法,我们在图纸上画出了三条不同的分界线,一旦我们画出这一线条,那么就代表我们机器学习的过程就已经结束了。

  • 为何这么说呢,例如,这时候来了一个新的样本,我们计算它的周长和面积,再进行一定程度上的归一,再画到这张图上,看是在这一条线的那一侧,就可以进行分类了

  • 在此有两个概念【维度和标准】,【维度】有人说,我一眼就能画出这条线,那是因为这里的维度是二维的,那么如果,维度是上万维,那么你还能看出来吗?人眼对于多维是缺乏想象力的。【标准】上述基于三种算法,画出的线,对于某些区域的划分是不一样的,例如,第二张图片和第三张图片的左下侧

  • 那么哪种算法更好呢,我们针对于不同的情况,需要去采取不同的方法,这个没有绝对意义的好和坏的标准,因为我们采取的数据是有限的,当然我们也不可能穷尽所有的样本数据,如何针对不同的应用场景,选择不同的机器学习算法,构造新的机器学习算法,解决目前无法解决的应用场景,这是一个理论和实践的科学过程

二、没有免费午餐定理【No Free Lunch Theorem

  • 针对于之前提出的哪种算法更好,我们在这给出一个初步的回答,1995年,D.H.Wolpert等人提出了没有免费午餐定理【No Free Lunch Theorem

  • 定理概述:任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本表现不好,如果不对数据在特征空间的先验分布有一定的假设,那么表现好与表现不好的情况一样多,因此不存在,任何情况下都是非常完美的机器学习算法

  • 对于先验分布概率,有如下要求

那么,这一假设有道理吗?有道理,但是也可能出错

基于没有免费午餐定理,我们如果不对特征空间的先验分布有要求,那么所以算法的表现概率都是一样的,我们不能片面的去夸大这一定理的作用,从而对开发新的算法丧失信心,但是我们要时刻牢记这一定理的提醒,

因此,再好的算法,也会有犯错的可能,【没有免费午餐定理】告诉我们,没有放之四海皆准的算法,没有人能知道先验样本的假设【就像,明天的太阳一定会升起吗】

这篇关于机器学习Day2-机器学习算法过程没有免费午餐定理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/739891

相关文章

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

SpringBoot整合liteflow的详细过程

《SpringBoot整合liteflow的详细过程》:本文主要介绍SpringBoot整合liteflow的详细过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋...  liteflow 是什么? 能做什么?总之一句话:能帮你规范写代码逻辑 ,编排并解耦业务逻辑,代码

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

MySQL中的InnoDB单表访问过程

《MySQL中的InnoDB单表访问过程》:本文主要介绍MySQL中的InnoDB单表访问过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、访问类型【1】const【2】ref【3】ref_or_null【4】range【5】index【6】

浏览器插件cursor实现自动注册、续杯的详细过程

《浏览器插件cursor实现自动注册、续杯的详细过程》Cursor简易注册助手脚本通过自动化邮箱填写和验证码获取流程,大大简化了Cursor的注册过程,它不仅提高了注册效率,还通过友好的用户界面和详细... 目录前言功能概述使用方法安装脚本使用流程邮箱输入页面验证码页面实战演示技术实现核心功能实现1. 随机

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

CSS3打造的现代交互式登录界面详细实现过程

《CSS3打造的现代交互式登录界面详细实现过程》本文介绍CSS3和jQuery在登录界面设计中的应用,涵盖动画、选择器、自定义字体及盒模型技术,提升界面美观与交互性,同时优化性能和可访问性,感兴趣的朋... 目录1. css3用户登录界面设计概述1.1 用户界面设计的重要性1.2 CSS3的新特性与优势1.

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现