为什么机器学习算法能工作---V2018/11/27

2024-06-15 17:18

本文主要是介绍为什么机器学习算法能工作---V2018/11/27,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018/11/27
  很多讲解机器学习的书籍重点都放在算法的讲解上,很少去说明为什么机器学习可以工作。我觉得这之中的一本比较好的书就是《统计学习方法》了,这本书给我的印象很深刻,因为它让我从数学,或者说从统计学的角度理解了机器学习。
  前两天找到了一篇博士的论文,它的题目就是“机器学习为什么能工作”,这个论文将机器学习比拟成一个搜索的框架。从第一感觉而言,这个说法我之前也遇见过,好像就是《统计学习方法》里面提到的。就比如说,假定我用了一个模型来进行解决问题,那么这个算法的后续过程就是从它所在的假设空间中去找寻各种参数来拟合,这就是一个搜索问题。这篇论文也提到了经典的统计学习的理论,统计学习的理论[1]的中心论点就是找到一个风险最低的函数,从我的角度来看,也算是一个搜索问题。(这其实也是一篇论文,1999年的)


  这两篇文章中,可能是先入为主的思想,我更倾向于统计学习的理论。当然,我也有一些自己的理解,但个人能力毕竟有限,肯定是比不上前人;或者说,我自己的想法跟别人的是一样的。我感觉结果应该是后者。下面来说说我的理解。
  机器学习的基础建立在训练数据集上,如果数据集选的好,或者说它的数量够多,那么他就可以整体上代表真实的总体样本。如此说来,如果是可以知道样本的整体分布,那岂不是就可以利用贝叶斯这种概率论上的方法来实现了。但贝叶斯方法假设了样本是正态分布(这一块需要进一步考究,是不是这个原因导致的贝叶斯方法的缺陷,这句话我在哪本书看过,但已经很久了。),它自身并不能满足需求。
  各式各样的算法在训练数据集的支撑下,可以达到各种各样的效果。我们常说过拟合或者欠拟合,算法不就是一个拟合的过程(比如回归中常说拟合数据这个概念)。过拟合就是一种对数据粘合度太高的情况,那么是不是就可以这样理解,机器学习算法也是在粘合数据,但通过我们的控制,他可以对数据的粘合度不那么高,从而实现分类、预测等效果。这就应了那句话,机器学习就是从历史数据中学习,来预测未来的(对应于预测问题)。而从历史数据中学习到,称之为知识,我更倾向于使用规律的词来描述。


  这些规律的表现形式各式各样,举一个最简单的例子,线性回归中得到的回归方程。算法的运作,就是求解出方程的参数。它展现在图像上,就是一条曲线切合着这些点,这就是规律。而其他的各种类型的模型,又采用着不同的方式来和这些数据点产生交互。在得到模型之后,我们只需要将要新测试的点嵌套其中,得到相应的输出。比较遗憾的是,在高维数据面前,可视化成为一个非常难的问题,也因此常用低维的数据来做演示。
  机器学习算法工作为什么能工作?按照自上而下的分析法,上层,机器学习提供了一个大的框架,这个框架就是经常看到的那个训练、输出的图。而不同的算法,它的表现形式不一样,也因此再往下一层它的成果也不一样。但若把它当作一个黑盒子,它呈现出来的API是一样的。

总结

  这篇随笔写的不好,没有写出有深度的东西,还是考虑问题不够全面,经验不够丰富。而且这个文章很干的两个原因,就是整体条理性不清晰,另外大片大片的文字让人无法回顾。后续还要修改。

参考文献

[1]V. N. Vapnik, “An overview of statistical learning theory,” IEEE Transactions on Neural Networks, vol. 10, no. 5, pp. 988–999, Sep. 1999.

这篇关于为什么机器学习算法能工作---V2018/11/27的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064083

相关文章

Spring @Scheduled注解及工作原理

《Spring@Scheduled注解及工作原理》Spring的@Scheduled注解用于标记定时任务,无需额外库,需配置@EnableScheduling,设置fixedRate、fixedDe... 目录1.@Scheduled注解定义2.配置 @Scheduled2.1 开启定时任务支持2.2 创建

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

RabbitMQ工作模式中的RPC通信模式详解

《RabbitMQ工作模式中的RPC通信模式详解》在RabbitMQ中,RPC模式通过消息队列实现远程调用功能,这篇文章给大家介绍RabbitMQ工作模式之RPC通信模式,感兴趣的朋友一起看看吧... 目录RPC通信模式概述工作流程代码案例引入依赖常量类编写客户端代码编写服务端代码RPC通信模式概述在R

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.