为什么机器学习算法能工作---V2018/11/27

2024-06-15 17:18

本文主要是介绍为什么机器学习算法能工作---V2018/11/27,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018/11/27
  很多讲解机器学习的书籍重点都放在算法的讲解上,很少去说明为什么机器学习可以工作。我觉得这之中的一本比较好的书就是《统计学习方法》了,这本书给我的印象很深刻,因为它让我从数学,或者说从统计学的角度理解了机器学习。
  前两天找到了一篇博士的论文,它的题目就是“机器学习为什么能工作”,这个论文将机器学习比拟成一个搜索的框架。从第一感觉而言,这个说法我之前也遇见过,好像就是《统计学习方法》里面提到的。就比如说,假定我用了一个模型来进行解决问题,那么这个算法的后续过程就是从它所在的假设空间中去找寻各种参数来拟合,这就是一个搜索问题。这篇论文也提到了经典的统计学习的理论,统计学习的理论[1]的中心论点就是找到一个风险最低的函数,从我的角度来看,也算是一个搜索问题。(这其实也是一篇论文,1999年的)


  这两篇文章中,可能是先入为主的思想,我更倾向于统计学习的理论。当然,我也有一些自己的理解,但个人能力毕竟有限,肯定是比不上前人;或者说,我自己的想法跟别人的是一样的。我感觉结果应该是后者。下面来说说我的理解。
  机器学习的基础建立在训练数据集上,如果数据集选的好,或者说它的数量够多,那么他就可以整体上代表真实的总体样本。如此说来,如果是可以知道样本的整体分布,那岂不是就可以利用贝叶斯这种概率论上的方法来实现了。但贝叶斯方法假设了样本是正态分布(这一块需要进一步考究,是不是这个原因导致的贝叶斯方法的缺陷,这句话我在哪本书看过,但已经很久了。),它自身并不能满足需求。
  各式各样的算法在训练数据集的支撑下,可以达到各种各样的效果。我们常说过拟合或者欠拟合,算法不就是一个拟合的过程(比如回归中常说拟合数据这个概念)。过拟合就是一种对数据粘合度太高的情况,那么是不是就可以这样理解,机器学习算法也是在粘合数据,但通过我们的控制,他可以对数据的粘合度不那么高,从而实现分类、预测等效果。这就应了那句话,机器学习就是从历史数据中学习,来预测未来的(对应于预测问题)。而从历史数据中学习到,称之为知识,我更倾向于使用规律的词来描述。


  这些规律的表现形式各式各样,举一个最简单的例子,线性回归中得到的回归方程。算法的运作,就是求解出方程的参数。它展现在图像上,就是一条曲线切合着这些点,这就是规律。而其他的各种类型的模型,又采用着不同的方式来和这些数据点产生交互。在得到模型之后,我们只需要将要新测试的点嵌套其中,得到相应的输出。比较遗憾的是,在高维数据面前,可视化成为一个非常难的问题,也因此常用低维的数据来做演示。
  机器学习算法工作为什么能工作?按照自上而下的分析法,上层,机器学习提供了一个大的框架,这个框架就是经常看到的那个训练、输出的图。而不同的算法,它的表现形式不一样,也因此再往下一层它的成果也不一样。但若把它当作一个黑盒子,它呈现出来的API是一样的。

总结

  这篇随笔写的不好,没有写出有深度的东西,还是考虑问题不够全面,经验不够丰富。而且这个文章很干的两个原因,就是整体条理性不清晰,另外大片大片的文字让人无法回顾。后续还要修改。

参考文献

[1]V. N. Vapnik, “An overview of statistical learning theory,” IEEE Transactions on Neural Networks, vol. 10, no. 5, pp. 988–999, Sep. 1999.

这篇关于为什么机器学习算法能工作---V2018/11/27的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064083

相关文章

C#实现将Excel工作表拆分为多个窗格

《C#实现将Excel工作表拆分为多个窗格》在日常工作中,我们经常需要处理包含大量数据的Excel文件,本文将深入探讨如何在C#中利用强大的Spire.XLSfor.NET自动化实现Excel工作表的... 目录为什么需要拆分 Excel 窗格借助 Spire.XLS for .NET 实现冻结窗格(Fro

C#借助Spire.XLS for .NET实现Excel工作表自动化样式设置

《C#借助Spire.XLSfor.NET实现Excel工作表自动化样式设置》作为C#开发者,我们经常需要处理Excel文件,本文将深入探讨如何利用C#代码,借助强大的Spire.XLSfor.N... 目录为什么需要自动化工作表样式使用 Spire.XLS for .NET 实现工作表整体样式设置样式配置

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

C#利用Free Spire.XLS for .NET复制Excel工作表

《C#利用FreeSpire.XLSfor.NET复制Excel工作表》在日常的.NET开发中,我们经常需要操作Excel文件,本文将详细介绍C#如何使用FreeSpire.XLSfor.NET... 目录1. 环境准备2. 核心功能3. android示例代码3.1 在同一工作簿内复制工作表3.2 在不同

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.

Java中的xxl-job调度器线程池工作机制

《Java中的xxl-job调度器线程池工作机制》xxl-job通过快慢线程池分离短时与长时任务,动态降级超时任务至慢池,结合异步触发和资源隔离机制,提升高频调度的性能与稳定性,支撑高并发场景下的可靠... 目录⚙️ 一、调度器线程池的核心设计 二、线程池的工作流程 三、线程池配置参数与优化 四、总结:线程