【机器学习300问】41、如果数据集中有少量带有标签,到底是选择异常检测还是有监督学习呢?

本文主要是介绍【机器学习300问】41、如果数据集中有少量带有标签,到底是选择异常检测还是有监督学习呢?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景问题

        有时候会遇到这样一种情况,构建异常检测系统的时候也使用了少量带标签的数据,既然使用了带标签的数据,那么就和监督学习有点类似,那为什么不用监督学习呢?

二、异常检测任务的特殊性

        在构建异常检测系统的过程中,有时我们会面临这样的场景:虽然仅采用了少量带标签的数据,但这已经引入了某种程度上的监督信号,这与纯无监督异常检测方法有所不同。尽管如此,我们并未完全采用传统意义上的有监督学习方法,原因在于:

  • 数据集不平衡

        异常检测通常面对的是不平衡的数据集,其中正常数据大量存在而异常数据相对稀缺。这种不平衡导致使用传统有监督学习方法变得不合理,因为模型很可能会倾向于将大多数样本归类为主导的"正常"类别,而忽略稀有的"异常"类别。

  • 异常事件少见且多样

        异常检测任务里很难获取到足够多且具有代表性的异常标签数据,因为异常事件发生的频次低,并且类型可能多种多样和未知。无法获取足够数量且全面覆盖各种异常类型的标签数据来实施严格的有监督学习。

三、异常检测与监督学习对比

        一句话先把最重要的说出来:“异常检测要检测出那些之前从来都没见过的异常,有监督无法做到,他只能识别出训练集中出现过的异常”

异常检测监督学习
非常少量的正类(异常数据y=1)大量的负类(正常数据y=0)同时有大量的正类和负类
遍历许多不同种类的异常非常难,只能根据少量正类数据训练算法,未来遇到的异常可能与已经掌握的异常十分不同有足够多的正类,足以训练算法,未来遇到的正类数据可能与训练集中的十分相似
欺诈行为检测、工业缺陷检测等等天气预报、肿瘤分类等等

这篇关于【机器学习300问】41、如果数据集中有少量带有标签,到底是选择异常检测还是有监督学习呢?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/832983

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Java.lang.InterruptedException被中止异常的原因及解决方案

《Java.lang.InterruptedException被中止异常的原因及解决方案》Java.lang.InterruptedException是线程被中断时抛出的异常,用于协作停止执行,常见于... 目录报错问题报错原因解决方法Java.lang.InterruptedException 是 Jav

2025版mysql8.0.41 winx64 手动安装详细教程

《2025版mysql8.0.41winx64手动安装详细教程》本文指导Windows系统下MySQL安装配置,包含解压、设置环境变量、my.ini配置、初始化密码获取、服务安装与手动启动等步骤,... 目录一、下载安装包二、配置环境变量三、安装配置四、启动 mysql 服务,修改密码一、下载安装包安装地

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使