KNN和LOF两种算法对比

2023-10-14 13:50
文章标签 算法 两种 knn 对比 lof

本文主要是介绍KNN和LOF两种算法对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近在学习KNN和LOF算法,记录一下自己一些浅显的理解
1.相同点和不同点
通俗地说,KNN算法的基本思想都是:物以类聚人以群分,你的邻居是啥那么你就最有可能是啥;
LOF算法的思想是正常人都是合群的,不合群的就有可能是不正常的。
1.1相同点
都是基于K-邻近距离对样本进行分类,原理比较类似。

1.2不同点
(1)KNN通过k-邻近距离判断自己邻居是哪一类,最终选择比例最高的那一类作为该样本点的类别;

(2)LOF没有给出具体的分类,最终算出的是每个点的局部离群因子,LOF值小于1,说明该点接近密度中心,接近于1,说明和周围的点比较集中,它们为同一簇,局部离群因子越大(大于1),说明该点周围比较分散或者离集体比较远,越有可能是一个异常点。

(3)LOF貌似不存在学习和训练的过程,给一段数据直接开始算,KNN有一个训练样本作为参考。

2.有监督和无监督
KNN是一种有监督学习的算法,在训练集中会给出样本标签,距离该点最近的几个样本是什么标签(占比最高的,中间可能混进一两个相反的标签),那么该点就取对应的标签。
LOF是一种无监督学习,认为正常数据都是分布比较集中的,离群体比较远的有可能是异常值,最终计算出LOF(局部离群因子)得出远离群体的程度,通过给定一个阈值判断是正常数据还是异常数据。

3.案例尝试
用网上参加的一个还款逾期风险的比赛数据尝试了一下,数据分布情况如下图:
在这里插入图片描述
(1)用KNN算法进行对训练集测试,准确率为0.79,对验证集进行计算,准确率为0.623;
(2)用LOF算法对训练集进行测试,局部离群因子取4(这是准确率最高的情况,仅针对这个样本,其他的数据可能需要另外取),准确率为0.702,对验证集计算,准确率为0.249
案例总结:
(1)验证集给的数据分布中,信用好的数据占比较少,但是不影响KNN算法的测试,因为本来就是有标签的,有训练集作为参考,验证集的数据多少不影响KNN的计算。
(2)LOF的计算完全是依赖于所给的数据的,数据少的类别可能就比较“吃亏”,被误认为是异常值,给的这组数据可能是比赛方留了一个小小的trick

个人的一些理解,不足之处请大佬们多指正

这篇关于KNN和LOF两种算法对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210943

相关文章

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

C#使用StackExchange.Redis实现分布式锁的两种方式介绍

《C#使用StackExchange.Redis实现分布式锁的两种方式介绍》分布式锁在集群的架构中发挥着重要的作用,:本文主要介绍C#使用StackExchange.Redis实现分布式锁的... 目录自定义分布式锁获取锁释放锁自动续期StackExchange.Redis分布式锁获取锁释放锁自动续期分布式

Windows 上如果忘记了 MySQL 密码 重置密码的两种方法

《Windows上如果忘记了MySQL密码重置密码的两种方法》:本文主要介绍Windows上如果忘记了MySQL密码重置密码的两种方法,本文通过两种方法结合实例代码给大家介绍的非常详细,感... 目录方法 1:以跳过权限验证模式启动 mysql 并重置密码方法 2:使用 my.ini 文件的临时配置在 Wi

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

Android实现打开本地pdf文件的两种方式

《Android实现打开本地pdf文件的两种方式》在现代应用中,PDF格式因其跨平台、稳定性好、展示内容一致等特点,在Android平台上,如何高效地打开本地PDF文件,不仅关系到用户体验,也直接影响... 目录一、项目概述二、相关知识2.1 PDF文件基本概述2.2 android 文件访问与存储权限2.

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

Win11安装PostgreSQL数据库的两种方式详细步骤

《Win11安装PostgreSQL数据库的两种方式详细步骤》PostgreSQL是备受业界青睐的关系型数据库,尤其是在地理空间和移动领域,:本文主要介绍Win11安装PostgreSQL数据库的... 目录一、exe文件安装 (推荐)下载安装包1. 选择操作系统2. 跳转到EDB(PostgreSQL 的

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Docker镜像pull失败两种解决办法小结

《Docker镜像pull失败两种解决办法小结》有时候我们在拉取Docker镜像的过程中会遇到一些问题,:本文主要介绍Docker镜像pull失败两种解决办法的相关资料,文中通过代码介绍的非常详细... 目录docker 镜像 pull 失败解决办法1DrQwWCocker 镜像 pull 失败解决方法2总