异常检测—LOF算法简介以及Python实现

2024-01-10 00:48

本文主要是介绍异常检测—LOF算法简介以及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LOF(Local Outlier Factor)算法是基于密度的异常点检测算法,适合于高维数据检测。

核心思想

离群点处的密度应该较邻域内其他点的密度小。

基本概念

k距离:对于点p,将其他点与之距离进行从小到大排序,第k个即为k距离
k距离邻域:到点p的距离小于等于k距离点,共k个
可达距离:若到点p的实际距离小于k距离,则为k距离,反之为实际距离
局部可达密度:邻域内点到p点可达距离平均值的倒数。(注意方向不要搞反) l r d ( p ) = k ∑ r d i s t lrd(p)=\frac{k}{\sum rdist} lrd(p)=rdistk
局部离群因子:领域内点的局部可达密度的均值除以p点的局部可达密度 l o f ( p ) = ∑ l r d k l r d ( p ) lof(p)=\frac{\frac{\sum lrd}{k}}{lrd(p)} lof(p)=lrd(p)klrd
局部离群因子(LOF)的大小代表该点为离群点的可信度。即因子越大,该点越可能是离群点。

代码示例

from scipy.spatial.distance import cdist
import numpy as npclass LOF:def __init__(self, data, k, epsilon=1.0):self.data = dataself.k = kself.epsilon = epsilonself.N = self.data.shape[0]def get_dist(self):# 计算欧式距离矩阵return cdist(self.data, self.data)def _kdist(self, arr):# 计算k距离inds_sort = np.argsort(arr)neighbor_ind = inds_sort[1:self.k + 1]  # 邻域内点索引return neighbor_ind, arr[neighbor_ind[-1]]def get_rdist(self):# 计算可达距离dist = self.get_dist()nei_kdist = np.apply_along_axis(self._kdist, 1, dist)nei_inds, kdist = zip(*nei_kdist)for i, k in enumerate(kdist):ind = np.where(dist[i] < k)  # 实际距离小于k距离,则可达距离为k距离dist[i][ind] = kreturn nei_inds, distdef get_lrd(self, nei_inds, rdist):# 计算局部可达密度lrd = np.zeros(self.N)for i, inds in enumerate(nei_inds):s = 0for j in inds:s += rdist[j, i]lrd[i] = self.k / sreturn lrddef run(self):# 计算局部离群因子nei_inds, rdist = self.get_rdist()lrd = self.get_lrd(nei_inds, rdist)score = np.zeros(self.N)for i, inds in enumerate(nei_inds):N = len(inds)lrd_nei = sum(lrd[inds])score[i] = lrd_nei / self.k / lrd[i]return score, np.where(score > self.epsilon)[0]if __name__ == '__main__':np.random.seed(42)X_inliers = 0.3 * np.random.randn(100, 2)X_inliers = np.r_[X_inliers + 2, X_inliers - 2]X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))data = np.r_[X_inliers, X_outliers]lof = LOF(data, 5, epsilon=1.2)score, out_ind = lof.run()outliers = data[out_ind]import matplotlib.pyplot as pltplt.scatter(data[:, 0], data[:, 1], color='b')plt.scatter(outliers[:, 0], outliers[:, 1], color='r')plt.show()

参考资料

https://dl.acm.org/ft_gateway.cfm?id=335388&ftid=2057&dwn=1&CFID=51876766&CFTOKEN=b2427295e6580441-94D5C0E4-E786-FC78-16E741661C2500A7
https://blog.csdn.net/wangyibo0201/article/details/51705966
注:代码未经严格测试,仅作示例。如有不当之处,请指正。

这篇关于异常检测—LOF算法简介以及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588990

相关文章

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

mybatis执行insert返回id实现详解

《mybatis执行insert返回id实现详解》MyBatis插入操作默认返回受影响行数,需通过useGeneratedKeys+keyProperty或selectKey获取主键ID,确保主键为自... 目录 两种方式获取自增 ID:1. ​​useGeneratedKeys+keyProperty(推

Spring Boot集成Druid实现数据源管理与监控的详细步骤

《SpringBoot集成Druid实现数据源管理与监控的详细步骤》本文介绍如何在SpringBoot项目中集成Druid数据库连接池,包括环境搭建、Maven依赖配置、SpringBoot配置文件... 目录1. 引言1.1 环境准备1.2 Druid介绍2. 配置Druid连接池3. 查看Druid监控

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Linux在线解压jar包的实现方式

《Linux在线解压jar包的实现方式》:本文主要介绍Linux在线解压jar包的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux在线解压jar包解压 jar包的步骤总结Linux在线解压jar包在 Centos 中解压 jar 包可以使用 u

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

c++ 类成员变量默认初始值的实现

《c++类成员变量默认初始值的实现》本文主要介绍了c++类成员变量默认初始值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录C++类成员变量初始化c++类的变量的初始化在C++中,如果使用类成员变量时未给定其初始值,那么它将被