LOF(局部离群因子)异常值检测

2024-05-03 20:36

本文主要是介绍LOF(局部离群因子)异常值检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LOF(Local Outlier Factor,局部离群因子)异常值检测的原理和实现步骤时,我们可以进一步详细解释如下:

LOF(局部离群因子)异常值检测代码获取戳此处代码获取戳此处代码获取戳此处代码获取戳此处

原理

LOF算法基于密度的概念来判断数据集中的异常点。它比较每个数据点与其邻近点的局部密度,以确定该点是否异常。如果一个点的局部密度明显低于其邻近点,则它被视为异常点。

LOF算法的关键在于“局部”的概念,这意味着它考虑了数据点的邻近区域,而不是全局数据集。这使得LOF算法能够识别局部异常点,即使它们在整个数据集中的位置并不异常。

实现步骤

  1. 计算k距离(k-distance):
    • 对于数据集中的每个点p,找到距离它最近的k个点的最大距离,这个距离就是p的k距离。
    • k距离表示了p的邻域大小。
  2. 计算k距离邻域(k-distance neighborhood):
    • 对于数据集中的每个点p,找到所有距离p不超过其k距离的点,这些点组成的集合就是p的k距离邻域。
  3. 计算可达距离(Reachability Distance):
    • 对于点p和其k距离邻域中的点o,p关于o的可达距离定义为o的k距离和p与o之间的实际距离中的较大值。
    • 可达距离用于避免距离p很近但k距离很大的点对p的局部密度产生过大的影响。
  4. 计算局部可达密度(Local Reachability Density,LRD):
    • 对于点p,其局部可达密度是其k距离邻域中所有点关于p的可达距离之和的倒数,再除以k。
    • 局部可达密度越高,说明p的邻域点越密集,p越可能是正常点。
  5. 计算局部离群因子(Local Outlier Factor,LOF):
    • 对于点p,其LOF是其k距离邻域中所有点的局部可达密度与p的局部可达密度的比值的平均值。
    • 如果LOF接近1,说明p的密度与其邻域点相似,p是正常点;如果LOF远大于1,说明p的密度明显低于其邻域点,p是异常点。
  6. 异常检测:
    • 根据LOF值,设定一个阈值来判断哪些点是异常点。通常,LOF值大于某个阈值的点被认为是异常点。

注意事项

  • k值的选择对LOF算法的结果有很大影响。k值太小可能导致误报(将正常点误判为异常点),k值太大可能导致漏报(漏掉一些真正的异常点)。
  • LOF算法对高维数据可能不太有效,因为高维空间中点的距离度量可能不太准确。
  • LOF算法的计算复杂度较高,对于大规模数据集可能需要较长的计算时间。

实际应用

LOF算法在欺诈检测、网络安全、工业监测等领域都有广泛的应用。例如,在信用卡欺诈检测中,LOF算法可以帮助识别出与正常交易模式显著不同的异常交易。在网络安全领域,LOF算法可以用于检测网络流量中的异常模式,从而识别出可能的网络攻击。

部分代码展示

function lof = LOF(dist,K)
m=size(dist,1);                 %m为对象数,dist为两两之间的距离
distance = zeros(m,m);
num = zeros(m,m);               %distance 和num用来记录排序后的顺序,和对象编号顺序
kdistance = zeros(m,1);         %计算每个对象的kdistance
count  = zeros(m,1);            %k邻域的对象数
reachdist = zeros(m,m);         %计算两两之间的reachable-distance
lrd = zeros(m,1);
lof = zeros(m,1);
%计算k-距离
for i=1:m[distance(i,:),num(i,:)]=sort(dist(i,:),'ascend');kdistance(i)=distance(i,K+1); count(i) = -1;%自己的距离为0,要去掉自己for j = 1:mif dist(i,j)<=kdistance(i)count(i) = count(i)+1;endend
end
for i = 1:mfor j=1:i-1reachdist(i,j) = max(dist(i,j),kdistance(j));reachdist(j,i) = reachdist(i,j);end

数据集格式为excel

结果图

这篇关于LOF(局部离群因子)异常值检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/957592

相关文章

javax.net.ssl.SSLHandshakeException:异常原因及解决方案

《javax.net.ssl.SSLHandshakeException:异常原因及解决方案》javax.net.ssl.SSLHandshakeException是一个SSL握手异常,通常在建立SS... 目录报错原因在程序中绕过服务器的安全验证注意点最后多说一句报错原因一般出现这种问题是因为目标服务器

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Java空指针异常NullPointerException的原因与解决方案

《Java空指针异常NullPointerException的原因与解决方案》在Java开发中,NullPointerException(空指针异常)是最常见的运行时异常之一,通常发生在程序尝试访问或... 目录一、空指针异常产生的原因1. 变量未初始化2. 对象引用被显式置为null3. 方法返回null

redis在spring boot中异常退出的问题解决方案

《redis在springboot中异常退出的问题解决方案》:本文主要介绍redis在springboot中异常退出的问题解决方案,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴... 目录问题:解决 问题根源️ 解决方案1. 异步处理 + 提前ACK(关键步骤)2. 调整Redis消费者组

springboot项目redis缓存异常实战案例详解(提供解决方案)

《springboot项目redis缓存异常实战案例详解(提供解决方案)》redis基本上是高并发场景上会用到的一个高性能的key-value数据库,属于nosql类型,一般用作于缓存,一般是结合数据... 目录缓存异常实践案例缓存穿透问题缓存击穿问题(其中也解决了穿透问题)完整代码缓存异常实践案例Red

Java内存区域与内存溢出异常的详细探讨

《Java内存区域与内存溢出异常的详细探讨》:本文主要介绍Java内存区域与内存溢出异常的相关资料,分析异常原因并提供解决策略,如参数调整、代码优化等,帮助开发者排查内存问题,需要的朋友可以参考下... 目录一、引言二、Java 运行时数据区域(一)程序计数器(二)Java 虚拟机栈(三)本地方法栈(四)J

解决Java异常报错:java.nio.channels.UnresolvedAddressException问题

《解决Java异常报错:java.nio.channels.UnresolvedAddressException问题》:本文主要介绍解决Java异常报错:java.nio.channels.Unr... 目录异常含义可能出现的场景1. 错误的 IP 地址格式2. DNS 解析失败3. 未初始化的地址对象解决

python利用backoff实现异常自动重试详解

《python利用backoff实现异常自动重试详解》backoff是一个用于实现重试机制的Python库,通过指数退避或其他策略自动重试失败的操作,下面小编就来和大家详细讲讲如何利用backoff实... 目录1. backoff 库简介2. on_exception 装饰器的原理2.1 核心逻辑2.2