异常检测—IsolationForest算法简介以及Python实现

2024-01-10 00:48

本文主要是介绍异常检测—IsolationForest算法简介以及Python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

IsolationForest是一种适合高维数据集的异常值检测算法。

核心思想

通过随机切分数据集,异常点应该是容易被隔离的。

算法简介

  1. 随机选择一个特征,再在该特征下最大与最小值间随机选择一个值作为切分点,递归切分数据集,直到每个样本点被隔开,从而构建一颗类似CART分类树的随机树。重复构建多颗随机树。
  2. 从根节点到叶节点的路径越长,代表该点越难被隔离,即该点越不可能是异常点。计算每个样本点路径长的平均值,即得到该点得分,得分越低越可能是异常点。原论文中,提出了以下方法对异常分值进行归一化:
    论文图片
    式中 c ( ψ ) c(\psi) c(ψ)值样本的个数。s值越大越可能是异常值

代码示例

# 实现IsolationForest高维数据的异常值检测算法
import numpy as np
import math
from collections import Counterclass Node:def __init__(self, val=None, right=None, left=None):self.val = val  # 存储样本索引,仅叶节点self.right = rightself.left = leftclass RandomTree:def __init__(self):self.tree = Noneself.n_feas = Nonedef get_split(self, data, inds):# 随机构建切分点f = np.random.choice(self.n_feas)  # 随机选择一个特征up = max(data[inds, f])down = min(data[inds, f])v = (up - down) * np.random.sample() + down  # 在该特征的最大与最小值间随机选择一个数return f, vdef split(self, data, inds):# 切分数据集f, v = self.get_split(data, inds)left_ind = []right_ind = []for i in inds:if data[i, f] <= v:left_ind.append(i)else:right_ind.append(i)return left_ind, right_inddef buildTree(self, data, inds):if len(inds) < 3:  # 叶节点return Node(val=inds)left_ind, right_ind = self.split(data, inds)left = self.buildTree(data, left_ind)right = self.buildTree(data, right_ind)return Node(left=left, right=right)def fit(self, data):self.n_feas = data.shape[1]inds = np.arange(data.shape[0])self.tree = self.buildTree(data, inds)returndef traverse(self):# 遍历树,统计每个样本的路径长path_len = Counter()i = -1def helper(currentNode):nonlocal ii += 1if currentNode.val is not None:for ind in currentNode.val:path_len[ind] = ireturnfor child in [currentNode.left, currentNode.right]:helper(child)i -= 1returnhelper(self.tree)return path_lenclass IsolationForest:def __init__(self, n_tree, epsilon):self.n_tree = n_treeself.epsilon = epsilon  # 异常点比例self.scores = Counter()def fit_predict(self, data):for _ in range(self.n_tree):RT = RandomTree()RT.fit(data)path_len = RT.traverse()self.scores = self.scores + path_lenn_sample = data.shape[0]phi = 2 * math.log(n_sample - 1) - 2 * (n_sample - 1) / n_samplefor key, val in self.scores.items():self.scores[key] = 2 ** -(val / self.n_tree / phi)  # 归一化q = np.quantile(list(self.scores.values()), 1 - self.epsilon)outliers = [key for key, val in self.scores.items() if val > q]return outliersif __name__ == '__main__':np.random.seed(42)X_inliers = 0.3 * np.random.randn(100, 2)X_inliers = np.r_[X_inliers + 2, X_inliers - 2]X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))data = np.r_[X_inliers, X_outliers]IF = IsolationForest(100, 0.1)out_ind = IF.fit_predict(data)outliers = data[out_ind]import matplotlib.pyplot as pltplt.scatter(data[:, 0], data[:, 1], color='b')plt.scatter(outliers[:, 0], outliers[:, 1], color='r')plt.show()

参考资料

作者原论文
https://blog.csdn.net/u013709270/article/details/73436588

注:代码未经严格测试,仅作示例,如有不当之处,请指正。

这篇关于异常检测—IsolationForest算法简介以及Python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/588991

相关文章

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

SpringBoot中使用Flux实现流式返回的方法小结

《SpringBoot中使用Flux实现流式返回的方法小结》文章介绍流式返回(StreamingResponse)在SpringBoot中通过Flux实现,优势包括提升用户体验、降低内存消耗、支持长连... 目录背景流式返回的核心概念与优势1. 提升用户体验2. 降低内存消耗3. 支持长连接与实时通信在Sp

Conda虚拟环境的复制和迁移的四种方法实现

《Conda虚拟环境的复制和迁移的四种方法实现》本文主要介绍了Conda虚拟环境的复制和迁移的四种方法实现,包括requirements.txt,environment.yml,conda-pack,... 目录在本机复制Conda虚拟环境相同操作系统之间复制环境方法一:requirements.txt方法

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

springboot下载接口限速功能实现

《springboot下载接口限速功能实现》通过Redis统计并发数动态调整每个用户带宽,核心逻辑为每秒读取并发送限定数据量,防止单用户占用过多资源,确保整体下载均衡且高效,本文给大家介绍spring... 目录 一、整体目标 二、涉及的主要类/方法✅ 三、核心流程图解(简化) 四、关键代码详解1️⃣ 设置

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

Nginx 配置跨域的实现及常见问题解决

《Nginx配置跨域的实现及常见问题解决》本文主要介绍了Nginx配置跨域的实现及常见问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来... 目录1. 跨域1.1 同源策略1.2 跨域资源共享(CORS)2. Nginx 配置跨域的场景2.1