【异常点检测 孤立森林算法】10分钟带你了解下孤立森林算法

2024-09-07 05:48

本文主要是介绍【异常点检测 孤立森林算法】10分钟带你了解下孤立森林算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),因此该算法简单、高效,在工业界应用较多。
在这里插入图片描述

用一个例子来说明孤立森林的思想:假设现在有一组一维数据(如下图),我们要对这组数据进行切分,目的是把点A和 B单独切分出来,先在最大,值和最小值之间随机选择一个值 X,然后按照 <X 和 >=X 可以把数据分成左右两组,在这两组数据中分别重复这个步骤,直到数据不可再分。
点B跟其他数据比较疏离,可能用很少的次数就可以把它切分出来,点 A 跟其他数据点聚在一起,可能需要更多的次数才能把它切分出来。
那么从统计意义上来说,相对聚集的点需要分割的次数较多,比较孤立的点需要的分割次数少,孤立森林就是利用分割的次数来度量一个点是聚集的(正常)还是孤立的(异常)。

下面构造一个例子 ,数据集是月工资的,单位为万,看看哪些是异常的。

在这里插入图片描述
我们用sklearn 实现,我们使用sklearn中的孤立森林,进行参数调节讲解,一般任务默认参数即可,算法API地址:

孤立森林sklearn官方api接口

1、基本用法

sklearn.ensemble.IsolationForest(*, n_estimators=100, max_samples='auto', contamination='auto', max_features=1.0, bootstrap=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)

2、参数详解

n_estimators : int, optional (default=100)iTree的个数,指定该森林中生成的随机树数量,默认为100个max_samples : int or float, optional (default=”auto”)构建子树的样本数,整数为个数,小数为占全集的比例,用来训练随机数的样本数量,即子采样的大小如果设置的是一个int常数,那么就会从总样本X拉取max_samples个样本来生成一棵树iTree如果设置的是一个float浮点数,那么就会从总样本X拉取max_samples * X.shape[0]个样本,X.shape[0]表示总样本个数如果设置的是"auto",则max_samples=min(256, n_samples),n_samples即总样本的数量如果max_samples值比提供的总样本数量还大的话,所有的样本都会用来构造数,意思就是没有采样了,构造的n_estimators棵iTree使用的样本都是一样的,即所有的样本contamination : float in (0., 0.5), optional (default=0.1)取值范围为(0., 0.5),表示异常数据占给定的数据集的比例,数据集中污染的数量,其实就是训练数据中异常数据的数量,比如数据集异常数据的比例。定义该参数值的作用是在决策函数中定义阈值。如果设置为'auto',则决策函数的阈值就和论文中定义的一样max_features : int or float, optional (default=1.0)构建每个子树的特征数,整数位个数,小数为占全特征的比例,指定从总样本X中抽取来训练每棵树iTree的属性的数量,默认只使用一个属性如果设置为int整数,则抽取max_features个属性如果是float浮点数,则抽取max_features * X.shape[1]个属性bootstrap : boolean, optional (default=False)
采样是有放回还是无放回,如果为True,则各个树可放回地对训练数据进行采样。如果为False,则执行不放回的采样。n_jobs :int or None, optional (default=None)
在运行fit()和predict()函数时并行运行的作业数量。除了在joblib.parallel_backend上下文的情况下,None表示为1。设置为-1则表示使用所有可用的处理器random_state : int, RandomState instance or None, optional (default=None)每次训练的随机性如果设置为int常数,则该random_state参数值是用于随机数生成器的种子如果设置为RandomState实例,则该random_state就是一个随机数生成器如果设置为None,该随机数生成器就是使用在np.random中的RandomState实例verbose : int, optional (default=0)训练中打印日志的详细程度,数值越大越详细warm_start : bool, optional (default=False)
当设置为True时,重用上一次调用的结果去fit,添加更多的树到上一次的森林1集合中;否则就fit一整个新的森林3、属性
base_estimator_:The child estimator template used to create the collection of fitted sub-estimators.estimators_:list of ExtraTreeRegressor instances The collection of fitted sub-estimators.estimators_:features_list of ndarray The subset of drawn features for each base estimator.estimators_samples_:list of ndarray The subset of drawn samples for each base estimator.max_samples_:The actual number of samplesn_features_:DEPRECATED: Attribute n_features_ was deprecated in version 1.0 and will be removed in 1.2.n_features_in_:Number of features seen during fit.feature_names_in_:Names of features seen during fit. Defined only when X has feature names that are all strings4、方 法
fit(X[, y, sample_weight]):训练模型decision_function(X):返回平均异常分数predict(X):预测模型返回1或者-1fit_predict(X[, y]):训练-预测模型一起完成get_params([deep]):Get parameters for this estimator.score_samples(X):Opposite of the anomaly score defined in the original paper.set_params(**params):Set the parameters of this estimator.

代码实现例子:

# -*- coding: utf-8 -*-# 加载模型所需要的的包
import pandas  as pd
from sklearn.ensemble import IsolationForest
import warnings
warnings.filterwarnings('ignore')# 构造一个数据集,只包含一列数据,假如都是月薪数据,有些可能是错的
df = pd.DataFrame({'salary':[4,1,4,5,3,6,2,5,6,2,5,7,1,8,12,33,4,7,6,7,8,55]})#构建模型 ,n_estimators=100 ,构建100颗树
model = IsolationForest(n_estimators=100,max_samples='auto',contamination=float(0.1),max_features=1.0)
# 训练模型
model.fit(df[['salary']])# 预测 decision_function 可以得出 异常评分
df['scores']  = model.decision_function(df[['salary']])#  predict() 函数 可以得到模型是否异常的判断,-1为异常,1为正常
df['anomaly'] = model.predict(df[['salary']])
print(df)

运行结果:

    salary    scores  anomaly
0        4  0.212483        1
1        1  0.090735        1
2        4  0.212483        1
3        5  0.224400        1
4        3  0.163518        1
5        6  0.225034        1
6        2  0.160745        1
7        5  0.224400        1
8        6  0.225034        1
9        2  0.160745        1
10       5  0.224400        1
11       7  0.209048        1
12       1  0.090735        1
13       8  0.164438        1
14      12 -0.010082       -1
15      33 -0.115611       -1
16       4  0.212483        1
17       7  0.209048        1
18       6  0.225034        1
19       7  0.209048        1
20       8  0.164438        1
21      55 -0.186734       -1Process finished with exit code 0

我们可以看到,发现了三个异常的数据,和我们认知差不多,都是比较高的,并且异常值越大,异常分scores就越大,比如那个月薪55万的,不是变态就是数据错了。

在这里插入图片描述

这篇关于【异常点检测 孤立森林算法】10分钟带你了解下孤立森林算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144233

相关文章

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现:检测并删除空白页

Python异常处理之避免try-except滥用的3个核心原则

《Python异常处理之避免try-except滥用的3个核心原则》在Python开发中,异常处理是保证程序健壮性的关键机制,本文结合真实案例与Python核心机制,提炼出避免异常滥用的三大原则,有需... 目录一、精准打击:只捕获可预见的异常类型1.1 通用异常捕获的陷阱1.2 精准捕获的实践方案1.3

Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧

《Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧》本文将通过实际代码示例,深入讲解Python函数的基本用法、返回值特性、全局变量修改以及异常处理技巧,感兴趣的朋友跟随小编一起看看... 目录一、python函数定义与调用1.1 基本函数定义1.2 函数调用二、函数返回值详解2.1 有返

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

C#文件复制异常:"未能找到文件"的解决方案与预防措施

《C#文件复制异常:未能找到文件的解决方案与预防措施》在C#开发中,文件操作是基础中的基础,但有时最基础的File.Copy()方法也会抛出令人困惑的异常,当targetFilePath设置为D:2... 目录一个看似简单的文件操作问题问题重现与错误分析错误代码示例错误信息根本原因分析全面解决方案1. 确保

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦