频繁项集挖掘以及关联规则的基本概念

2023-10-12 03:20

本文主要是介绍频繁项集挖掘以及关联规则的基本概念,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

在这里插入图片描述

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

这篇关于频繁项集挖掘以及关联规则的基本概念的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192885

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

解析C++11 static_assert及与Boost库的关联从入门到精通

《解析C++11static_assert及与Boost库的关联从入门到精通》static_assert是C++中强大的编译时验证工具,它能够在编译阶段拦截不符合预期的类型或值,增强代码的健壮性,通... 目录一、背景知识:传统断言方法的局限性1.1 assert宏1.2 #error指令1.3 第三方解决

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模

C++作用域和标识符查找规则详解

《C++作用域和标识符查找规则详解》在C++中,作用域(Scope)和标识符查找(IdentifierLookup)是理解代码行为的重要概念,本文将详细介绍这些规则,并通过实例来说明它们的工作原理,需... 目录作用域标识符查找规则1. 普通查找(Ordinary Lookup)2. 限定查找(Qualif

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Nginx路由匹配规则及优先级详解

《Nginx路由匹配规则及优先级详解》Nginx作为一个高性能的Web服务器和反向代理服务器,广泛用于负载均衡、请求转发等场景,在配置Nginx时,路由匹配规则是非常重要的概念,本文将详细介绍Ngin... 目录引言一、 Nginx的路由匹配规则概述二、 Nginx的路由匹配规则类型2.1 精确匹配(=)2

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

SQL表间关联查询实例详解

《SQL表间关联查询实例详解》本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(leftjoin)、右连接(rightjoin)、全连接(fulljoin)、内连接(innerjoin)、... 目录简介样例准备左外连接右外连接全外连接内连接交叉连接自然连接简介本文主要讲解SQL语句中常用的表