频繁项集挖掘以及关联规则的基本概念

2023-10-12 03:20

本文主要是介绍频繁项集挖掘以及关联规则的基本概念,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。过程:1)自然连接获取候选集

在这里插入图片描述

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

这篇关于频繁项集挖掘以及关联规则的基本概念的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192885

相关文章

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

SQL表间关联查询实例详解

《SQL表间关联查询实例详解》本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(leftjoin)、右连接(rightjoin)、全连接(fulljoin)、内连接(innerjoin)、... 目录简介样例准备左外连接右外连接全外连接内连接交叉连接自然连接简介本文主要讲解SQL语句中常用的表

如何高效移除C++关联容器中的元素

《如何高效移除C++关联容器中的元素》关联容器和顺序容器有着很大不同,关联容器中的元素是按照关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的,本文介绍了如何高效移除C+... 目录一、简介二、移除给定位置的元素三、移除与特定键值等价的元素四、移除满足特android定条件的元

详解nginx 中location和 proxy_pass的匹配规则

《详解nginx中location和proxy_pass的匹配规则》location是Nginx中用来匹配客户端请求URI的指令,决定如何处理特定路径的请求,它定义了请求的路由规则,后续的配置(如... 目录location 的作用语法示例:location /www.chinasem.cntestproxy

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

关于Gateway路由匹配规则解读

《关于Gateway路由匹配规则解读》本文详细介绍了SpringCloudGateway的路由匹配规则,包括基本概念、常用属性、实际应用以及注意事项,路由匹配规则决定了请求如何被转发到目标服务,是Ga... 目录Gateway路由匹配规则一、基本概念二、常用属性三、实际应用四、注意事项总结Gateway路由

MYSQL关联关系查询方式

《MYSQL关联关系查询方式》文章详细介绍了MySQL中如何使用内连接和左外连接进行表的关联查询,并展示了如何选择列和使用别名,文章还提供了一些关于查询优化的建议,并鼓励读者参考和支持脚本之家... 目录mysql关联关系查询关联关系查询这个查询做了以下几件事MySQL自关联查询总结MYSQL关联关系查询

Redis 多规则限流和防重复提交方案实现小结

《Redis多规则限流和防重复提交方案实现小结》本文主要介绍了Redis多规则限流和防重复提交方案实现小结,包括使用String结构和Zset结构来记录用户IP的访问次数,具有一定的参考价值,感兴趣... 目录一:使用 String 结构记录固定时间段内某用户 IP 访问某接口的次数二:使用 Zset 进行

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss