2|数据挖掘|关联规则理论部分|引言

2024-03-08 21:40

本文主要是介绍2|数据挖掘|关联规则理论部分|引言,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

week11-2022年11月11日|2023年2月16日更新

目录

0.数据挖掘基本算法

1.关联规则 Association Rules

1.1示例

1.2含义

1.3应用

2.市场购物篮分析

2.1分析事务数据库表

3.关联规则挖掘

4.基本概念

4.1包含

4.2频繁模式

4.3项集

4.4事务

4.5关联规则

4.6事务数据集

4.7事务标识TID

5.度量有趣的关联规则

5.1支持度s

5.2可信度c

5.3条件概率

5.4关联规则标准

6.市场购物篮分析——课堂思考

7.频繁项集

7.1项

7.2项集

7.3k-项集

7.4频繁(或大)项集

8.强关联规则

8.1强规则

9.关联规则挖掘

下节预告


0.数据挖掘基本算法

Apriori算法

Frequent-patterm tree和FP-growth算法

多维关联规则挖掘

相关规则

基于约束的关联规则挖掘

总结


1.关联规则 Association Rules

关联规则表示了项之间的关系

1.1示例

谷物,牛奶 => 水果

1.2含义

“买谷类食品和牛奶的人也会买水果”

1.3应用

商店可以把谷类食品和牛奶作特价品以使人们买更多的水果

2.市场购物篮分析

2.1分析事务数据库表

PersonBasket
A薯片, 沙司, 曲奇, 饼干, 可乐, 啤酒
B生菜, 菠菜, 桔子, 芹菜, 苹果, 葡萄
C薯片,沙司, 披萨, 蛋糕
D生菜,菠菜, 牛奶, 黄油

我们是否可假定?薯片=>沙司        生菜=>菠菜 

3.关联规则挖掘

在事务数据库,关系数据库和其他信息库中的对象的集合之间,发现频繁模式,关联,相关或因果关系的结构。​​​​​​​

4.基本概念

4.1包含

通常数据包含:

TID(事务ID)Basket(项的子集)

4.2频繁模式

数据库中出现频繁的模式(项集,序列,等等);

4.3项集

I=[i_{1},i_{2},i_{3},...,i_{m}]

4.4事务

T\subseteq i

4.5关联规则

A=>B

A\subset I,B\subset I,A\cap B=\varnothing

4.6事务数据集

事务数据集用D表示:

Transaction-idItems bought
10A,B,C
20A,C
30A,D
40B,E,F

4.7事务标识TID

每一个事务关联着一个标识,称作TID

5.度量有趣的关联规则

5.1支持度s

D中同时包含A和B的事务数与总的事务数的比值;

规则A=>B在数据集中D中的支持度为s,其中s表示D中包含A\cup B(即同时包含A和B)的事务的百分率,即可用条件概率P(A\cup B)表示。

support(A=>B)=P(A\cup B)

5.2可信度c

D中同时包含A和B的事务数与只包含A的事务数的比值;

规则 A=>B在数据集D中的可信度为c,其中c表示D中包含A的事务中也包含B的百分率,即可用条件概率P(B|A)表示。​​​​​​​

confidence(A=>B)=P(B|A)

5.3条件概率

条件概率P(B|A)表示A发生的条件下B也发生的概率。

5.4关联规则标准

关联规则根据以下两个标准(包含或排除):

最小支持度s:表示规则中的所有项在事务中出现的频度。

最小可信度c:表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度。

6.市场购物篮分析——课堂思考

(1)总共有A,B,C,D四个项集,例如{生菜,菠菜,桔子,芹菜,苹果,葡萄}是一个6项集,{薯片,沙司,披萨,蛋糕}是一个4项集;

(2)生菜,菠菜,桔子,芹菜,苹果,葡萄 ?

(3)支持度s 2(A+C)/4(A+B+C+D)=2/4=1/2;

(4)可信度c 2/2=1。

7.频繁项集

7.1项

项集里面包含的每一个物品;

7.2项集

​​​​​​​任意项的集合;

7.3k-项集

包含k个项的项集;

7.4频繁(或大)项集

满足最小支持度的项集。

8.强关联规则

给定一个项集,容易生成关联规则。

项集:{薯片,沙司,啤酒}

啤酒,薯片=>沙司

啤酒,沙司=>薯片

薯片,沙司=>啤酒

8.1强规则

强规则是有趣的;

强规则通常定义为那些满足最小支持度和最小可信度的规则。

给出一个项集,如何生成关联规则?

'买了什么物品之后,还会继续买什么?' ——> 强关联规则

9.关联规则挖掘

两个基本步骤

找出所有的频繁项集(条件:满足最小支持度)

找出所有的强关联规则

——由频繁项集生成关联规则

——保留满足最小可信度的规则

下节预告​​​​​​​

L_{1}一个示例

存在一个数据库:扫描数据库依次得到C_{1}L_{1}C_{2}L_{2}C_{3}L_{3}​​​​​​​;

只有前两项一致,我们才可以“相连”。

频繁1-项集 

构建FP-树 

 创建根节点...

这篇关于2|数据挖掘|关联规则理论部分|引言的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788484

相关文章

C++作用域和标识符查找规则详解

《C++作用域和标识符查找规则详解》在C++中,作用域(Scope)和标识符查找(IdentifierLookup)是理解代码行为的重要概念,本文将详细介绍这些规则,并通过实例来说明它们的工作原理,需... 目录作用域标识符查找规则1. 普通查找(Ordinary Lookup)2. 限定查找(Qualif

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Nginx路由匹配规则及优先级详解

《Nginx路由匹配规则及优先级详解》Nginx作为一个高性能的Web服务器和反向代理服务器,广泛用于负载均衡、请求转发等场景,在配置Nginx时,路由匹配规则是非常重要的概念,本文将详细介绍Ngin... 目录引言一、 Nginx的路由匹配规则概述二、 Nginx的路由匹配规则类型2.1 精确匹配(=)2

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

SQL表间关联查询实例详解

《SQL表间关联查询实例详解》本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(leftjoin)、右连接(rightjoin)、全连接(fulljoin)、内连接(innerjoin)、... 目录简介样例准备左外连接右外连接全外连接内连接交叉连接自然连接简介本文主要讲解SQL语句中常用的表

如何高效移除C++关联容器中的元素

《如何高效移除C++关联容器中的元素》关联容器和顺序容器有着很大不同,关联容器中的元素是按照关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的,本文介绍了如何高效移除C+... 目录一、简介二、移除给定位置的元素三、移除与特定键值等价的元素四、移除满足特android定条件的元

详解nginx 中location和 proxy_pass的匹配规则

《详解nginx中location和proxy_pass的匹配规则》location是Nginx中用来匹配客户端请求URI的指令,决定如何处理特定路径的请求,它定义了请求的路由规则,后续的配置(如... 目录location 的作用语法示例:location /www.chinasem.cntestproxy

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T