关联分析中SPADE算法

2023-10-30 16:10
文章标签 算法 分析 关联 spade

本文主要是介绍关联分析中SPADE算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

SPADE算法

例题讲解:


SPADE算法

spade序列关联分析(时序关联分析):即同一个对象在不同时间点对商品进行购买。

序列(sequence)数据库:序列数据库(sequence databases)S是包含一个或多个序列数据的数据集,是元组<SID,s>的集合,其中SID是序列编号,s是一个序列,每个序列由若干事件构成。

序列(sequence):序列是事务的有序列表,可以记作s=<e1,e2,e3,…,el>,其中ej(1≤j≤l)表示事件,也称为s的元素;序列包含的项的数量记作序列的长度;

事件: 事件e是一个项集,可以记作e=(i1,i2,i3,…,in);其中事件中的元素ij(1≤j≤n)表示项

子序列:设序列a= <a1a2…an>,序列b = <b1b2…bm>,ai 和bi都是元素。如果存在整数1 <= j1 < j2 <…< jn <= m,使得a1 包含于 bj1,a2 包含于 bj2,…, an  包含于 bjn则称序列a为序列b的子序列,又称序列a包含序列b,记为a 包含于b。

举例说明:

例如序列<{2},{1,3}>是序列<{1,2},{5},{1,3,4}>的子序列,因为{2}包含在{1,2}中,{1,3}包含在{1,3,4}中。

而<{2,5},{3}>不是序列<{1,2},{5},{1,3,4}>的子序列,因为前者中项2和项5是一次购买的,而后者中项2和项5是先后购买的,这就是区别所在。

定义(前缀) 前缀形式化定义如下:定义一个函数p:(S,N)→S,其中S是一个序列集合,N是一个非负整数,p(X,k)=X[1:k],换句话说,p(X,k)返回X的k长度的前缀。 在序列格S上定义一个等价关系如下:X,Y∈S,当且仅当p(X,k)=p(Y,k),也就是说这两个序列共享长度为k的前缀,则它们是θk等价的,记为 。由X构成的等价类记为 。

在该序列格上由θ1导出的等价类集合是{[A],[B],[D],[F]},称这些第一层的类为父类,在图中下方。可以看到,所有具有共同前缀的序列被划分到同一等价类中,每个等价类都是序列格的一个子格。 

    只有同一个类中的两个k-序列才能进行时态连接运算,并产生长度为(k+1)的候选序列。 因此,为了产生所有(k+1)-序列,仅需要在每个前缀等价类中执行一个简单的时态连接即可,而这种连接可被独立处理。

根据被连接的原子类型,可得3种可能的频繁序列:

1.两个事件原子项连接:<AB>和<AC>进行连接得到<ABC>。

2.事件原子项与序列原子项之间连接:<AB>和<A,C>进行连接得到<AB,C>。

3.序列原子项与序列原子项之间连接:<A,B>与<A,C>进行连接得到<A,BC>、<A,B,C>或<A,C,B>。

一个特殊的情况是,当对<A,B>进行自连接时,则只能产生唯一的新序列<A,B,B>。

 下面举例说明:

水平数据格式转换为垂直数据格式,1序列的ID_list就是含有项集1,项集2......到最后的SID和EID

(购买人和时间点)

2序列的ID_list就项集1,2,3,4,5,6的两两交集(1,2)(1,3)(2,3)........到最后的SID和EID(购买人和时间点)

 

 

 

    以上怎么理解呢,就是说如果P->A->F得到的一定是F中大于A的SID和EID,也就是A要包含于F(这里的包含是指一个事件的包含,不是全部都要包含,满足一个即可),所以P->F->A中F要包含于A,则A中只有(8,50)(8,80)满足。P-AF就是AF相交。

以下是序列D->BF->A的实现过程。

例题讲解:

这篇关于关联分析中SPADE算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/309083

相关文章

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

Java程序进程起来了但是不打印日志的原因分析

《Java程序进程起来了但是不打印日志的原因分析》:本文主要介绍Java程序进程起来了但是不打印日志的原因分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java程序进程起来了但是不打印日志的原因1、日志配置问题2、日志文件权限问题3、日志文件路径问题4、程序

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

SQL表间关联查询实例详解

《SQL表间关联查询实例详解》本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(leftjoin)、右连接(rightjoin)、全连接(fulljoin)、内连接(innerjoin)、... 目录简介样例准备左外连接右外连接全外连接内连接交叉连接自然连接简介本文主要讲解SQL语句中常用的表

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

如何高效移除C++关联容器中的元素

《如何高效移除C++关联容器中的元素》关联容器和顺序容器有着很大不同,关联容器中的元素是按照关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的,本文介绍了如何高效移除C+... 目录一、简介二、移除给定位置的元素三、移除与特定键值等价的元素四、移除满足特android定条件的元

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java