记录两两相比问题

2024-06-15 16:58
文章标签 问题 记录 相比

本文主要是介绍记录两两相比问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020/07/05 -
刚刚就在思考,如果是利用spark或者hadoop的运算框架,来强行计算大量数据的两两相似度,应该怎么来编写呢?我想了一会,就感觉好像没有办法嵌入到这个模型中,这就比较困难了。

在百度上搜索这部分东西,然后看到了回答[1],感觉应该是有相关的框架;然后普遍的回答都是利用LSH,然后分桶,然后计算小部分的,而不是说全部的。这里这个分桶是什么意思呢?不太理解。


回到上面这个问题,假设我先使用spark来实现,不考虑这个性能问题,就考虑这个东西应该怎么编程实现。
本身这个问题呢,我自己在实现的时候,就是如果不用大数据平台,我就是按照双循环的形式直接来进行比较。

for i in range (n):for j in range(i+1,n):

我是怎么也想不出来这个东西怎么弄,这个时候应该看看我知道什么他具备哪些基础操作,也就是原子操作。本质上,这种操作形式属于两个RDD的交叉工作。在RDD上好像是没有那种按照索引来选定元素的方式。

想不出来,哈哈哈哈哈哈哈,日了狗了。。

这么看来,就感觉就好像mapreduce这种模型并不是适用于这种计算,看来得进行转化了。


我来简单阐述一下我通过查找资料学习到的东西。

首先,直接搜索pair similar spark,首先找到的是一个ppt(这个ppt放在spark的同级目录下),ppt中含有一个All-pairs similarity compution。注意,这里他给出了一个形式化的描述,这一点是我没想到的。


问题的形式化描述

第一点,矩阵,这一点很重要,就是要把问题转化为数学问题。(但我感觉其实还是一个编程的问题,因为这个时候我没有想着去弄什么性能的优化,我只是想得到一个可行的编程方案)
然后就是矩阵的特点,属于行多列少,而且远大于;属于稀疏矩阵;这个矩阵不能存在与单个机器的内存。

我觉得这里面,矩阵的这个概念很重要,我记得当时最开始学习《海量数据挖掘》的时候,就有将矩阵运算转化为mapreduce的过程,这样的话,匹配前面的过程,前面寻找框架的时候,所以说,我还是没有将问题转化好。

mapreduce编程方式

普通的方式就是利用mapreduce的形式,通过矩阵运算来实现这个整体相似度的计算。这个过程的话,其实就跟前面提到的矩阵运算是一致的。这里比较关键的是他的这个转化过程。

然后还有这个文章[2],他其实就是介绍了PPT后面的算法,就是某种逼近相似度?然后将这个东西引入到了spark中。他这里呢,将这个概念更明确了,本身叫做全对相似度比较,(all-pairs similarity),又是也被叫做similarity join问题。

然后按照这个关键词,我找到了文章[3],他是来讲解文本的相似度比较问题的,但是说实话,我没弄懂他是怎么做的。但是,他这里有一个ID,这个应该是很重要的,这个是能够标识的。我觉得,他好像是使用了那种TF-IDF的样子一样,这个再仔细看看。


总结一下

实际上,这篇文章并没有给出具体的方案,但是我有点知道了到底应该怎么办。就是通过矩阵的方式,但是这里需要一个实体的ID来标识。
然后,实际上在业界更多的是进行那种大致相似,以及topk近邻的问题。这些在spark中都有涉及。

[1]Spark 千万级用户相似度计算?
[2]efficient-similarity-algorithm-now-in-spark-twitter.html
[3]similarity-join-spark/

这篇关于记录两两相比问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064038

相关文章

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

Springboot如何正确使用AOP问题

《Springboot如何正确使用AOP问题》:本文主要介绍Springboot如何正确使用AOP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录​一、AOP概念二、切点表达式​execution表达式案例三、AOP通知四、springboot中使用AOP导出

Python中Tensorflow无法调用GPU问题的解决方法

《Python中Tensorflow无法调用GPU问题的解决方法》文章详解如何解决TensorFlow在Windows无法识别GPU的问题,需降级至2.10版本,安装匹配CUDA11.2和cuDNN... 当用以下代码查看GPU数量时,gpuspython返回的是一个空列表,说明tensorflow没有找到

解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘问题

《解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘问题》:本文主要介绍解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4... 目录未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘打开pom.XM

IDEA Maven提示:未解析的依赖项的问题及解决

《IDEAMaven提示:未解析的依赖项的问题及解决》:本文主要介绍IDEAMaven提示:未解析的依赖项的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录IDEA Maven提示:未解析的依编程赖项例如总结IDEA Maven提示:未解析的依赖项例如

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模