记录两两相比问题

2024-06-15 16:58
文章标签 问题 记录 相比

本文主要是介绍记录两两相比问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020/07/05 -
刚刚就在思考,如果是利用spark或者hadoop的运算框架,来强行计算大量数据的两两相似度,应该怎么来编写呢?我想了一会,就感觉好像没有办法嵌入到这个模型中,这就比较困难了。

在百度上搜索这部分东西,然后看到了回答[1],感觉应该是有相关的框架;然后普遍的回答都是利用LSH,然后分桶,然后计算小部分的,而不是说全部的。这里这个分桶是什么意思呢?不太理解。


回到上面这个问题,假设我先使用spark来实现,不考虑这个性能问题,就考虑这个东西应该怎么编程实现。
本身这个问题呢,我自己在实现的时候,就是如果不用大数据平台,我就是按照双循环的形式直接来进行比较。

for i in range (n):for j in range(i+1,n):

我是怎么也想不出来这个东西怎么弄,这个时候应该看看我知道什么他具备哪些基础操作,也就是原子操作。本质上,这种操作形式属于两个RDD的交叉工作。在RDD上好像是没有那种按照索引来选定元素的方式。

想不出来,哈哈哈哈哈哈哈,日了狗了。。

这么看来,就感觉就好像mapreduce这种模型并不是适用于这种计算,看来得进行转化了。


我来简单阐述一下我通过查找资料学习到的东西。

首先,直接搜索pair similar spark,首先找到的是一个ppt(这个ppt放在spark的同级目录下),ppt中含有一个All-pairs similarity compution。注意,这里他给出了一个形式化的描述,这一点是我没想到的。


问题的形式化描述

第一点,矩阵,这一点很重要,就是要把问题转化为数学问题。(但我感觉其实还是一个编程的问题,因为这个时候我没有想着去弄什么性能的优化,我只是想得到一个可行的编程方案)
然后就是矩阵的特点,属于行多列少,而且远大于;属于稀疏矩阵;这个矩阵不能存在与单个机器的内存。

我觉得这里面,矩阵的这个概念很重要,我记得当时最开始学习《海量数据挖掘》的时候,就有将矩阵运算转化为mapreduce的过程,这样的话,匹配前面的过程,前面寻找框架的时候,所以说,我还是没有将问题转化好。

mapreduce编程方式

普通的方式就是利用mapreduce的形式,通过矩阵运算来实现这个整体相似度的计算。这个过程的话,其实就跟前面提到的矩阵运算是一致的。这里比较关键的是他的这个转化过程。

然后还有这个文章[2],他其实就是介绍了PPT后面的算法,就是某种逼近相似度?然后将这个东西引入到了spark中。他这里呢,将这个概念更明确了,本身叫做全对相似度比较,(all-pairs similarity),又是也被叫做similarity join问题。

然后按照这个关键词,我找到了文章[3],他是来讲解文本的相似度比较问题的,但是说实话,我没弄懂他是怎么做的。但是,他这里有一个ID,这个应该是很重要的,这个是能够标识的。我觉得,他好像是使用了那种TF-IDF的样子一样,这个再仔细看看。


总结一下

实际上,这篇文章并没有给出具体的方案,但是我有点知道了到底应该怎么办。就是通过矩阵的方式,但是这里需要一个实体的ID来标识。
然后,实际上在业界更多的是进行那种大致相似,以及topk近邻的问题。这些在spark中都有涉及。

[1]Spark 千万级用户相似度计算?
[2]efficient-similarity-algorithm-now-in-spark-twitter.html
[3]similarity-join-spark/

这篇关于记录两两相比问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064038

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造

Python绘制TSP、VRP问题求解结果图全过程

《Python绘制TSP、VRP问题求解结果图全过程》本文介绍用Python绘制TSP和VRP问题的静态与动态结果图,静态图展示路径,动态图通过matplotlib.animation模块实现动画效果... 目录一、静态图二、动态图总结【代码】python绘制TSP、VRP问题求解结果图(包含静态图与动态图

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

docker编写java的jar完整步骤记录

《docker编写java的jar完整步骤记录》在平常的开发工作中,我们经常需要部署项目,开发测试完成后,最关键的一步就是部署,:本文主要介绍docker编写java的jar的相关资料,文中通过代... 目录all-docker/生成Docker打包部署文件配置服务A的Dockerfile (a/Docke

MySQL使用EXISTS检查记录是否存在的详细过程

《MySQL使用EXISTS检查记录是否存在的详细过程》EXISTS是SQL中用于检查子查询是否返回至少一条记录的运算符,它通常用于测试是否存在满足特定条件的记录,从而在主查询中进行相应操作,本文给大... 目录基本语法示例数据库和表结构1. 使用 EXISTS 在 SELECT 语句中2. 使用 EXIS