【JAVA实现】基于皮尔逊相关系数的相似度计算

2023-10-25 03:18

本文主要是介绍【JAVA实现】基于皮尔逊相关系数的相似度计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。

       这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。

       皮尔逊数学公式如下,来自维基百科。


       其中,E数学期望,cov表示协方差\sigma_X\sigma_Y是标准差

       化简后得:



       皮尔逊相似度计算的算法还是很简单的,实现起来也不难。只要求变量X、Y、乘积XY,X的平方,Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下:

[java]  view plain copy
  1. package pearsonCorrelationScore;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.HashMap;  
  5. import java.util.List;  
  6. import java.util.Map;  
  7. import java.util.Map.Entry;  
  8.   
  9. /** 
  10.  * @author shenchao 
  11.  * 
  12.  *         皮尔逊相关度评价 
  13.  * 
  14.  *         以《集体智慧编程》一书用户评价相似度数据集做测试 
  15.  */  
  16. public class PearsonCorrelationScore {  
  17.   
  18.     private Map<String, Map<String, Double>> dataset = null;  
  19.   
  20.     public PearsonCorrelationScore() {  
  21.         initDataSet();  
  22.     }  
  23.   
  24.     /** 
  25.      * 初始化数据集 
  26.      */  
  27.     private void initDataSet() {  
  28.         dataset = new HashMap<String, Map<String, Double>>();  
  29.   
  30.         // 初始化Lisa Rose 数据集  
  31.         Map<String, Double> roseMap = new HashMap<String, Double>();  
  32.         roseMap.put("Lady in the water"2.5);  
  33.         roseMap.put("Snakes on a Plane"3.5);  
  34.         roseMap.put("Just My Luck"3.0);  
  35.         roseMap.put("Superman Returns"3.5);  
  36.         roseMap.put("You, Me and Dupree"2.5);  
  37.         roseMap.put("The Night Listener"3.0);  
  38.         dataset.put("Lisa Rose", roseMap);  
  39.   
  40.         // 初始化Jack Matthews 数据集  
  41.         Map<String, Double> jackMap = new HashMap<String, Double>();  
  42.         jackMap.put("Lady in the water"3.0);  
  43.         jackMap.put("Snakes on a Plane"4.0);  
  44.         jackMap.put("Superman Returns"5.0);  
  45.         jackMap.put("You, Me and Dupree"3.5);  
  46.         jackMap.put("The Night Listener"3.0);  
  47.         dataset.put("Jack Matthews", jackMap);  
  48.   
  49.         // 初始化Jack Matthews 数据集  
  50.         Map<String, Double> geneMap = new HashMap<String, Double>();  
  51.         geneMap.put("Lady in the water"3.0);  
  52.         geneMap.put("Snakes on a Plane"3.5);  
  53.         geneMap.put("Just My Luck"1.5);  
  54.         geneMap.put("Superman Returns"5.0);  
  55.         geneMap.put("You, Me and Dupree"3.5);  
  56.         geneMap.put("The Night Listener"3.0);  
  57.         dataset.put("Gene Seymour", geneMap);  
  58.     }  
  59.   
  60.     public Map<String, Map<String, Double>> getDataSet() {  
  61.         return dataset;  
  62.     }  
  63.   
  64.     /** 
  65.      * @param person1 
  66.      *            name 
  67.      * @param person2 
  68.      *            name 
  69.      * @return 皮尔逊相关度值 
  70.      */  
  71.     public double sim_pearson(String person1, String person2) {  
  72.         // 找出双方都评论过的电影,(皮尔逊算法要求)  
  73.         List<String> list = new ArrayList<String>();  
  74.         for (Entry<String, Double> p1 : dataset.get(person1).entrySet()) {  
  75.             if (dataset.get(person2).containsKey(p1.getKey())) {  
  76.                 list.add(p1.getKey());  
  77.             }  
  78.         }  
  79.   
  80.         double sumX = 0.0;  
  81.         double sumY = 0.0;  
  82.         double sumX_Sq = 0.0;  
  83.         double sumY_Sq = 0.0;  
  84.         double sumXY = 0.0;  
  85.         int N = list.size();  
  86.   
  87.         for (String name : list) {  
  88.             Map<String, Double> p1Map = dataset.get(person1);  
  89.             Map<String, Double> p2Map = dataset.get(person2);  
  90.   
  91.             sumX += p1Map.get(name);  
  92.             sumY += p2Map.get(name);  
  93.             sumX_Sq += Math.pow(p1Map.get(name), 2);  
  94.             sumY_Sq += Math.pow(p2Map.get(name), 2);  
  95.             sumXY += p1Map.get(name) * p2Map.get(name);  
  96.         }  
  97.   
  98.         double numerator = sumXY - sumX * sumY / N;  
  99.         double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)  
  100.                 * (sumY_Sq - sumY * sumY / N));  
  101.   
  102.         // 分母不能为0  
  103.         if (denominator == 0) {  
  104.             return 0;  
  105.         }  
  106.   
  107.         return numerator / denominator;  
  108.     }  
  109.   
  110.     public static void main(String[] args) {  
  111.         PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();  
  112.         System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",  
  113.                 "Jack Matthews"));  
  114.     }  
  115.   
  116. }  
        将各个测试集的数据反映到二维坐标面中,如下所示:


       上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间,其绝对值的大小反映了两者相似度大小,斜率越大,相似度越大,当相似度为1时,该直线为一条对角线。

这篇关于【JAVA实现】基于皮尔逊相关系数的相似度计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/279655

相关文章

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Java 实用工具类Spring 的 AnnotationUtils详解

《Java实用工具类Spring的AnnotationUtils详解》Spring框架提供了一个强大的注解工具类org.springframework.core.annotation.Annot... 目录前言一、AnnotationUtils 的常用方法二、常见应用场景三、与 JDK 原生注解 API 的

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Java并发编程之如何优雅关闭钩子Shutdown Hook

《Java并发编程之如何优雅关闭钩子ShutdownHook》这篇文章主要为大家详细介绍了Java如何实现优雅关闭钩子ShutdownHook,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 目录关闭钩子简介关闭钩子应用场景数据库连接实战演示使用关闭钩子的注意事项开源框架中的关闭钩子机制1.

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows