【SparkML系列1】相关性、卡方检验和概述器实现

2024-02-01 08:28

本文主要是介绍【SparkML系列1】相关性、卡方检验和概述器实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Correlation(相关性)

计算两组数据之间的相关性在统计学中是一种常见的操作。在spark.ml中,我们提供了计算多组数据之间成对相关性的灵活性。目前支持的相关性方法是皮尔逊(Pearson)相关系数和斯皮尔曼(Spearman)相关系数。

相关性计算使用指定的方法为输入的向量数据集计算相关性矩阵。输出将是一个数据框,其中包含向量列的相关性矩阵。


import org.apache.spark.ml.linalg.{Matrix, Vectors}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{Row, SparkSession}/*** @description 相关性测试* @date 2024/1/31 14:32* @author by fangwen1*/
object CorrelationExample {def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local[*]").appName("CorrelationExample").getOrCreate()import spark.implicits._val data = Seq(// 创建稀疏向量Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),// 创建密集向量Vectors.dense(4.0, 5.0, 0.0, 3.0),Vectors.dense(6.0, 7.0, 0.0, 8.0),Vectors.sparse(4, Seq((0, 9.0), (3, 1.0))))val df = data.map(Tuple1.apply).toDF("features")val Row(coeff1: Matrix) = Correlation.corr(df, "features").headprintln(s"Person correlation matrix:\n $coeff1")val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headprintln(s"Spearman correlation matrix:\n $coeff2")}
}

假设检验

假设检验是统计学中一种强有力的工具,用于确定一个结果是否具有统计学意义,即这个结果是偶然发生的还是有一定的必然性。Spark ML目前支持用于独立性检验的皮尔逊卡方(χ²)检验。

卡方检验

卡方检验对每个特征与标签之间是否独立进行皮尔逊独立性检验。对于每个特征,将(特征,标签)对转换成列联表,然后计算卡方统计量。所有的标签和特征值必须是分类的。

Refer to the ChiSquareTest Scala docs for details on the API.


import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.ChiSquareTest
import org.apache.spark.sql.SparkSession/*** @description 卡方校验* @date 2024/1/31 14:57* @author by fangwen1*/
object ChiSquareTestExample {def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local[*]").appName("CorrelationExample").getOrCreate()import spark.implicits._val data = Seq((0.0, Vectors.dense(0.5, 10.0)),(0.0, Vectors.dense(1.5, 20.0)),(1.0, Vectors.dense(1.5, 30.0)),(0.0, Vectors.dense(3.5, 30.0)),(0.0, Vectors.dense(3.5, 40.0)),(1.0, Vectors.dense(3.5, 40.0)))val df = data.toDF("label", "features")val chiDf = ChiSquareTest.test(df, "features", "label")chiDf.printSchema()val chi = chiDf.head()println(s"pValues = ${chi.getAs[Vector](0)}")println(s"degreesOfFreedom = ${chi.getSeq[Int](1).mkString("[",",","]")}")println(s"statistics = ${chi.getAs[Vector](2)}")}
}

Summarizer(概述器)

我们通过概述器为数据帧提供向量列的汇总统计信息。可用的指标包括列最大值、最小值、平均值、总和、方差、标准差以及非零元素的数量,还有总计数。


import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer.{mean, metrics, variance}
import org.apache.spark.sql.SparkSession/*** @description 概述器* @date 2024/1/31 15:09* @author by fangwen1*/
object SummarizerExample {def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local[*]").appName("SummarizerExample").getOrCreate()import spark.implicits._val data = Seq((Vectors.dense(2.0, 3.0, 5.0), 1.0),(Vectors.dense(4.0, 6.0, 7.0), 2.0))val df = data.toDF("features", "weight")//mean: 用于计算向量列的均值。//metrics: 允许用户指定需要计算的多个统计量,例如均值、方差、总和等。//variance: 用于计算向量列的方差。val (meanVal, varianceVal) = df.select(metrics("mean", "variance").summary($"features", $"weight").as("summary")).select("summary.mean", "summary.variance").as[(Vector, Vector)].first()println(s"with weight: mean = ${meanVal}, variance = ${varianceVal}")val (meanVal2, varianceVal2) = df.select(mean($"features"), variance($"features")).as[(Vector, Vector)].first()println(s"without weight: mean = ${meanVal2}, sum = ${varianceVal2}")}
}

这篇关于【SparkML系列1】相关性、卡方检验和概述器实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666667

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima

SpringBoot全局域名替换的实现

《SpringBoot全局域名替换的实现》本文主要介绍了SpringBoot全局域名替换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录 项目结构⚙️ 配置文件application.yml️ 配置类AppProperties.Ja