Spark MLPC神经网络应用实例(scala)

2024-08-28 20:18

本文主要是介绍Spark MLPC神经网络应用实例(scala),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在Spark中,目前包括的神经网络方面的算法仅有MLPC,即MultilayerPerceptronClassifier(多层感知分类器)。它在MLlib的Classification and regression(分类与回归)中。MLPC是基于前馈人工神经网络(ANN)的分类器,属于全连接神经网络,其中隐藏层的激活函数是sigmoid函数,输出层是softmax函数。关于MLPC的原理,网络上有比较多详细的介绍,这里不再累述。本博客主要通过一个应用案例展示MLPC的使用过程,包括原始数据的预处理、MLPC算法的使用以及效果的评估。

运行本实例代码请保证spark版本在2.3及以上。

数据源:

数据源是基于某行业的开放数据源。其中se是用户标签、sf是消费能力,pb、pc是产品参数,pa是要预测的结果,即某用户是否会消费某产品,0表示不购买,1表示购买。总数量20万条(相对于神经网络算法数据量偏少,这里只做案例演示),上图展示部分数据源。

数据预处理:

可以看到,数据源包含两种类型,第一是标签类型se,第二是数值类型sf、pb和pc,其中sf与pb、pc不在一个量纲与数量级。所以数据预处理的思路是先对se做独热编码,然后进行降维。最后对4种特征均进行标准化。

关于更多的Spark数据预处理的方法,可以参考博主关于spark特征工程的博文:

https://blog.csdn.net/u013090676/article/details/84191468

独热编码:

由于Spark中独热编码只能使用数值类型的输入,所以需要先将字符标签处理成int类型的标签(mRecord即数据源):

        val indexer = new StringIndexer().setInputCol("se").setOutputCol("se_indexer");val mRecord_indexed = indexer.fit(mRecord).transform(mRecord).drop("se");//独热编码val encoder = new OneHotEncoderEstimator().setInputCols(Array("se_indexer")).setOutputCols(Array("se_onehot"));val mRecord_onehot = encoder.fit(mRecord_indexed).transform(mRecord_indexed).drop("se_indexer");

PCA降维:

独热编码后的数据一般维度都比较高,不适合直接作为输入,所以用PCA进行降维:

        val mRecord_pac_onehot = new PCA().setInputCol("se_onehot").setOutputCol("se_pca_onehot").setK(2).fit(mRecord_onehot).transform(mRecord_onehot).drop("se_onehot");

特征合并:

将所有维度的特征合并成一个向量,作为MLPC的输入:

        val mRecord_va = new VectorAssembler().setInputCols(Array("sf", "pb", "pc","se_pca_onehot")).setOutputCol("features").transform(mRecord_pac_onehot).drop("sf").drop("pb").drop("pc").drop("se_pca_onehot");

标准化:

对合并的向量进行标准化,标准化包括零均值和单位标准差:

        val mRecord_ss = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(true).fit(mRecord_va).transform(mRecord_va).drop("features");

MLPC神经网络训练与预测:

经过预处理的数据,按照6:4的比例分成两部分,一部分作为训练数据,一部分作为验证数据。其中layers表示神经网络的层数,是一个int类型的数据,第一位与输入特征的维度保持一致,最后一位与输出标签的数量保持一致,数组中间的位数表示隐藏层的层数以及每层的神经元数量:

        val splits = mRecord_ss.randomSplit(Array(0.6, 0.4), seed = 1234L);val train = splits(0);val test = splits(1);val layers = Array[Int](5, 3, 2);val trainer = new MultilayerPerceptronClassifier().setFeaturesCol("scaledFeatures").setLabelCol("pa").setLayers(layers).setBlockSize(128).setSeed(1234L).setMaxIter(32)val result = trainer.fit(train).transform(test).select("prediction", "pa");

MLPC效果评估:

        val evaluator = new MulticlassClassificationEvaluator().setMetricName("accuracy").setLabelCol("pa").setPredictionCol("prediction");println(s"准确度是 ${evaluator.evaluate(result)}");

最终得到的准确度是69%。

上述案例只是一个最简案例,采用了最基本的数据预处理与效果评估的方法。实际数据分析以及神经网络应用过程中,应该充分深入业务,理解数据含义,做好特征工程、算法选型与调优,对分析结果进行细致完善的评估。

 

这篇关于Spark MLPC神经网络应用实例(scala)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115777

相关文章

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面:本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum

Java Stream流以及常用方法操作实例

《JavaStream流以及常用方法操作实例》Stream是对Java中集合的一种增强方式,使用它可以将集合的处理过程变得更加简洁、高效和易读,:本文主要介绍JavaStream流以及常用方法... 目录一、Stream流是什么?二、stream的操作2.1、stream流创建2.2、stream的使用2.

springboot项目中集成shiro+jwt完整实例代码

《springboot项目中集成shiro+jwt完整实例代码》本文详细介绍如何在项目中集成Shiro和JWT,实现用户登录校验、token携带及接口权限管理,涉及自定义Realm、ModularRe... 目录简介目的需要的jar集成过程1.配置shiro2.创建自定义Realm2.1 LoginReal

Python跨文件实例化、跨文件调用及导入库示例代码

《Python跨文件实例化、跨文件调用及导入库示例代码》在Python开发过程中,经常会遇到需要在一个工程中调用另一个工程的Python文件的情况,:本文主要介绍Python跨文件实例化、跨文件调... 目录1. 核心对比表格(完整汇总)1.1 自定义模块跨文件调用汇总表1.2 第三方库使用汇总表1.3 导

MySQL多实例管理如何在一台主机上运行多个mysql

《MySQL多实例管理如何在一台主机上运行多个mysql》文章详解了在Linux主机上通过二进制方式安装MySQL多实例的步骤,涵盖端口配置、数据目录准备、初始化与启动流程,以及排错方法,适用于构建读... 目录一、什么是mysql多实例二、二进制方式安装MySQL1.获取二进制代码包2.安装基础依赖3.清

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

Apache Ignite缓存基本操作实例详解

《ApacheIgnite缓存基本操作实例详解》文章介绍了ApacheIgnite中IgniteCache的基本操作,涵盖缓存获取、动态创建、销毁、原子及条件更新、异步执行,强调线程池注意事项,避免... 目录一、获取缓存实例(Getting an Instance of a Cache)示例代码:二、动态

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象(Map/List)转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串