隐私计算实训营:SplitRec:当拆分学习遇上推荐系统

2024-09-07 21:36

本文主要是介绍隐私计算实训营:SplitRec:当拆分学习遇上推荐系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

拆分学习的概念

拆分学习的核心思想是拆分网络结构。每一个参与方拥有模型结构的一部分,所有参与方的模型合在一起形成一个完整的模型。训练过程中,不同参与方只对本地模型进行正向或者反向传播计算,并将计算结果传递给下一个参与方。多个参与方通过联合模型进行训练直至最终收敛。

一个典型的拆分学习例子:

Alice持有数据和基础模型。Bob只有数据、基础模型和fuse模型。

  1. Alice使用自己的数据和基础模型得到 hidden0,然后发送给Bob。
  2. Bob使用自己的数据和基础模型得到 hidden1
  3. Agg Layer使用 hidden_0 和 hidden_1 作为输入,并输出聚合后的隐层。
  4. Bob把聚合后的隐层作为fuse模型的输入,计算得到梯度。
  5. 梯度被拆分成两部分,分别返回给Alice和Bob。
  6. Alice和Bob使用各自收到的梯度更新基础模型。

SplitRec

SplitRec是隐语拆分学习针对跨域推荐场景中的模型训练所提供的一系列优化算法和策略。

在传统推荐场景中,用户的数据通常需要上传到中央服务器进行模型训练。而跨域推荐场景是指联合分布在不同域的数据进行分布式训练的推荐场景。例如一个用户在一个短视频平台看了很多短视频,在另一个电商平台被推荐相关的广告,电商平台除了自有数据外,也希望从短视频平台的数据中挖掘相关的信息。同时出于数据安全考虑,各平台数据不能被上传到中央服务器进行集中式的机器学习训练,这种联合分布在不同域的数据进行模型训练的场景很适合用联邦学习中的拆分学习。

跨域推荐模型将不同域的用户数据联合起来建模,相比传统推荐系统收集到的数据更多更丰富,同时由于数据分布在不同域,在精度、效率和安全性上都对模型的训练提出了很多挑战,主要有以下三点:

  • 模型效果上,例如DeepFM等复杂模型能否直接放到拆分框架中使用?
  • 训练效率上,模型训练中每个 batch 的前反向计算中的通信是否会严重降低训练效率?
  • 安全性上,通信的中间数据是否会造成信息泄露,引起安全性问题?

SplitRec 在效果、效率和安全方面对拆分模型训练做了很多优化。

  • 模型效果上,SplitRec 提供了拆分 DeepFM、BST、MMoe 等模型的封装。
  • 训练效率上,SplitRec 借由隐语拆分学习框架的能力,提供了压缩、流水并行等策略来提升训练效率。
  • 安全性上,SplitRec提供了安全聚合、差分隐私等安全策略。同时也提供了一些针对拆分学习的攻击方法,来验证不同攻击手段对拆分模型的影响,后续也会更新相关防御方法。

实践:在隐语中使用拆分 DeepFM 算法

DeepFM算法结合了FM和神经网络的长处,可以同时提升低维和高维特征,相比Wide&Deep模型还免去了特征工程的部分。

整体上来看。这个模型可以分成两个部分,分别是FM部分以及Deep部分。这两个部分的输入是一样的,并没有像Wide & Deep模型那样做区分。Deep的部分用来训练这些特征的高维的关联,而FM模型会通过隐藏向量V的形式来计算特征之间的二维交叉的信息。

隐语中的DeepFM

拆分的详细过程可以来看这里:

SplitRec:在隐语中使用拆分 DeepFM 算法(Tensorflow 后端) | SecretFlow v1.9.0b1 | 隐语 SecretFlow

环境设置

import secretflow as sf# Check the version of your SecretFlow
print('The version of SecretFlow: {}'.format(sf.__version__))# In case you have a running secretflow runtime already.
sf.shutdown()
sf.init(['alice', 'bob', 'charlie'], address="local", log_to_driver=False)
alice, bob, charlie = sf.PYU('alice'), sf.PYU('bob'), sf.PYU('charlie')

数据集介绍

我们这里将使用最经典的MovieLens数据集来进行演示。 MovieLens是一个开放式的推荐系统数据集,包含了电影评分和电影元数据信息。

我们对数据进行了切分:

- alice: “UserID”, “Gender”, “Age”, “Occupation”, “Zip-code”

- bob: “MovieID”, “Rating”, “Title”, “Genres”, “Timestamp”

下载并处理数据

数据拆分处理

%%capture
%%!
wget https://secretflow-data.oss-accelerate.aliyuncs.com/datasets/movielens/ml-1m.zip
unzip ./ml-1m.zip
# Read the data in dat format and convert it into a dictionary
def load_data(filename, columns):data = {}with open(filename, "r", encoding="unicode_escape") as f:for line in f:ls = line.strip("\n").split("::")data[ls[0]] = dict(zip(columns[1:], ls[1:]))return data
fed_csv = {alice: "alice_ml1m.csv", bob: "bob_ml1m.csv"}
csv_writer_container = {alice: open(fed_csv[alice], "w"), bob: open(fed_csv[bob], "w")}
part_columns = {alice: ["UserID", "Gender", "Age", "Occupation", "Zip-code"],bob: ["MovieID", "Rating", "Title", "Genres", "Timestamp"],
}
for device, writer in csv_writer_container.items():writer.write("ID," + ",".join(part_columns[device]) + "\n")
f = open("ml-1m/ratings.dat", "r", encoding="unicode_escape")users_data = load_data("./ml-1m/users.dat",columns=["UserID", "Gender", "Age", "Occupation", "Zip-code"],
)
movies_data = load_data("./ml-1m/movies.dat", columns=["MovieID", "Title", "Genres"])
ratings_columns = ["UserID", "MovieID", "Rating", "Timestamp"]rating_data = load_data("./ml-1m/ratings.dat", columns=ratings_columns)def _parse_example(feature, columns, index):if "Title" in feature.keys():feature["Title"] = feature["Title"].replace(",", "_")if "Genres" in feature.keys():feature["Genres"] = feature["Genres"].replace("|", " ")values = []values.append(str(index))for c in columns:values.append(feature[c])return ",".join(values)index = 0
num_sample = 1000
for line in f:ls = line.strip().split("::")rating = dict(zip(ratings_columns, ls))rating.update(users_data.get(ls[0]))rating.update(movies_data.get(ls[1]))for device, columns in part_columns.items():parse_f = _parse_example(rating, columns, index)csv_writer_container[device].write(parse_f + "\n")index += 1if num_sample > 0 and index >= num_sample:break
for w in csv_writer_container.values():w.close()

到此就完成了数据的处理和拆分

得到

alice: alice_ml1m.csv

bob: bob_ml1m.csv

! head alice_ml1m.csv
! head bob_ml1m.csv

构造data_builder_dict

# alice
def create_dataset_builder_alice(batch_size=128,repeat_count=5,
):def dataset_builder(x):import pandas as pdimport tensorflow as tfx = [dict(t) if isinstance(t, pd.DataFrame) else t for t in x]x = x[0] if len(x) == 1 else tuple(x)data_set = (tf.data.Dataset.from_tensor_slices(x).batch(batch_size).repeat(repeat_count))return data_setreturn dataset_builder# bob
def create_dataset_builder_bob(batch_size=128,repeat_count=5,
):def _parse_bob(row_sample, label):import tensorflow as tfy_t = label["Rating"]y = tf.expand_dims(tf.where(y_t > 3,tf.ones_like(y_t, dtype=tf.float32),tf.zeros_like(y_t, dtype=tf.float32),),axis=1,)return row_sample, ydef dataset_builder(x):import pandas as pdimport tensorflow as tfx = [dict(t) if isinstance(t, pd.DataFrame) else t for t in x]x = x[0] if len(x) == 1 else tuple(x)data_set = (tf.data.Dataset.from_tensor_slices(x).batch(batch_size).repeat(repeat_count))data_set = data_set.map(_parse_bob)return data_setreturn dataset_builderdata_builder_dict = {alice: create_dataset_builder_alice(batch_size=128,repeat_count=5,),bob: create_dataset_builder_bob(batch_size=128,repeat_count=5,),
}
from secretflow.ml.nn.applications.sl_deep_fm import DeepFMbase, DeepFMfuse
from secretflow.ml.nn import SLModelNUM_USERS = 6040
NUM_MOVIES = 3952
GENDER_VOCAB = ["F", "M"]
AGE_VOCAB = [1, 18, 25, 35, 45, 50, 56]
OCCUPATION_VOCAB = [i for i in range(21)]
GENRES_VOCAB = ["Action","Adventure","Animation","Children's","Comedy","Crime","Documentary","Drama","Fantasy","Film-Noir","Horror","Musical","Mystery","Romance","Sci-Fi","Thriller","War","Western",
]

DeepFMBase有4个参数:

-dnn_units_size: 这个参数需要提供一个list来对dnn部分进行定义,比如[256,32]意思是中间两个隐层分别是256,和32

-dnn_activation: dnn 的激活函数,eg:relu

-preprocess_layer: 需要对输入进行处理,传入一个定义好的keras.preprocesslayer

-fm_embedding_dim: fm vector的维度是多少

# Define alice's basenet
def create_base_model_alice():# Create modeldef create_model():import tensorflow as tfdef preprocess():inputs = {"UserID": tf.keras.Input(shape=(1,), dtype=tf.string),"Gender": tf.keras.Input(shape=(1,), dtype=tf.string),"Age": tf.keras.Input(shape=(1,), dtype=tf.int64),"Occupation": tf.keras.Input(shape=(1,), dtype=tf.int64),}user_id_output = tf.keras.layers.Hashing(num_bins=NUM_USERS, output_mode="one_hot")user_gender_output = tf.keras.layers.StringLookup(vocabulary=GENDER_VOCAB, output_mode="one_hot")user_age_out = tf.keras.layers.IntegerLookup(vocabulary=AGE_VOCAB, output_mode="one_hot")user_occupation_out = tf.keras.layers.IntegerLookup(vocabulary=OCCUPATION_VOCAB, output_mode="one_hot")outputs = {"UserID": user_id_output(inputs["UserID"]),"Gender": user_gender_output(inputs["Gender"]),"Age": user_age_out(inputs["Age"]),"Occupation": user_occupation_out(inputs["Occupation"]),}return tf.keras.Model(inputs=inputs, outputs=outputs)preprocess_layer = preprocess()model = DeepFMbase(dnn_units_size=[256, 32],preprocess_layer=preprocess_layer,)model.compile(loss=tf.keras.losses.binary_crossentropy,optimizer=tf.keras.optimizers.Adam(),metrics=[tf.keras.metrics.AUC(),tf.keras.metrics.Precision(),tf.keras.metrics.Recall(),],)return model  # need wrapreturn create_model
# Define bob's basenet
def create_base_model_bob():# Create modeldef create_model():import tensorflow as tf# define preprocess layerdef preprocess():inputs = {"MovieID": tf.keras.Input(shape=(1,), dtype=tf.string),"Genres": tf.keras.Input(shape=(1,), dtype=tf.string),}movie_id_out = tf.keras.layers.Hashing(num_bins=NUM_MOVIES, output_mode="one_hot")movie_genres_out = tf.keras.layers.TextVectorization(output_mode='multi_hot', split="whitespace", vocabulary=GENRES_VOCAB)outputs = {"MovieID": movie_id_out(inputs["MovieID"]),"Genres": movie_genres_out(inputs["Genres"]),}return tf.keras.Model(inputs=inputs, outputs=outputs)preprocess_layer = preprocess()model = DeepFMbase(dnn_units_size=[256, 32],preprocess_layer=preprocess_layer,)model.compile(loss=tf.keras.losses.binary_crossentropy,optimizer=tf.keras.optimizers.Adam(),metrics=[tf.keras.metrics.AUC(),tf.keras.metrics.Precision(),tf.keras.metrics.Recall(),],)return model  # need wrapreturn create_model

定义Fusenet

def create_fuse_model():# Create modeldef create_model():import tensorflow as tfmodel = DeepFMfuse(dnn_units_size=[256, 256, 32])model.compile(loss=tf.keras.losses.binary_crossentropy,optimizer=tf.keras.optimizers.Adam(),metrics=[tf.keras.metrics.AUC(),tf.keras.metrics.Precision(),tf.keras.metrics.Recall(),],)return modelreturn create_model
base_model_dict = {alice: create_base_model_alice(), bob: create_base_model_bob()}
model_fuse = create_fuse_model()
from secretflow.data.vertical import read_csv as v_read_csvvdf = v_read_csv({alice: "alice_ml1m.csv", bob: "bob_ml1m.csv"}, keys="ID", drop_keys="ID"
)
label = vdf["Rating"]data = vdf.drop(columns=["Rating", "Timestamp", "Title", "Zip-code"])
data["UserID"] = data["UserID"].astype("string")
data["MovieID"] = data["MovieID"].astype("string")sl_model = SLModel(base_model_dict=base_model_dict,device_y=bob,model_fuse=model_fuse,
)
history = sl_model.fit(data,label,epochs=5,batch_size=128,random_seed=1234,dataset_builder=data_builder_dict,
)

到这里,我们已经使用隐语提供的deepfm封装完成了movieLens数据集上的推荐任务训练。

总结

我们通过movieLens数据集上的推荐任务来演示了如何通过隐语来实现DeepFM。

1.下载并拆分数据集;

2.定义好数据处理的dataloader;

3.定义好数据预处理的preprocesslayer,定义好dnn结构,调用DeepFMBase,DeepFMFuse来进行模型定义;

4.使用SLModel进行训练,预测,评估即可。

这篇关于隐私计算实训营:SplitRec:当拆分学习遇上推荐系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146224

相关文章

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

基于Python实现自动化邮件发送系统的完整指南

《基于Python实现自动化邮件发送系统的完整指南》在现代软件开发和自动化流程中,邮件通知是一个常见且实用的功能,无论是用于发送报告、告警信息还是用户提醒,通过Python实现自动化的邮件发送功能都能... 目录一、前言:二、项目概述三、配置文件 `.env` 解析四、代码结构解析1. 导入模块2. 加载环

linux系统上安装JDK8全过程

《linux系统上安装JDK8全过程》文章介绍安装JDK的必要性及Linux下JDK8的安装步骤,包括卸载旧版本、下载解压、配置环境变量等,强调开发需JDK,运行可选JRE,现JDK已集成JRE... 目录为什么要安装jdk?1.查看linux系统是否有自带的jdk:2.下载jdk压缩包2.解压3.配置环境

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Linux查询服务器系统版本号的多种方法

《Linux查询服务器系统版本号的多种方法》在Linux系统管理和维护工作中,了解当前操作系统的版本信息是最基础也是最重要的操作之一,系统版本不仅关系到软件兼容性、安全更新策略,还直接影响到故障排查和... 目录一、引言:系统版本查询的重要性二、基础命令解析:cat /etc/Centos-release详

Python中经纬度距离计算的实现方式

《Python中经纬度距离计算的实现方式》文章介绍Python中计算经纬度距离的方法及中国加密坐标系转换工具,主要方法包括geopy(Vincenty/Karney)、Haversine、pyproj... 目录一、基本方法1. 使用geopy库(推荐)2. 手动实现 Haversine 公式3. 使用py

更改linux系统的默认Python版本方式

《更改linux系统的默认Python版本方式》通过删除原Python软链接并创建指向python3.6的新链接,可切换系统默认Python版本,需注意版本冲突、环境混乱及维护问题,建议使用pyenv... 目录更改系统的默认python版本软链接软链接的特点创建软链接的命令使用场景注意事项总结更改系统的默