推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)

本文主要是介绍推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://zhuanlan.zhihu.com/p/272792754

推荐系统存在 popularity bias,即少部分物品被频繁曝光。系统记录下频繁曝光的日志,并基于日志数据制定推荐策略,这种反馈链路(Feedback Loop)进一步放大推荐系统的popularity bias,从而对推荐多样性、挖掘用户真实兴趣、用户体验等有着不利影响。引起popularity bias问题的原因可能有以下两个方面:

1、数据bias:数据本身就存在严重bias,头部物品占了绝大多数曝光。

2、算法bias:算法把头部物品频繁推荐给用户,使得数据bias进一步放大。

动态来看,用户与头部物品频繁交互,这会使得算法bias与数据bias进一步放大,这对小众兴趣的用户影响更为不利。接下来我们结合Facebook的研究探讨下popularity bias与Feedback Loop[1]。

popularity bias & Feedback Loop

Facebook在MovieLens数据集上模拟了UserKNN、BPR、MostPopular三种算法(在此不再介绍这三种算法)对popularity bias放大作用,发现了如下现象:

1、由于Feedback Loop的原因,三种算法的推荐列表流行度随着迭代次数增加而不断变大,可以看出,流行度大的物品曝光机会越来越大。[图2左侧]

2、由于popularity bias逐渐变大,长尾物品更难以获得曝光机会,因此aggregate diversity(至少在推荐列表中出现一次的物品数量所占比例)逐渐变小。[图2右侧]

popularity bias对系统的影响

由于系统存在popularity bias,曝光给用户的物品会越来越同质。由于用户只能与少数头部物品进行交互,进而会影响用户偏好画像的更新,这种偏好画像的更新有可能是被动地,不能反映用户真实的兴趣。另外,从用户分组角度看,用户量大的兴趣组会“同化”用户量少的兴趣组,这是因为用户量大的兴趣组产生大量行为数据,进而使得模型或者策略偏向用户量大的兴趣组,忽略人数少的兴趣组。Facebook通过实验进行了探讨。

1、用户偏好画像的“漂移”:Facebook以用户点评过的电影类别分布作为用户偏好,以Kullback-Leibler divergence (KLD) 度量两个分布之间的距离,KLD值越大,两个分布之间差异就越大。随着模拟迭代次数增大,当前用户偏好与最初的用户偏好(训练集中用户点评过的电影类别的分布)之间的KLD值逐渐变大,即用户偏好发生了漂移。如果用户兴趣漂移是被动的,比如系统存在严重的popularity bias,使得用户只能看到少数的头部物品,用户“被迫点击”,长期以往,可能不会捕捉到用户真正的兴趣。[图3左侧]

2、同质化问题:存在两种情况对用户偏好漂移有影响:其一,系统对用户多样性兴趣进行探索;其二,系统popularity bias严重,展现给用户的物品都是一些头部物品,使得不同用户的兴趣画像越来越相似,总体兴趣分布越来越趋向于多数用户兴趣,少量用户兴趣被淹没。在MovieLens数据集中:4331个男性用户贡献了753769个点评,1709个女性用户贡献了246440个点评,由此可见,男性用户占大多数。Facebook通过模拟 实验发现,随着迭代次数增加,男性用户与女性用户的兴趣偏好向量之间的KLD值逐渐变小,系统同质化加重[图3右侧]。那么,是男性用户把女性用户“同化”了,还是女性用户把男性用户“同化”了呢?Facebook通过度量每一轮迭代男性用户偏好分布与整体用户初始偏好分布 以及 女性用户偏好分布与整体用户初始偏好分布之间的KDL值发现,女性用户与整体用户之间的KDL值逐渐变小,说明女性用户与整体用户之间的偏好差异越来越小,原因是男性用户与整体用户偏好分布接近,在迭代的过程中,展现给女性用户的物品受男性用户行为的影响较大,使得女性用户偏好越来越接近整体用户的偏好。男性用户与整体用户之间的KDL值略有增长,因为男性用户的偏好分布在迭代过程中略有变化[图4左侧]。Facebook通过实验发现,随着迭代次数增大,女性用户当前偏好分布与原始偏好分布KDL值变化较为明显,男性用户变化幅度较小[图4右侧]。

业务与思考

偏置本身并不是问题,问题是偏置对我们的业务目标产生了负面影响。因此,我们要充分理解业务,以业务角度去看待偏置、分析偏置,进而解决偏置。在理解业务前提下,按照什么维度对用户分组、按照什么维度度量流行度、怎么维护小众用户利益都是我们需要深思的问题。

THX

这篇关于推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700104

相关文章

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

基于Python实现自动化邮件发送系统的完整指南

《基于Python实现自动化邮件发送系统的完整指南》在现代软件开发和自动化流程中,邮件通知是一个常见且实用的功能,无论是用于发送报告、告警信息还是用户提醒,通过Python实现自动化的邮件发送功能都能... 目录一、前言:二、项目概述三、配置文件 `.env` 解析四、代码结构解析1. 导入模块2. 加载环

linux系统上安装JDK8全过程

《linux系统上安装JDK8全过程》文章介绍安装JDK的必要性及Linux下JDK8的安装步骤,包括卸载旧版本、下载解压、配置环境变量等,强调开发需JDK,运行可选JRE,现JDK已集成JRE... 目录为什么要安装jdk?1.查看linux系统是否有自带的jdk:2.下载jdk压缩包2.解压3.配置环境

Linux查询服务器系统版本号的多种方法

《Linux查询服务器系统版本号的多种方法》在Linux系统管理和维护工作中,了解当前操作系统的版本信息是最基础也是最重要的操作之一,系统版本不仅关系到软件兼容性、安全更新策略,还直接影响到故障排查和... 目录一、引言:系统版本查询的重要性二、基础命令解析:cat /etc/Centos-release详

更改linux系统的默认Python版本方式

《更改linux系统的默认Python版本方式》通过删除原Python软链接并创建指向python3.6的新链接,可切换系统默认Python版本,需注意版本冲突、环境混乱及维护问题,建议使用pyenv... 目录更改系统的默认python版本软链接软链接的特点创建软链接的命令使用场景注意事项总结更改系统的默

在Linux系统上连接GitHub的方法步骤(适用2025年)

《在Linux系统上连接GitHub的方法步骤(适用2025年)》在2025年,使用Linux系统连接GitHub的推荐方式是通过SSH(SecureShell)协议进行身份验证,这种方式不仅安全,还... 目录步骤一:检查并安装 Git步骤二:生成 SSH 密钥步骤三:将 SSH 公钥添加到 github

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

Linux系统之lvcreate命令使用解读

《Linux系统之lvcreate命令使用解读》lvcreate是LVM中创建逻辑卷的核心命令,支持线性、条带化、RAID、镜像、快照、瘦池和缓存池等多种类型,实现灵活存储资源管理,需注意空间分配、R... 目录lvcreate命令详解一、命令概述二、语法格式三、核心功能四、选项详解五、使用示例1. 创建逻

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序