推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)

本文主要是介绍推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://zhuanlan.zhihu.com/p/272792754

推荐系统存在 popularity bias,即少部分物品被频繁曝光。系统记录下频繁曝光的日志,并基于日志数据制定推荐策略,这种反馈链路(Feedback Loop)进一步放大推荐系统的popularity bias,从而对推荐多样性、挖掘用户真实兴趣、用户体验等有着不利影响。引起popularity bias问题的原因可能有以下两个方面:

1、数据bias:数据本身就存在严重bias,头部物品占了绝大多数曝光。

2、算法bias:算法把头部物品频繁推荐给用户,使得数据bias进一步放大。

动态来看,用户与头部物品频繁交互,这会使得算法bias与数据bias进一步放大,这对小众兴趣的用户影响更为不利。接下来我们结合Facebook的研究探讨下popularity bias与Feedback Loop[1]。

popularity bias & Feedback Loop

Facebook在MovieLens数据集上模拟了UserKNN、BPR、MostPopular三种算法(在此不再介绍这三种算法)对popularity bias放大作用,发现了如下现象:

1、由于Feedback Loop的原因,三种算法的推荐列表流行度随着迭代次数增加而不断变大,可以看出,流行度大的物品曝光机会越来越大。[图2左侧]

2、由于popularity bias逐渐变大,长尾物品更难以获得曝光机会,因此aggregate diversity(至少在推荐列表中出现一次的物品数量所占比例)逐渐变小。[图2右侧]

popularity bias对系统的影响

由于系统存在popularity bias,曝光给用户的物品会越来越同质。由于用户只能与少数头部物品进行交互,进而会影响用户偏好画像的更新,这种偏好画像的更新有可能是被动地,不能反映用户真实的兴趣。另外,从用户分组角度看,用户量大的兴趣组会“同化”用户量少的兴趣组,这是因为用户量大的兴趣组产生大量行为数据,进而使得模型或者策略偏向用户量大的兴趣组,忽略人数少的兴趣组。Facebook通过实验进行了探讨。

1、用户偏好画像的“漂移”:Facebook以用户点评过的电影类别分布作为用户偏好,以Kullback-Leibler divergence (KLD) 度量两个分布之间的距离,KLD值越大,两个分布之间差异就越大。随着模拟迭代次数增大,当前用户偏好与最初的用户偏好(训练集中用户点评过的电影类别的分布)之间的KLD值逐渐变大,即用户偏好发生了漂移。如果用户兴趣漂移是被动的,比如系统存在严重的popularity bias,使得用户只能看到少数的头部物品,用户“被迫点击”,长期以往,可能不会捕捉到用户真正的兴趣。[图3左侧]

2、同质化问题:存在两种情况对用户偏好漂移有影响:其一,系统对用户多样性兴趣进行探索;其二,系统popularity bias严重,展现给用户的物品都是一些头部物品,使得不同用户的兴趣画像越来越相似,总体兴趣分布越来越趋向于多数用户兴趣,少量用户兴趣被淹没。在MovieLens数据集中:4331个男性用户贡献了753769个点评,1709个女性用户贡献了246440个点评,由此可见,男性用户占大多数。Facebook通过模拟 实验发现,随着迭代次数增加,男性用户与女性用户的兴趣偏好向量之间的KLD值逐渐变小,系统同质化加重[图3右侧]。那么,是男性用户把女性用户“同化”了,还是女性用户把男性用户“同化”了呢?Facebook通过度量每一轮迭代男性用户偏好分布与整体用户初始偏好分布 以及 女性用户偏好分布与整体用户初始偏好分布之间的KDL值发现,女性用户与整体用户之间的KDL值逐渐变小,说明女性用户与整体用户之间的偏好差异越来越小,原因是男性用户与整体用户偏好分布接近,在迭代的过程中,展现给女性用户的物品受男性用户行为的影响较大,使得女性用户偏好越来越接近整体用户的偏好。男性用户与整体用户之间的KDL值略有增长,因为男性用户的偏好分布在迭代过程中略有变化[图4左侧]。Facebook通过实验发现,随着迭代次数增大,女性用户当前偏好分布与原始偏好分布KDL值变化较为明显,男性用户变化幅度较小[图4右侧]。

业务与思考

偏置本身并不是问题,问题是偏置对我们的业务目标产生了负面影响。因此,我们要充分理解业务,以业务角度去看待偏置、分析偏置,进而解决偏置。在理解业务前提下,按照什么维度对用户分组、按照什么维度度量流行度、怎么维护小众用户利益都是我们需要深思的问题。

THX

这篇关于推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700104

相关文章

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Java日期类详解(最新推荐)

《Java日期类详解(最新推荐)》早期版本主要使用java.util.Date、java.util.Calendar等类,Java8及以后引入了新的日期和时间API(JSR310),包含在ja... 目录旧的日期时间API新的日期时间 API(Java 8+)获取时间戳时间计算与其他日期时间类型的转换Dur

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主