推荐系统TOP-K指标AUC和CTR指标AUC的异同

2024-01-27 01:08

本文主要是介绍推荐系统TOP-K指标AUC和CTR指标AUC的异同,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AUC指标

推荐系统的两个阶段:

推荐系统可以分为两个阶段

  • 召回阶段,即TOP-K任务(粗排)
  • 精排阶段,即CTR任务

召回阶段是为每一个用户在成千上万的待选item中推荐排名前K个的候选item
精排阶段是对在召回阶段的K个的候选item的基础上,预测特定的user点击特定的item的概率,此结果对广告商精准投放广告产生直接影响,直接关系着广告的盈利。

分成两阶段的原因: 如果直接对待选item进行精排,由于待选item规模大,用户群体规模大,则服务端时间开销过大,无法正常提供服务,召回阶段将待排序的item范围缩小到排名前K个的候选item,然后再进行排序输出,是服务器负载和推荐精度之间的一个平衡。

我读了一些召回TOP-K的论文和精排CTR论文,发现TOP-K的AUC指标和CTR的AUC指标稍有不同

  • TOP-K问题的AUC区分用户,为每一个用户计算AUC然后再取平均, A U C = 1 ∣ U ∣ ∑ a u c u AUC=\frac{1}{|U|}\sum auc_u AUC=U1aucu
  • CTR问题的AUC则是没有区分用户,而是专注于整体样本,直接计算一个整体AUC。
  1. TOP-K AUC详解:
    A U C = 1 ∣ U ∣ ∑ u ∈ U 1 ∣ E ( u ) ∣ ∑ i , j ∈ E ( u ) δ ( x u i > x u j ) AUC=\frac{1}{|U|}\sum_{u\in U} \frac{1}{|E(u)|} \sum_{i,j\in E(u)}\delta(x_{ui} > x_{uj}) AUC=U1uUE(u)1i,jE(u)δ(xui>xuj)
    E ( u ) = { i , j ∣ i ∈ 命 中 的 i t e m , j ∈ 未 命 中 的 i t e m } E(u)=\{i,j|i\in命中的item,j\in未命中的item\} E(u)={i,jiitemjitem}
    自己实现版本
def get_auc(item_score, user_pos_test):''':param item_score: dict:item2score 待选item的预测评分:param user_pos_test: user在测试集中真实交互的item:return: auc'''item_score = sorted(item_score.items(), key=lambda kv: kv[1])item_score.reverse()ranked_items = [x[0] for x in item_score]pre = [x[1] for x in item_score]r = []for i in ranked_items:if i in user_pos_test:r.append(1)else:r.append(0)num_rele_items = sum(r)num_eval_items = len(item_score)num_eval_pairs = (num_eval_items - num_rele_items) * num_rele_itemsif num_eval_pairs == 0:return 0.5num_correct_pairs = 0hits = 0# for item_id in ranked_items:#     if item_id not in user_pos_test:#         num_correct_pairs += hits#     else:#         hits+=1for i in range(len(r)):if r[i]==0: num_correct_pairs += hitselse :      hits+=1auc = (num_correct_pairs + 0.0) / num_eval_pairsreturn auc

调用sklearn版

from sklearn.metrics import roc_auc_score
def get_auc(item_score, user_pos_test):''':param item_score: dict:item2score 待选item的预测评分:param user_pos_test: user在测试集中真实交互的item:return: auc'''items = item_score.keys()pre = item_score.values()r = []for i in items:if i in user_pos_test:r.append(1)else:r.append(0)auc = roc_auc_score(ground_truth=r, prediction=pre)return auc
  1. CTR AUC详解:
    CTR问题可以视为二分类问题,标签0代表用户没有点击item,标签1代表用户点击了item,我们的任务是输出用户点击item的概率。
    CTR样本的格式如下:
useriditemidlabel
A11
A30
A21
B10
C31
C21
def get_auc(y_ture, y_pre):''':param y_ture: 正确的0、1标签:param y_pre:  预测的点击概率:return: '''auc = roc_auc_score(y_true=y_ture, y_score=y_pre)return auc

对TOP-K的AUC指标,CTR的AUC指标,还没有找到很合适的资料,文章也写得很乱,还需要继续完善。

这篇关于推荐系统TOP-K指标AUC和CTR指标AUC的异同的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/648618

相关文章

linux系统中java的cacerts的优先级详解

《linux系统中java的cacerts的优先级详解》文章讲解了Java信任库(cacerts)的优先级与管理方式,指出JDK自带的cacerts默认优先级更高,系统级cacerts需手动同步或显式... 目录Java 默认使用哪个?如何检查当前使用的信任库?简要了解Java的信任库总结了解 Java 信

macOS彻底卸载Python的超完整指南(推荐!)

《macOS彻底卸载Python的超完整指南(推荐!)》随着python解释器的不断更新升级和项目开发需要,有时候会需要升级或者降级系统中的python的版本,系统中留存的Pytho版本如果没有卸载干... 目录MACOS 彻底卸载 python 的完整指南重要警告卸载前检查卸载方法(按安装方式)1. 卸载

Oracle数据库在windows系统上重启步骤

《Oracle数据库在windows系统上重启步骤》有时候在服务中重启了oracle之后,数据库并不能正常访问,下面:本文主要介绍Oracle数据库在windows系统上重启的相关资料,文中通过代... oracle数据库在Windows上重启的方法我这里是使用oracle自带的sqlplus工具实现的方

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

基于Python实现自动化邮件发送系统的完整指南

《基于Python实现自动化邮件发送系统的完整指南》在现代软件开发和自动化流程中,邮件通知是一个常见且实用的功能,无论是用于发送报告、告警信息还是用户提醒,通过Python实现自动化的邮件发送功能都能... 目录一、前言:二、项目概述三、配置文件 `.env` 解析四、代码结构解析1. 导入模块2. 加载环

linux系统上安装JDK8全过程

《linux系统上安装JDK8全过程》文章介绍安装JDK的必要性及Linux下JDK8的安装步骤,包括卸载旧版本、下载解压、配置环境变量等,强调开发需JDK,运行可选JRE,现JDK已集成JRE... 目录为什么要安装jdk?1.查看linux系统是否有自带的jdk:2.下载jdk压缩包2.解压3.配置环境

Linux查询服务器系统版本号的多种方法

《Linux查询服务器系统版本号的多种方法》在Linux系统管理和维护工作中,了解当前操作系统的版本信息是最基础也是最重要的操作之一,系统版本不仅关系到软件兼容性、安全更新策略,还直接影响到故障排查和... 目录一、引言:系统版本查询的重要性二、基础命令解析:cat /etc/Centos-release详

更改linux系统的默认Python版本方式

《更改linux系统的默认Python版本方式》通过删除原Python软链接并创建指向python3.6的新链接,可切换系统默认Python版本,需注意版本冲突、环境混乱及维护问题,建议使用pyenv... 目录更改系统的默认python版本软链接软链接的特点创建软链接的命令使用场景注意事项总结更改系统的默

在Linux系统上连接GitHub的方法步骤(适用2025年)

《在Linux系统上连接GitHub的方法步骤(适用2025年)》在2025年,使用Linux系统连接GitHub的推荐方式是通过SSH(SecureShell)协议进行身份验证,这种方式不仅安全,还... 目录步骤一:检查并安装 Git步骤二:生成 SSH 密钥步骤三:将 SSH 公钥添加到 github

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方