优势特征蒸馏:阿里PFD

2024-03-12 22:28
文章标签 优势 阿里 特征 蒸馏 pfd

本文主要是介绍优势特征蒸馏:阿里PFD,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Privileged Features Distillation at Taobao Recommendations

背景

ctr&cvr预估任务中有很多非常有区分性的特征没法使用,比如用户点击之后的互动时长、点击之后的一些页面动作信息,因为只有离线训练的时候能拿到,线上预估的时候是拿不到的,为了保持线上和线下的一致性,这些“优势特征”(Privileged Features)就会被忍痛割爱舍弃掉。那么如何有效利用这些优势特征呢?

解决方案

通过蒸馏的方式,teacher模型的特征输入包含了优势特征,teacher模型和student模型结构一样,只是特征输入不同,teacher模型将学习到的信息蒸馏迁移到student模型。student的输入中没有优势特征,这样线上infer的时候,student模型可以正常工作。

方案详情

与常规的蒸馏模型不同,PFD(Privileged Features Distillation)中teacher和student模型结构上是一致的,只是输入不同。常规的MD(Model Distillation)是teacher模型结构非常复杂,student模型结构简单。
对比如下:
在这里插入图片描述
特征输入 X \mathbf X X,优势特征 X ∗ \mathbf X^* X,student的模型参数 W s \mathbf W_s Ws,teacher的模型参数 W t \mathbf W_t Wt,student模型是原来的主模型,这里加了一个蒸馏loss L d L_d Ld,蒸馏loss用来衡量是teacher模型输出和student模型输出的差异情况的。
如果teacher模型先训练好,然后再来训练student模型,loss如下
在这里插入图片描述

但是teacher模型先训练好可能会比较费时,可以同步训练teacher模型和student模型,loss如下

在这里插入图片描述

我们希望teacher和student的预测输出足够接近,可以使用均方误差如下:
L d = 1 N ∑ i = 1 N ( f ( X ∗ ; W t ) − f ( X ; W s ) ) 2 L_d = \frac {1} {N} \sum_{i=1}^N (f(\mathbf X^*;\mathbf W_t) - f(\mathbf X;\mathbf W_s))^2 Ld=N1i=1N(f(X;Wt)f(X;Ws))2

也可以使用KL 散度,将teacher和student的输出都当做一个分布,KL散度用来衡量分布差异效果较好。

特征输入示意图如下
在这里插入图片描述
粗排阶段优势特征蒸馏
蒸馏方式:交叉特征效果非常好,但是一般没法用在粗排上面,作为优势特征输入到teacher模型

精排阶段优势特征蒸馏
蒸馏方式:用户点击之后的行为特征,比如点击后的停留时长、有没有咨询客服、有没有浏览评论等信息,这些特征作为优势特征输入到teacher模型。

实验

进一步可以将MD和PFD结合起来,可以让teacher模型结构更加复杂,容量更大。
在这里插入图片描述
效果更好
在这里插入图片描述
超参数 λ \lambda λ的调节
在这里插入图片描述
同步(Synchronous)训练时teacher和student的参数共享效果更好,耗时也更低,学习的更充分。
在这里插入图片描述

这篇关于优势特征蒸馏:阿里PFD的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/802781

相关文章

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

HTML5 中的<button>标签用法和特征

《HTML5中的<button>标签用法和特征》在HTML5中,button标签用于定义一个可点击的按钮,它是创建交互式网页的重要元素之一,本文将深入解析HTML5中的button标签,详细介绍其属... 目录引言<button> 标签的基本用法<button> 标签的属性typevaluedisabled

C++ HTTP框架推荐(特点及优势)

《C++HTTP框架推荐(特点及优势)》:本文主要介绍C++HTTP框架推荐的相关资料,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Crow2. Drogon3. Pistache4. cpp-httplib5. Beast (Boos

Dubbo之SPI机制的实现原理和优势分析

《Dubbo之SPI机制的实现原理和优势分析》:本文主要介绍Dubbo之SPI机制的实现原理和优势,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Dubbo中SPI机制的实现原理和优势JDK 中的 SPI 机制解析Dubbo 中的 SPI 机制解析总结Dubbo中

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阿里云服务器ces

允许公网通过 HTTP、HTTPS 等服务访问实例 https://help.aliyun.com/document_detail/25475.html?spm=5176.2020520101.0.0.3ca96b0b3KGTPq#allowHttp

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互