【推荐系统论文精读系列】(十三)--Attentional Factorization Machines Learning the Weight of Feature Interactions

本文主要是介绍【推荐系统论文精读系列】(十三)--Attentional Factorization Machines Learning the Weight of Feature Interactions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、摘要
  • 二、介绍
  • 三、Attentional Factorization Machines
    • 3.1 模型
      • 3.1.1 Pair-wise Interaction Layer
      • 3.1.2 Attention-based Pooling Layer
    • 3.2 学习
    • 3.2.1 防止过拟合
  • References


论文名称:Attentional Factorization Machines Learning the Weight of Feature Interactions via Attention Networks
原文地址:Attentional Factorization Machines


⚡本系列历史文章⚡

【推荐系统论文精读系列】(一)–Amazon.com Recommendations
【推荐系统论文精读系列】(二)–Factorization Machines
【推荐系统论文精读系列】(三)–Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)–Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)–Neural Collaborative Filtering
【推荐系统论文精读系列】(六)–Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)–AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)–Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)–Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)–Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)–DeepFM A Factorization-Machine based Neural Network for CTR Prediction


一、摘要

FMs是一个有监督学习方法能够提升线性回归模型的表现通过结合二阶特征,尽管这是一个有效的办法,但是FM只能够以相同的权重对交互特征进行建模,但是现实情况下,并不是所有的交互都是有用的。例如一些无用的特征交互可能会引入噪音并且产生不利的模型表现。本项任务中,我们通过识别不同特征交互的重要性来提升FM。我们提出了一个新型的模型叫做Attentional Factorization Machine(AFM),这个模型能够从数据中学习特征交互的重要性通过一个注意力网络。

二、介绍

有监督学习在机器学习中是最基本的任务之一。它的目标就是推断出一个函数能够预测给定变量的标签。例如,实值标签对于回归问题,而分类标签用于分类问题。他已经广泛的应用于各大应用,包括推荐系统,在线广告,图像识别等。

为了利用不同特征之间的交互,一个普遍的方式就是去显式构造交互特征,像Ploynomial Regression,每个交叉特征的权重可以被学习。可是它关键的问题就是仅仅被观测到的数据才能够被更新。

为了解决模型泛化的问题,FMs被提出在2010年,他将每个交互特征的权重进行参数化使用组成特征的Embedding向量的内积。通过为每个特征学习Embedding向量,这样就能够来进行估计交互特征的权重。FM现已经成功用于不同的应用,从推荐系统到自然语言处理。尽管有很好的前景,但是我们争论到FM的功能被限制,交互特征的权重都是相同的。

本项工作中,我们设计了一个新型的网络叫做AFM,它利用了最近新提出的网络——注意力机制,去确保学习不同的特征交互权重用于预测。更重要的是,特征交互能够自动从数据中进行学习,不需要任何领域知识。这个极大的增强了FM的可解释性和透明度。

三、Attentional Factorization Machines

3.1 模型

image-20211128205253159

输入层和Embedding层和FM是相同的,对输入特征采用稀疏表示法,并将每个非0特征嵌入一个密集向量中。接下来,我们使用了pair-wise交互层和基于注意力的池化层,这是本篇论文重点。

3.1.1 Pair-wise Interaction Layer

通过FM使用内积去构建不同特征交互的启发,我们提出了一个新的交互方式——Pair-wise Interaction Layer在神经网络中。它将 m m m 个向量扩展到了 m ( m − 1 ) 2 \frac{m(m-1)}{2} 2m(m1) 个,每个向量都是不同两个特征的embedding向量进行两两乘积:
f P I ( E ) = { ( v i ∗ v j ) x i x j } f_{PI(\Epsilon)}=\{(v_i*v_j)x_ix_j\} fPI(E)={(vivj)xixj}
然后我们使用了一个全连接层去映射输出评分:
y ^ = p T ∑ ( v i ∗ v j ) x j x j + b \hat {y}=p^T\sum(v_i*v_j)x_jx_j+b y^=pT(vivj)xjxj+b
Pair-wise Interaction Layer这个池化层可以被看做使用的池中向量进行加和。

3.1.2 Attention-based Pooling Layer

因为注意力机制已经被引入到神经网络中,他已经被广泛用于一些任务中,例如推荐系统、信息检索和计算机视觉领域。这个想法是允许不同部分贡献不同的权重:
f A t t ( f P I ( E ) ) = ∑ a i j ( v i ∗ v j ) x i x j f_{Att}(f_{PI}(E))=\sum a_{ij}(v_i*v_j)x_ix_j fAtt(fPI(E))=aij(vivj)xixj
这个 a i j a_{ij} aij 是每个特征交互的注意力分数,它能够使用最小损失函数来进行学习,可是问题是训练集中从未出现的数据是无法估计注意力参数的,所以为了提高泛化能力,我们使用一层MLP来进行学习,我们把它叫做注意力网络,输入就是两个特征的交互向量:
a i j = h T R e l u ( W ( v i ∗ v j ) x i x j + b ) a i j = e x p ( a i j ) ∑ e x p ( a i j ) a_{ij}=h^TRelu(W(v_i*v_j)x_ix_j+b)\\ a_{ij}=\frac{exp(a_{ij})}{\sum exp(a_{ij})} aij=hTRelu(W(vivj)xixj+b)aij=exp(aij)exp(aij)
attention-base pooling layer的输出是一个k维向量,我们然后将他映射到输出层:
y ^ A F M ( x ) = w 0 + ∑ i = 1 n w i x i + p T ∑ i = 1 n ∑ j = i + 1 n a i j ( v i ∗ v j ) x i x j \hat {y}_{AFM}(x)=w_0+\sum_{i=1}^nw_ix_i+p^T\sum_{i=1}^n\sum_{j=i+1}^na_{ij}(v_i*v_j)x_ix_j y^AFM(x)=w0+i=1nwixi+pTi=1nj=i+1naij(vivj)xixj

3.2 学习

由于AFM从数据建模的角度直接增强了FM,它还可以应用于各种预测任务,包括回归、分类和排名。应使用不同的目标函数为不同任务定制AFM模型学习。对于目标(x)为实际值的回归任务,常见的目标函数为损失平方:
L r = ∑ ( y ^ A F M ( x ) − y ( x ) ) 2 L_r=\sum(\hat {y}_{AFM}(x)-y(x))^2 Lr=(y^AFM(x)y(x))2
在本文中,我们关注回归任务并优化平方损失。为了优化目标函数,我们采用了随机梯度下降(SGD)——神经网络模型的通用求解器。实现SGD算法的关键是获得预测模型每个参数的导数。由于大多数用于深度学习的现代工具包都提供了自动微分的功能,如Theano和TensorFlow,我们在此省略了衍生工具的细节。

3.2.1 防止过拟合

在优化ML模型时,过度拟合是一个永恒的问题。研究表明,FM可能会出现过度拟合,因此正则化是防止FM过度拟合的重要因素。由于AFM比FM具有更强的表示能力,因此可能更容易过度拟合训练数据。在这里,我们考虑两种技术以防止过度拟合,Dropout和L2正规化,已广泛应用于神经网络模型。

Dropout的概念是在训练期间随机丢弃一些神经元(沿着它们的连接)。它被证明能够防止神经元对训练数据的复杂协同适应。由于AFM对特征之间的所有成对交互进行建模,但并非所有交互都有用,因此成对交互层的神经元可能很容易相互适应,并导致过度拟合。因此,我们在成对交互层上使用dropout来避免共同适应。此外,由于在测试期间禁用了Dropout,并且整个网络用于预测,因此Dropout还有另一个作用,即使用较小的神经网络进行模型平均,这可能会提高性能。

对于单层MLP的注意网络分量,我们对权重矩阵W进行正则化,以防止可能的过度拟合。也就是说,我们优化的实际目标函数是:
L r = ∑ ( y ^ A F M ( x ) − y ( x ) ) 2 + λ ∣ ∣ W ∣ ∣ 2 L_r=\sum(\hat {y}_{AFM}(x)-y(x))^2+\lambda ||W||^2 Lr=(y^AFM(x)y(x))2+λW2
其中控制正则化强度。我们没有在注意网络上使用Dropout,因为我们发现在交互层和注意网络上联合使用Dropout会导致一些稳定性问题并降低性能。

References

[Baltrunas et al., 2015] Linas Baltrunas, Karen Church, Alexandros Karatzoglou, and Nuria Oliver. Frappe: Understanding the usage and perception of mobile app recommendations in-thewild. CoRR, abs/1505.03014, 2015.

[Bayer et al., 2017] Immanuel Bayer, Xiangnan He, Bhargav Kanagal, and Steffen Rendle. A generic coordinate descent framework for learning from implicit feedback. In WWW, 2017.

[Blondel et al., 2016] Mathieu Blondel, Akinori Fujino, Naonori Ueda, and Masakazu Ishihata. Higher-order factorization machines. In NIPS, 2016.

[Chen et al., 2016] Tao Chen, Xiangnan He, and Min-Yen Kan. Context-aware image tweet modelling and recommendation. In MM, 2016.

[Chen et al., 2017a] Jingyuan Chen, Hanwang Zhang, Xiangnan He, Liqiang Nie, Wei Liu, and Tat-Seng Chua. Attentive collaborative filtering: Multimedia recommendation with feature- and item-level attention. In SIGIR, 2017.

[Chen et al., 2017b] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, and Tat-Seng Chua. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning. In CVPR, 2017.

[Cheng et al., 2014] Chen Cheng, Fen Xia, Tong Zhang, Irwin King, and Michael R Lyu. Gradient boosting factorization machines. In RecSys, 2014.

[Cheng et al., 2016] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, et al. Wide & deep learning for recommender systems. In DLRS, 2016.

[Harper and Konstan, 2015] F. Maxwell Harper and Joseph A. Konstan. The movielens datasets: History and context. ACM TIIS, 2015.

[He et al., 2016a] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.

[He et al., 2016b] Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua. Fast matrix factorization for online recommendation with implicit feedback. In SIGIR, 2016.

[He et al., 2017a] Xiangnan He, Ming Gao, Min-Yen Kan, and Dingxian Wang. BiRank: Towards ranking on bipartite graphs. IEEE TKDE, 2017.

[He et al., 2017b] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. Neural collaborative filering. In WWW, 2017.

[Juan et al., 2016] Yuchin Juan, Yong Zhuang, Wei-Sheng Chin, and Chih-Jen Lin. Field-aware factorization machines for ctr prediction. In RecSys, 2016.

[Koren, 2008] Yehuda Koren. Factorization meets the neighborhood: A multifaceted collaborative filtering model. In KDD, 2008.

[Petroni et al., 2015] Fabio Petroni, Luciano Del Corro, and Rainer Gemulla. Core: Context-aware open relation extraction with factorization machines. In EMNLP, 2015.

[Rendle et al., 2011] Steffen Rendle, Zeno Gantner, Christoph Freudenthaler, and Lars Schmidt-Thieme. Fast context-aware recommendations with factorization machines. In SIGIR, 2011.

[Rendle, 2010] Steffen Rendle. Factorization machines. In ICDM, 2010. [Rendle, 2012] Steffen Rendle. Factorization machines with libfm. ACM TIST, 2012.

[He and Chua, 2017] Xiangnan He and Tat-Seng Chua. Neural factorization machines for sparse predictive analytics. In SIGIR, 2017.

[He et al., 2014] Xiangnan He, Min-Yen Kan, Peichu Xie, and Xiao Chen. Comment-based multi-view clustering of web 2.0 items. In WWW, 2014.

[Shan et al., 2016] Ying Shan, T Ryan Hoens, Jian Jiao, Haijing Wang, Dong Yu, and JC Mao. Deep crossing: Web-scale modeling without manually crafted combinatorial features. In KDD, 2016.

[Shen et al., 2015] Fumin Shen, Chunhua Shen, Wei Liu, and Heng Tao Shen. Supervised discrete hashing. In CVPR, 2015.

[Srivastava et al., 2014] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. JMLR, 2014.

[Wang et al., 2015] Meng Wang, Xueliang Liu, and Xindong Wu. Visual classification by l1-hypergraph modeling. IEEE TKDE, 2015.

[Wang et al., 2016] Meng Wang, Weijie Fu, Shijie Hao, Dacheng Tao, and Xindong Wu. Scalable semi-supervised learning by efficient anchor graph regularization. IEEE TKDE, 2016.

[Wang et al., 2017a] Xiang Wang, Xiangnan He, Liqiang Nie and Tat-Seng Chua Item Silk Road: Recommending Items from Information Domains to Social Users SIGIR, 2017.

[Wang et al., 2017b] Meng Wang, Weijie Fu, Shijie Hao, Hengchang Liu, and Xindong Wu. Learning on big graph: Label inference and regularization with anchor hierarchy. IEEE TKDE, 2017.

[Xiong et al., 2017] Chenyan Xiong, Jimie Callan, and Tie-Yen Liu. Learning to attend and to rank with word-entity duets. In SIGIR, 2017.

[Yang et al., 2014] Yang Yang, Zheng-Jun Zha, Yue Gao, Xiaofeng Zhu, and Tat-Seng Chua. Exploiting web images for semantic video indexing via robust sample-specific loss. IEEE TMM, 2014.

[Yang et al., 2015] Yang Yang, Zhigang Ma, Yi Yang, Feiping Nie, and Heng Tao Shen. Multitask spectral clustering by exploring intertask correlation. IEEE TCYB, 2015.

[Zhang et al., 2016a] Hanwang Zhang, Xindi Shang, Huanbo Luan, Meng Wang, and Tat-Seng Chua. Learning from collective intelligence: Feature learning using social images and tags. TMM, 2016.

[Zhang et al., 2016b] Hanwang Zhang, Fumin Shen, Wei Liu, Xiangnan He, Huanbo Luan, and Tat-Seng Chua. Discrete collaborative filtering. In SIGIR, 2016.

[Zhang et al., 2017] Hanwang Zhang, Zawlin Kyaw, Shih-Fu Chang, and Tat-Seng Chua. Visual translation embedding network for visual relation detection. In CVPR, 2017.

[Zhao et al., 2015] Zhou Zhao, Lijun Zhang, Xiaofei He, and Wilfred Ng. Expert finding for question answering via graph regularized matrix completion. TKDE, 2015.

[Zhao et al., 2016] Zhou Zhao, Hanqing Lu, Deng Cai, Xiaofei He, and Yueting Zhuang. User Preference Learning for Online Social Recommendation. TKDE, 2016.

t al., 2016] Zhou Zhao, Hanqing Lu, Deng Cai, Xiaofei He, and Yueting Zhuang. User Preference Learning for Online Social Recommendation. TKDE, 2016.

这篇关于【推荐系统论文精读系列】(十三)--Attentional Factorization Machines Learning the Weight of Feature Interactions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314351

相关文章

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Java日期类详解(最新推荐)

《Java日期类详解(最新推荐)》早期版本主要使用java.util.Date、java.util.Calendar等类,Java8及以后引入了新的日期和时间API(JSR310),包含在ja... 目录旧的日期时间API新的日期时间 API(Java 8+)获取时间戳时间计算与其他日期时间类型的转换Dur

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主