赛道 | 深延科技包揽SIGIR eCOM‘21双赛道冠军 自研自动特征工程框架神助攻

本文主要是介绍赛道 | 深延科技包揽SIGIR eCOM‘21双赛道冠军 自研自动特征工程框架神助攻,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

日前,信息检索领域的国际重要会议SIGIR 2021正在线上举行,来自深兰科技的DeepBlueAI团队参加了SIGIR eCom'21 竞赛,并且表现出色,在竞赛仅设的两个赛道中均获得冠军。

这是继2019年获得该系列比赛冠军以来的第二次夺冠,证明了深兰在电商推荐系统领域技术有着领先的地位。此外,更值得注意的是在第二个赛道,深兰自研的自动特征工程框架助力队伍获得了冠军,证明了其自动化机器学习的强大能力。

SIGIR eCom'21 竞赛由Coveo承办,是在2021 SIGIR Workshop on eCommerce上组织的一场电商商品推荐的比赛。该比赛从2017年开始,每年举办一次,今年已是第5届,吸引了来自NVIDIA、eBay、华东师范大学、乐天等知名公司和学校的团队。

一、SIGIR eCom'21冠军方案解读

1、赛题介绍

SIGIR eCom'21 竞赛分为两个赛题:

第一、商品推荐任务。赛题把一个会话分成前后两部分,给出前面一部分的数据,要求预测出后面会交互的商品,是一个大规模数据的推荐问题。

第二、购买意图预测任务。赛题给出一个有添加购物车行为的会话的前面一部分,要求预测最后用户是不是真的会买这个商品,是一个二分类问题。

2、团队成绩

比赛竞争非常激烈,最终DeepBlueAI团队击败了NVIDIA团队,在两个任务都取得了冠军。

3、数据分析

两个任务使用的是同一批数据,训练集测试集合起来一共有600多万,其中有100万会话数据和6万多个商品。经过分析,这两个任务分别有以下难点。

对于商品推荐任务:

首先数据量很大,对代码运行效率要求很高;第二有30%的测试集会话,给的初始信息很少,怎么有效优化冷启动的会话,提升得分?第三原始数据给出的字段极为丰富,怎么有效利用这些信息?

对于预测购买意图任务,主要是这个任务的评分指标很复杂:

首先,它定义了一个k,k表示第一次添加购物车之后会话还有几条记录。评分指标要求对k越小的样本预测正确奖励越高,针对这一点,怎么设计模型或者策略能够适应这个机制?

第二,每个k是一个分类,最终得分是每个类样本的平均准确率之和。因为使用了准确率(accuracy),加上正负样本不平衡,导致对模型的精度要求非常高。

4、竞赛方案

对于商品推荐任务,团队整体采用召回+排序的框架。

排序方面,团队尝试了很多方法,但是提升的效果有限。召回在这个任务里更为重要,在尝试了很多种方法后,团队最终使用了两个效果较好的召回。

(1)u2i_interact_i2i_itemcf:

先通过协同过滤的方法算出item与item之间的相似度,然后根据user历史交互的item,推荐与它最相似的item。

(2)u2url_url2i:

先统计访问当前url之后,下次访问每个item的概率;然后根据用户最后一个url推荐那些概率大的item。

对于预测购买意图任务:

首先是特征工程,团队采用了手动特征与自动特征工程相结合的方式。手动特征方面,主要是提取一些比较明显有效的特征,如用户是否查看了添加购物车商品的细节、查看了多久、用户一共交互了多少商品等比较直观的特征,效果上评分指标提升0.008;自动特征工程则是利用深兰自研autosmart框架提取的特征,这一部分特征效果提升0.002。

然后是后处理方面,针对评分指标的特性,基于k值不同对每个分类单独进行阈值调整,达到本地最好效果。

二、SIGIR 2019 eBay冠军方案解读

值得一提的是,早在2019年深延科技就在SIGIR 2019 eBay 数据挑战赛上夺得冠军。

当时比赛是由 eBay 搜索组组织的高精度召回任务。挑战针对的是电子商务搜索中的常见问题:展示非相关性排序时要显示的项目。用户通常按非相关性的维度进行排序,例如流行度、评论得分、价格等。

|关于深延科技|

深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。

这篇关于赛道 | 深延科技包揽SIGIR eCOM‘21双赛道冠军 自研自动特征工程框架神助攻的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438465

相关文章

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

pytorch自动求梯度autograd的实现

《pytorch自动求梯度autograd的实现》autograd是一个自动微分引擎,它可以自动计算张量的梯度,本文主要介绍了pytorch自动求梯度autograd的实现,具有一定的参考价值,感兴趣... autograd是pytorch构建神经网络的核心。在 PyTorch 中,结合以下代码例子,当你

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

SpringBoot中封装Cors自动配置方式

《SpringBoot中封装Cors自动配置方式》:本文主要介绍SpringBoot中封装Cors自动配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot封装Cors自动配置背景实现步骤1. 创建 GlobalCorsProperties

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应