阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享

本文主要是介绍阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享

一、简介

我在2017年10月至12月参加该比赛，最终排名是 42/2845。写本文的目的，其一是总结与记录本次比赛的实现，其二是反省自身，因为我觉得自己对待比赛的态度有点消极，在连续很多天没有新进展的情况下，逐渐进入了弃疗的状态，尤其是后期乏力，没有竭尽全力，这绝对是不应该的，既然决定了参加比赛就应该有始有终。写下此文，以作警示。

二、赛题

2.1 赛题简介

赛题详情可以参考这里。赛题的业务背景是各大商场中用户使用支付宝消费的常见现象，然而有时候存在着消费店铺信息丢失等问题。赛题为我们提供了过去一段时间内（2个月）500个商场的消费记录，包含用户行为与商铺信息等，要求我们预测接下来一段时间（2周）内的消费记录对应的真实商铺。显然，这是一个分类任务，既可以处理成多分类，也可以处理成二分类。

2.2 提供特征

2.2.1 提供特征

赛题提供的原始特征字段包含两方面：用户在商铺的消费记录（包含WIFI、位置等），商铺信息（位置、类别、消费水平等）。复赛样本量大概在1000w左右。

消费记录

序号	字段	描述
1	user_id	用户ID
2	shop_id	商铺ID
3	time_stamp	消费行为时间戳，例如：2017-08-06 21:20
4	longitude	行为发生时位置-经度
5	latitude	行为发生时位置-纬度
6	wifi_infos	行为发生时Wifi环境，包括bssid（wifi唯一识别码），signal（强度），flag（是否连接）

wifi_infos 例子：
b_6396480|-67|false;b_41124514|-86|false;b_28723327|-90|false;

解释：以分号隔开的WIFI列表。对每个WIFI数据包含三项：b_6396480是脱敏后的bssid，-67是signal强度，数值越大表示信号越强，false表示当前用户没有连接此WIFI（true表示连接）。

商场商铺信息

序号	字段	描述
1	shop_id	店铺ID
2	category_id	店铺类型ID，共40种左右
3	longitude	店铺位置-经度
4	latitude	店铺位置-纬度
5	price	人均消费指数
6	mall_id	店铺所在商场ID

2.2.2 评估方式

预测正确：给出的shop_id和标准答案的shop_id相等。

P = C N

$P = \frac{C}{N}$

其中 $P$ 表示准确率， $C$ 表示预测正确样本数， N <script type="math/tex" id="MathJax-Element-80">N</script>表示样本总量。
注意，若某些样本没有给出结果，那么也会被当成错误识别。

2.2.3 关于赛题数据的思考

问题理解
问题可以理解为分类任务，既可以作为多分类（每个样本对应的商铺即为真实类别），也可以构造为二分类（构造每个样本对应的商铺为正例，其他商铺为反例），不管哪一种，都需要分商场（mall）来做，即可以认为各商场之间是相互独立的。从另一个角度看，这实际上要求我们构建一个推荐系统，为用户推荐他最可能去的商铺。
可能需要的数据处理
- 首先，样本的本质是消费记录，消费记录可能存在伪造现象。
- 其次，商铺的消费者中，新用户居多，即冷启动可能相对严重。
- 第三，WIFI环境复杂，可能存在数值不准，可能有特殊WIFI，比如个人热点。
特征提取方向
题目提供的信息其实并不多，特征的选择方向主要有两个，其一是围绕各商铺作出的统计，其二是围绕消费时的WIFI环境列表作出的统计。两者的核心都是去构造样本与商铺的表达，并找出它们的联系，比较它们的距离，从而做出分类或推荐。
模型的选择
作为一个分类任务，典型的方法无非梯度提升树GBDT，典型的工具无非xgboost和LightGBM。而赛题提供的ID类字段偏多，Onehot处理后使用LR或FFM也是考虑的范围。
考虑到复赛是平台赛，能用的方法应该以树模型及其bagging融合为核心，stacking为辅助选择。

三、特征工程

我们这次的特征工程做的是不合格的，基本上只用到了Onehot编码过的WIFI列表，以及一些零星的特征。下面这个列表给出了用到了特征概述。可以看到里面有“候选shop”字样，这个东西与我们的模型有关，放到模型部分讲。总体而言，我们提的特征太少，这实际上也是后面成绩提不上去的原因，毕竟特征决定了模型能达到的上限。

WIFI特征

WIFI强度Onehot后将dB转为mW
记录中是否有连接的wifi记录
记录中是含否有null（并且null处理为均值）
WIFI列表排序位置(如最强、第二强、第三强…)上的bss_id在历史上出现过的总次数、候选shop在其中的占比
连接的bss_id在历史出现的总次数、候选shop在其中的占比

商店特征

商店经纬度
商店所在mall的总人流量、shop人流量在其中的占比
商店所在mall每小时人流量、shop每小时人流量在其中的占比

用户特征

消费时的经纬度
在候选shop的消费次数
与候选shop位置的GPS距离(L2)
与候选shop历史记录中心位置的GPS距离(L2)
与候选shop对应wifi信号强度的距离(L1、L2)

四、模型

模型是我一直参与的部分，全程我一共尝试过四种模型：KNN、LR、梯度提升树单模型以及基于树的stacking。原本队伍并没有用提升树模型，直到我在出远门前往gitlab上传了一份未经调参的LightGBM训练代码，跑完之后惊觉成绩骤升，随后开启了调参之路。

4.1 KNN

核心思想是，各样本用Onehot过的WIFI向量进行表征，各商铺用历史样本作为表征，通过计算样本到商铺的距离，使用KNN，简单地取最近邻为预测商铺。距离度量使用过余弦距离和欧氏距离，欧氏距离更优。最终准确度与覆盖率（K=5的KNN中，前5位商铺包含真实标记）不及提升树，最终弃用。效果不佳的原因，我猜测是WIFI强度不准，欧式距离度量不准。

4.2 LR

核心思想是，将Onehot过的ID类（包含WIFI以及原始ID类字段）作为LR的输入，并让LR实现多分类。效果不佳（比不上树模型），猜测原因是提取的特征不够多，没有提供足够的区分性（许多不同类样本具有高度相似性）。

4.3 GBDT

主要使用工具为LightGBM和XGBoost，对于不同商场将店铺预测当成多分类任务训练，两个工具的准确度相近，但LightGBM比XGBoost快得多，后面仅仅利用调参成功地提升了2个百分点（从0.89到0.91级别），所调参数主要为抑制树模型过拟合的参数（例如min_data_in_leaf, feature_fraction等）。

4.4 二阶段Stacking

Stacking模型分为两个阶段，一阶段是多分类方案，旨在构造候选shop，二阶段是二分类方案，用于模型预测，本方法需要同时兼顾候选的覆盖率和预测的准确率。

首先，在第一阶段利用LightGBM实现分mall的多分类任务，并输出各shop概率，得到每个用户最可能去的前5个shop作为候选shop，覆盖率（5个候选shop包含真实标签）大概有96%。
然后，在第二阶段，将每一个测试样本扩充5行，每一行对应候选shop，拼接上shop的相关特征，并将真实shop打上正例的标签，作为二分类任务给LightGBM训练。

实际上，模型的扩充操作导致样本不均衡的问题（5比1），因此应该进行下采样的（保留正样本，随机抽取负样本），这样甚至可以训练多几个模型融合。

五、数据可视化

在之前的比赛中，我意识到一个问题，数据的观测与分析是非常重要的，因此在本次比赛中我花了较多的时间在这上面，主要使用的工具是matplotlib和mysql。原本企图找到一些线索，从而为队友提出更多的特征或者trick，然而最终并没有找到太多有价值的东西，以至于没有做出过多贡献。但是我不认为这是无用功，反而是每一场比赛都必须的，即使不能从中发现规律，也能提升对数据的理解，意识到模型的问题所在。

5.1 找出异常样本

使用sql进行统计可以很快地发现样本中的异常。

恶意刷单
统计各用户单月消费记录得到，有部分用户在一个月内在同一间店铺消费了400多单，在这么一个大多数用户都只在某商铺消费过1到2次的大环境下，这样的用户只能被认为是刷单的了。我们的处理是直接去除。
单值WIFI
部分WIFI列表中只有一个WIFI bss。
个人热点WIFI
在众多WIFI bss中，存在大量只出现过几次的bss，显然不可能是商铺中固有的WIFI热点，而很可能是其他消费者开启的热点（可以到大商场里打开手机WIFI列表看看，确实能搜到很多别人的热点）。我们的处理是去除出现次数低于20的WIFI bss（相当于降维）。
WIFI缺失
WIFI列表中的强度字段为null，这个现象在复赛中特别严重，我们的理解是这些用户都是苹果手机或者没有root权限的安卓手机，支付宝没有权限获取信号强度。我们的处理是将null替换为均值。

5.2 用户和商铺的空间关系

原本企图通过空间关系，尝试基于距离还原出WIFI热点的空间分布，然而经过数据的可视化发现经纬度的可信度并不高。

商铺的空间位置
以下是某个商铺shop数量较少的商场mall中，各商铺的空间分布，根据经纬度绘制。
- 部分shop位置非常接近，甚至经纬度重合，推测是上下楼层关系
- 存在远离大部分shop的噪声点，因此经纬度不完全准确
商铺与用户之间的空间关系
以下是某商场中各商铺与用户之间的关系，看不清请谅解。紫色的圆点表示商铺，红色的x表示用户的位置，绿色的线将用户与他们消费发生的店铺（label）连接起来。
- 用户在空间上并非呈现围绕着标签shop分布的规律
- 存在大量位置看起来不正常的用户（通过经纬度计算距离店铺上百公里）

这里写图片描述

5.3 模型的误判

模型的误判分布
商场m_1085的模型（GBDT）误判情形可视化如下，红色的点表示商铺，绿色的x表示消费者，青色的线连接消费者与正确的Label，红色的线表示模型的误判。
- 误判样本时间戳基本上是饭点
- 交易的相关特征（地理位置、时间戳）相近
- 误判商店的性质接近（类别、消费水平、历史样本量等）

这里写图片描述

正确率偏低的商铺
下图给出了几个模型正确率特别低的商场mall

以其中最低的m_6803为例，分析其误判严重的原因。
- 1. 商场冷启动
  大量商铺在训练集中从未出现，而在测试集中大量出现。大部分的错误由此产生。
- 2. 样本太少学不到东西，无从判断
- 3. 有东西学，也有误判，但是top3中都有
- 4. 有东西学，但确实误判了，top3也救不了
商铺样本的时间分布
以下是商场m_7168中两个相互误判最为严重的商铺的历史消费记录的时间戳分布。

总结一下，造成商场中各商铺之间误判严重的原因如下，也就是说提取的特征不足以提供足够的区分性，导致不可分。

（1）经纬度坐标接近
（2）商店类型相同
（3）训练集样本量接近
（4）样本时间戳分布相近（每天都有，而且每天分布一致）
（5）wifi 特征分布接近（bss重合度高）
（6）用户冷启动（大多是第一次来，没有历史信息可供参考）

六、比赛的难点

本次比赛的难点主要在于线上赛难以复现线下赛的各种操作。

不能写循环
线下赛采取分mall多分类的方法，线上赛很难复现，因为SQL不能写循环，要写出500个mall的多分类脚本。解决方法：用python写了文本替换，生成了500个mall的特征生成和训练sql。
Union报错
线上赛三个树模型中只有PSSMART支持多分类，跑起来特别慢。解决方法：把mall的代码分到16个窗口，同时跑，最后Union，但是平台UNION的对象个数过多会莫名报错，所以先小部分union后，在总体union。
复杂特征提取
wifi_id的离散化（onehot），希望只取出强度舍弃连接。线下赛可以用字典写循环assign，线上赛不能。
解决方法：用官方提供的SDK写了个MapReduce，提交到平台上作为工作流结点。输入是 row_id : mall_id : WIFI_info，mapper将row-mall-bss做key，mW-connect做value，reducer不做聚合，而是将他们分成5列，最终输出row-mall-bss-mW-connect的大幅扩充过的样本（每条样本扩充为WIFI列表长度），然后送给PAI平台生成kv表，得到row-mall-{bss:mW;vss:mW}这样的kv格式，PSSMART接受这样的输入。

这篇关于阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享

阿里天池（蚂蚁金服）商场中精确定位用户所在店铺经验分享

一、简介

二、赛题

2.1 赛题简介

2.2 提供特征

2.2.1 提供特征

消费记录

商场商铺信息

2.2.2 评估方式

2.2.3 关于赛题数据的思考

三、特征工程

WIFI特征

商店特征

用户特征

四、模型

4.1 KNN

4.2 LR

4.3 GBDT

4.4 二阶段Stacking

五、数据可视化

5.1 找出异常样本

5.2 用户和商铺的空间关系

5.3 模型的误判

六、比赛的难点

相关文章

Spring Boot分层架构详解之从Controller到Service再到Mapper的完整流程(用户管理系统为例)

k8s admin用户生成token方式

linux配置podman阿里云容器镜像加速器详解

Python内存优化的实战技巧分享

Linux从文件中提取特定内容的实用技巧分享

使用IDEA部署Docker应用指南分享

最新Spring Security的基于内存用户认证方式

OpenCV在Java中的完整集成指南分享

Python中你不知道的gzip高级用法分享

Python实现对阿里云OSS对象存储的操作详解