google news recommendation - 基于点击行为的用户个性化新闻推荐

本文主要是介绍google news recommendation - 基于点击行为的用户个性化新闻推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 摘要

2 简介
新闻阅读,随着互联网的发展,访问方式已经从订阅纸质媒体扩展到访问数目众多的网络新闻源。新闻聚集网站如google news、yahoo news,从不同的新闻网站采集数据,并提供一个聚合的视图。对于这样的新闻服务网站来说,一个严重的问题是文章的数目对于用户来说是巨大的。因此挑战是如何帮助用户找到他们感兴趣的新闻 (听上去好有诱惑力呀)
基于内容的推荐是解决信息过载问题的技术方案。基于兴趣和倾向的用户profile,系统为用户推荐感兴趣或带来价值的物品。
基于内容的方法,在推荐系统中扮演着核心的角色,因为它能够推荐以前并没有被评估过的信息,并且能够适应用户的个性上的差异。这项技术被应用在了不同的领域,如邮件、新闻、搜索等。在新闻领域,基于内容的推荐技术目标在于根据用户的兴趣聚合新闻,并且为每位用户创造一份属于自己的“新闻报纸” (想想一份报纸有什么内容,以及如何解决用户的问题,并让用户可信赖)

我们组合了基于内容的方法和之前开发的协同过滤的方法,来产生新闻访问的个性化推荐。组合方法在线上进行了评估:一部分Google News的线上流量使用了混合算法,结果表明有了较大提升。线上实验也揭露了一些有趣的话题,比如推荐、偶然访问、用户满意度等。

新闻阅读的自然属性,是新闻推荐与其它领域基于内容的推荐不同。当访问一个新闻站点,用户来寻找新的信息,这些信息是以前不知道的,甚至是带来惊喜的。
既然用户的profile是从过去的行为推断的,很重要的是要知道用户的新闻兴趣发生了改变,以及以过去的用户行为来预测将来的行为是否有效。

为了理解这个问题,我们实施了一个基于Google News的大规模的日志分析,来衡量用户新闻兴趣的稳定性。我们发现用户的兴趣随着时间有所变化,并且follow新闻事件的趋势。
基于这些发现,我们实现了一个贝叶斯模型,来预测:根据某个用户的行为,预测该用户的兴趣;根据一组用户的行为,预测新闻趋势。

为了推荐新闻给用户,系统考虑了用户的真实兴趣和新闻趋势。

因此用户将收到基于用户兴趣而裁剪的新闻,同时又不会错过重要的新闻事件,即使这些事件并不是严格的匹配用户的特殊兴趣。

本文的贡献有三方面:
(1)对用户新闻兴趣的一致性,进行了大规模的日志分析;(2)提出了一个基于组合了用户真实兴趣和新闻趋势的点击行为,来预测用户兴趣的新颖方法;(3)提出了一个基于内容推荐和协同过滤的组合个性化新闻推荐方法,并在真实流量上进行了实验,并取得了提高。

3 google新闻的个性化

4 相关工作

5 用户兴趣的日志分析

6 数据

7 点击分布
Google News把新闻文章分类到预先定义好的话题类别中,包括国际、体育、娱乐等。在日志分析中,我们会计算每个用户在每个类别中的点击分布。
我们将过去的时间分成12个月。因此对于每一个用户u,我们计算他在每个月t中的在各个主题列表中的点击分布D(u,t),用一个向量表示:

其中,Ni为分类到Ci中的文章的点击数。Ntotal为用户在过去时间段内总的点击数( 不是时间段t的总点击

8 不同时间用户的新闻兴趣变化

9 新闻趋势
除了单个用户的点击分布,我们还计算了不同国家地区的公众点击分布。对于每一个国家,公众兴趣可以用该地区用户、在过去时间段t的所有点击分布来表示。
Fiture2显示了美国人群的点击分布。为了阐明图示,只显示了四个分类。我们可以看出美国人群的公众兴趣是有波动的,其它国家的图示也是符合这一现象。一些分类的波动比如社会比健康等类别的波动更大。
我们假定一个国家公众兴趣的变化受该国重点事件影响,日志分析为这一假定提供了经验型证据。

10 热点事件对个体兴趣的影响

11 用户兴趣预测的贝叶斯模型
日志分析揭示单个用户的兴趣,受当地新闻趋势的影响。比如在欧洲杯期间,西班牙用户会点击更多的体育新闻。相似的现象,在针对用户的兴趣周期研究中报道过。基于这些发现,我们将用户的兴趣分成两部分:用户的真实兴趣和受当地新闻影响的兴趣。用户的真实兴趣由用户的特性产生,比如用户的性别、年龄、职业等,并且相对稳定。另一方面,在决定读什么的时候,用户受当地新闻影响。这种影响是短期的,并且随着时间容易改变。用户的真实兴趣和新闻影响分别对应于[1]中的长期兴趣和短期兴趣。我们使用更清晰的方法来预测用户的兴趣。更重要的,我们通过使用公众的点击模式,从新闻趋势的角度,为用户的短期兴趣建模,而不仅是用户的单独的反馈。

我们使用贝叶斯框架, 开发了一种方法,基于用户和用户所在地区的点击模式(click patterns),预测用户的当前兴趣。预测的兴趣在新闻推荐中使用。
方法如下:
(1)系统使用用户在过去每一段时间的点击,预测用户的真实兴趣,不管当前的新闻趋势;
(2)针对各个时间段的预测结果,组合起来得到一个更精确的用户的真是兴趣;
(3)系统通过用户的真实兴趣和当地的新闻趋势,预测用户的当前兴趣。

12 用户真实新闻兴趣的预测
对于过去每个特定的时间段t,我们得到某个用户的点击分布D(u,t),以及该地区内所有用户的点击分布D(t),代表了该地区的新闻趋势。
我们要从D(u,t)中挖掘用户u的真实兴趣,而不受D(t)的影响。一个用户对某个类别Ci的真是兴趣建模为:

即用户点击类别Ci的概率。使用贝叶斯规则,上述公式计算为:

其中:


13 用户当前新闻兴趣的预测

14 新闻推荐

15 线上流量实验

16 结论和后续工作

这篇关于google news recommendation - 基于点击行为的用户个性化新闻推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506127

相关文章

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

Java日期类详解(最新推荐)

《Java日期类详解(最新推荐)》早期版本主要使用java.util.Date、java.util.Calendar等类,Java8及以后引入了新的日期和时间API(JSR310),包含在ja... 目录旧的日期时间API新的日期时间 API(Java 8+)获取时间戳时间计算与其他日期时间类型的转换Dur

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主

Mysql中的用户管理实践

《Mysql中的用户管理实践》:本文主要介绍Mysql中的用户管理实践,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录13. 用户管理13.1 用户 13.1.1 用户信息 13.1.2 创建用户 13.1.3 删除用户 13.1.4 修改用户

C++ HTTP框架推荐(特点及优势)

《C++HTTP框架推荐(特点及优势)》:本文主要介绍C++HTTP框架推荐的相关资料,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Crow2. Drogon3. Pistache4. cpp-httplib5. Beast (Boos

Spring Boot 事务详解(事务传播行为、事务属性)

《SpringBoot事务详解(事务传播行为、事务属性)》SpringBoot提供了强大的事务管理功能,通过@Transactional注解可以方便地配置事务的传播行为和属性,本文将详细介绍Spr... 目录Spring Boot 事务详解引言声明式事务管理示例编程式事务管理示例事务传播行为1. REQUI

Python多进程、多线程、协程典型示例解析(最新推荐)

《Python多进程、多线程、协程典型示例解析(最新推荐)》:本文主要介绍Python多进程、多线程、协程典型示例解析(最新推荐),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定... 目录一、multiprocessing(多进程)1. 模块简介2. 案例详解:并行计算平方和3. 实现逻

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ