2017 开放学术精准画像大赛 - task2 解决方案

2023-10-13 21:40

本文主要是介绍2017 开放学术精准画像大赛 - task2 解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一次和同学组队做比赛。参加了 2017 开放学术精准画像大赛,三个人各自完成一个task。
队伍最终排名第二名,三个任务的python代码已经开源,见 https://github.com/geekinglcq/aca

ps: 三个人能一起做完比赛,很开心。其次,比赛赛制虽然出现了一些小插曲,但总体来说主办方还是挺nice的。

我负责task2部分的任务,算法在初赛时表现不佳,排名17名。决赛时,测试集的数据分布和训练集、验证集的数据分布差异较大。我的模型泛化性能尚可,最终单项排名第2。下面简要介绍一下task2的解决方法。

颁奖时和前几名的队伍交流了一下做法,大抵可以分为两种方向:

  • 文本多标签分类
  • 兴趣推荐

我是把任务当成一个推荐问题做的,即根据已知的一些兴趣给待预测学者推荐兴趣。

程序利用学者发表的论文标题信息、论文的引用和学者投稿期刊信息来预测学者的兴趣标签。程序先利用四个简单模型分别计算学者的兴趣得分,然后按照权重求出学者兴趣的加权平均得分,最后选择得分最高的5个兴趣作为最终预测结果。

模型中出现的符号如下: A 代表学者,AT表示训练集中的学者, AU 表示待预测的学者,
I 表示兴趣标签,T表示论文标题, Id 表示论文的序号, P 表示论文的发表刊物,SPAi代表第 i 学者投稿刊物集合,SIAi代表第 i 位学者的兴趣集合。

模型一

模型一的基本思想是:发表论文标题内容相似的学者,他们的研究兴趣相似。



程序首先从论文集合中找出每位学者Ai发表的文章,即 STAi={Ti1,Ti2,...,Tik} ,集合 STAi 可以描述学者的研究内容。为了找出训练集中和待预测学者 AUi 研究内容相似的学者,模型利用待预测的学者 AUi 发表论文的集合 STAUi 和训练集中学者 ATj 发表的论文集合 STATj 进行标题文本相似度计算。论文标题集合 STAUi STATj 的相似度越大,表示学者 AUi ATj 的研究内容越相近,学者 AUi 和学者 ATj 的兴趣越相似。因此学者 AUi ATj 的相似度 Sims(AUi,ATj) 可以定义为如下形式:

Sims(AUi,ATj)=Similarity(STAUi,STATj)

Sims(AUi,ATj) 可以作为学者 AUi ATj 兴趣相似度的表示。
最终,学者 AUi 对兴趣 Ij 的得分可以表示为:
Score(Ij|AUi)=k=0PSims(AUi,ATk)Identify(Ij,SIATk)

Identify(Ij,SIATk)=10 , IjSIATk , IjSIATk

根据上式,模型选取得分最高的5个兴趣作为学者的兴趣标签。

模型二

模型一先给待预测学者 AUi 在训练集中寻找研究内容相似的学者,再将学者的兴趣赋给待预测学者 AUi 。这个模型有两个问题:

  • 学者 ATj 对自己的三个兴趣 {Ij1,Ij2,Ij3} 的感兴趣程度不同;
  • 待预测学者 AUi 和找出的相似学者 ATj ,他们可能只有部分研究内容相似;

模型一使用同样的权重 Sims(AUi,ATj) 将兴趣 {Ij1,Ij2,Ij3} 赋给待预测学者 AUi ,不能真实地表示学者 AUi 研究兴趣。
为了解决上述问题,模型二直接计算待预测学者 AUi 和兴趣 Ij 之间的相似度。

模型二的基本思想是,学者发表的论文标题描述了学者的研究兴趣。




程序将训练集中学者发表的论文集合,按照学者的兴趣进行分类。
假设学者 ATi 发表的论文集合 STATi ,兴趣集合 SIATi{Ii1,Ii2,Ii3} ,则将集合 STATi 加入到集合 STIj1 STIj2 STIj3 中,其中 STIj1 表示属于兴趣 Ij1 的论文标题集合。
每个兴趣 Ii 都有相应的论文集合 STIi={Ti1,...Tip} ,集合 STIi 可以用来描述兴趣 Ii
预测时,程序计算出集合 STAUi 和集合 STIj 的相似度,将其作为学者 AUi 对兴趣 Ij 的得分,即:
Score(Ij|AUj)=Similarity(STAUi,STIj)

根据上式,模型选取得分最高的5个兴趣作为学者的兴趣标签。

模型三

此模型的基本思想是:学者发表的文章,引用的文章和引用学者的文章可以反映出学者的研究兴趣。研究兴趣相似的学者在上述三种情况下重合度较高。



学者 Ai 上述特征可以表示为集合 SIdAi={Idi1,...,Idik} ,模型利用集合 SIdAi 计算学者之间的相似度。
模型使用 Jaccard 相似系数作为相似性度量函数:

Sims(AUi,ATj)=|SIdAUiSIdATj||SIdAUiSIdATj|

和模型一类似,算法将相似函数 Sims(AUi,ATj) 作为学者 AUi 兴趣的得分。
AUi 对兴趣 Ij 的感兴趣程度可以表示为:
Score(Ij|AUi)=k=0PSims(AUi,ATk)Identify(Ij,SIATk)

Identify(Ij,SIATk)=10 , IjSIATk , IjSIATk

模型四

此模型的基本思想是:期刊通常收录某一领域的论文,具有一定的兴趣集合。学者将论文投到与自己研究兴趣相近的期刊。模型先计算期刊的兴趣分布,然后根据待预测学者投稿期刊的信息,预测学者的兴趣。



模型将训练集中学者的兴趣指派为其投稿期刊的兴趣,由此可以得到期刊的兴趣集合 SIPi={Ii1,...,Iik} ,则

Score(Ik|Pi)=C(Ik,SIPi)lj=0|(SIPi)|

在计算待预测学者兴趣时,先统计待预测学者 AUi 的发表的期刊信息 SPAUi={Pi1,...,Pik} 。根据集合 SPAUi 可以计算出学者对于期刊 Pi 的偏好:
wi=C(Pi,SPAUi)|(SPAUi)|

其中 C(Pi,SAUi) 表示集合 SAUi Pi 的个数。
由此可以计算出待预测学者对兴趣 Ii 的得分:
Score(Ij|AUi)=k=0PwkIdentify(Ij,SIATk)

Identify(Ij,SIATk)=10 , IjSIATk , IjSIATk

预处理

模型一和模型二涉及计算文本相似度的计算。文本处理过程包括:

  • 去停用词
  • 将文本转化为词袋模型
  • 文本转成TF-IDF表示
  • LSI模型降维LSI
  • 计算文本相似度

模型融合

上述四个模型利用不同特征预测学者的兴趣。为了使预测更加客观、合理,程序对四个模型进行了融合。待预测学者 AUi 对兴趣 Ij 的最终得分
如下:

Score(Ij|AUi)=k=04αkScorek(Ij|AUi)

总结

比赛中没有用到高大上的模型和算法,难度属于文本处理入门级别。

其他队伍的模型比较优雅一些。有使用Graph Embedding、SGD、RandomForest等,期待他们的算法和代码。

这篇关于2017 开放学术精准画像大赛 - task2 解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206062

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

Python如何精准判断某个进程是否在运行

《Python如何精准判断某个进程是否在运行》这篇文章主要为大家详细介绍了Python如何精准判断某个进程是否在运行,本文为大家整理了3种方法并进行了对比,有需要的小伙伴可以跟随小编一起学习一下... 目录一、为什么需要判断进程是否存在二、方法1:用psutil库(推荐)三、方法2:用os.system调用

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案

《Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案》:本文主要介绍Vue3组件中getCurrentInstance()获取App实例,但是返回nu... 目录vue3组件中getCurrentInstajavascriptnce()获取App实例,但是返回n

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》:本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

Vuex Actions多参数传递的解决方案

《VuexActions多参数传递的解决方案》在Vuex中,actions的设计默认只支持单个参数传递,这有时会限制我们的使用场景,下面我将详细介绍几种处理多参数传递的解决方案,从基础到高级,... 目录一、对象封装法(推荐)二、参数解构法三、柯里化函数法四、Payload 工厂函数五、TypeScript

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

jupyter代码块没有运行图标的解决方案

《jupyter代码块没有运行图标的解决方案》:本文主要介绍jupyter代码块没有运行图标的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录jupyter代码块没有运行图标的解决1.找到Jupyter notebook的系统配置文件2.这时候一般会搜索到