【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

本文主要是介绍【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

案例来源：@AI科技评论

案例地址：https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA

1. 目标：知乎中有“你可真是棒棒的”、“你开心就好”等评论，识别并过滤这些评论有助于提高社区讨论质量

2. 数据获取：

1）根据“举报”和“踩”，得到“阴阳怪气”样本

2）通过同义词替换，扩大样本量

3）根据提取的阴阳怪气样本，随机构造评论做数据增强，提高模型泛化能力

3. 特征工程

1）文本特征：加入阴阳怪气词库后，进行分词，保留标点、表情

2）数值特征：句子长度，句号数量，感叹号数量

3）embedding特征：利用知乎全量文本数据训练word2vec模型，

4. 分类器：

1）采用CNN做分类器，原因是可以捕获字词的位置关系

2）对评论上文和评论本身分别训练CNN模型，训练各自参数

3）然后评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重

4）最后将特征数据全连接层以 softmax 方式进行分类

5. 效果示例

6. 缺陷：

1）样本不足

2）出现过拟合，如“哈哈哈”容易错分为阴阳怪气样本

7. 改进点

1）通过主动学习（Active Learning）提高标注样本量

2）加入语义分析信息

3）背景知识：对于体育、明星等领域单独建模

这篇关于【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！