Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy

2023-10-19 07:32

本文主要是介绍Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

@Yelp NLP项目介绍

@文本预处理

接下来,我需要:

  1. 建立Training Set。
  2. 搭建分类模型。因为这是个练手的项目,所以我想把不同的模型都试一下。

STEP 2.1: 建立Training Set

我希望能快速得到一个规模相当的training set,大概10000个labelling。文本数据中真实包含的目标句式应该是相对占比较小的,也就是说,最终我的training set一定是不平衡的,label = 0的比例会远高于label = 1 的比例。如果我什么预处理都不做,直接随机从文本数据库中收取句子来进行标记,可以预想,得到的label = 1的结果应该很少。为了提高标记的效率,我决定,不进行随机收取,而是先通过targeted sampling,找到数据中存在的目标句式进行标记,然后再随机从剩余样本中抽取label = 0的句子。

找到目标句式的方法也很简单,主要简单的定义一个regular expression,筛选出句子中包含某些具有明确指向性的关键词即可。比如,在我感兴趣的标示位置的句子中,可能的关键词就有:

  1. a [few] block[s] away
  2. close to my
  3. walk[ed] [over/from]
  4. [live/work] nearby
  5. local
  6. neighborhood

含有上述关键词的句子,更有可能是我所感兴趣的句子。我只要写出一个筛选函数,用这个筛选函数定向地抽取待标记样本,就能够人为地提高training set中label = 1的比例。给定10000的training sample size, 我需要有效样本,即label = 1 的比例至少在10%以上,也就是说,我需要找到至少1000条我感兴趣的句型。希望我现在有的30万条用户评论中,存

这篇关于Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/238314

相关文章

Java领域模型示例详解

《Java领域模型示例详解》本文介绍了Java领域模型(POJO/Entity/VO/DTO/BO)的定义、用途和区别,强调了它们在不同场景下的角色和使用场景,文章还通过一个流程示例展示了各模型如何协... 目录Java领域模型(POJO / Entity / VO/ DTO / BO)一、为什么需要领域模

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

MySQL中VARCHAR和TEXT的区别小结

《MySQL中VARCHAR和TEXT的区别小结》MySQL中VARCHAR和TEXT用于存储字符串,VARCHAR可变长度存储在行内,适合短文本;TEXT存储在溢出页,适合大文本,下面就来具体的了解... 目录一、VARCHAR 和 TEXT 基本介绍1. VARCHAR2. TEXT二、VARCHAR

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O