Lucene暴走之巧用内存倒排索引高效识别垃圾数据

2024-05-15 03:38

本文主要是介绍Lucene暴走之巧用内存倒排索引高效识别垃圾数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[size=medium]
识别垃圾数据,在一些大数据项目中的ETL清洗时,非常常见,比如通过关键词
(1)过滤垃圾邮件
(2)识别yellow网站
(3)筛选海量简历招聘信息
(4)智能机器人问答测试
........
各个公司的业务规则都不一样,那么识别的算法和算法也不一样,这里提供一种思路,来高效快速的根据关键词规则识别垃圾数据。

下面看下需求:

业务定义一些主关键词若干少则几百个,多则几千个上万个,例如:
[/size]

公司
机车厂
化纤厂
建设局
实业集团
中心店
桑拿中心
托管中心

然后又定义一些辅助关键词若干:

原告
被告
委托代理人
当事人
申请人
上诉人

[size=medium]
ok,关键词有了,下面看下业务规则 , 规定如下:

任意辅助关键词组合主关键词都命中的情况下,并且词组间距不大于20者,即为合法数据。

嗯,没听懂?,那么来看个例子,一段文本如下:
[/size]

上诉人北京金建出租汽车有限公司因机动车x通事故责任纠纷一案

[size=medium]
使用IK细粒度分词后可能是这样的:
[/size]

上诉人|上诉|人|北京|金|建出|出租汽车|出租|汽车|有限公司|有限|有|限|公司|因|机动车|机动|车|x通事故|x通|通事|事故责任|事故|责任|纠纷|一案|

[size=medium]
根据规则,辅助词库与主词库都命中,而且中间的词组间距不超过20的,为合法数据,
本例子中:
辅助关键词:上诉人
主关键词: 公司
都出现,中间词组是12个,所以符合业务规则,即为合法数据,

假设,改变原来的文本的公司为集团,再次测试:
[/size]

上诉人北京金建出租汽车有限集团因机动车x通事故责任纠纷一案

使用IK细粒度分词后可能是这样的:

上诉人|上诉|人|北京|金|建出|出租汽车|出租|汽车|有限集团|有限|有|限|集团|因|机动车|机动|车|x通事故|x通|通事|事故责任|事故|责任|纠纷|一案|

[size=medium]
这次因为辅助关键词库命中了,但是主关键词库没有命中,所以会被当成垃圾数据。

上面是帮助理解业务的一个例子,下面再分析下,性能问题,假设主关键词有500个,辅助关键词有10个,那么任意
两两组合的可能就是500*10=5000个规则条件,也就是意味着需要最坏情况下,需要匹配5000次才能识别一篇垃圾数据,当然如果你参与识别垃圾的文本不是一个字段,而是二个字段,一个是标题,一个是内容,那么最后真正的匹配次数是5000*2=10000词匹配,如果再加上距离条件,那么查询的复杂度将会大幅度增加,这个时候,如果我们使用正则匹配
效率可想而知,使用正则每次全文扫描定位,耗时非常之慢,这时候我们假设有一种快捷的hash算法,来提升性能,毫无疑问,类似的倒排索引将会是解决这种问题的神器。

因为只需要构建一次临时索引,不落地磁盘,不与IO打交道,仅仅在内存和cpu之间参与计算匹配,而且规则方式非常灵活,可以有更多的规则制定进来,特别是关键词匹配这块,lucene索引非常完美的解决了这个问题。当然如此这种计算,非常耗CPU,对内存的占用不是非常高,因为一条数据,处理完之后,他占用的资源,会被释放。

在线情况下:平均几十毫秒左右就能识别一条数据,已经接近实时了

离线情况下:在集成到hadoop或者Spark这种分布式的集群里面,也是非常给力的,因为通常情况下spark和hadoop比较耗IO和磁盘而加入这种运算将会大大提升集群的资源使用效率。

本项目只是给出了一个根据关键词识别的例子,这个项目拿到你们本地也许并不能立刻使用,但是相似的业务,但是它提供了一种思路,大部分情况下,改动少许代码,即可适应大部分类似的业务。
核心代码如下:
[/size]


package com.anytrust.algo;

import com.anytrust.model.MonitorType;
import com.anytrust.tools.DictTools;
import org.apache.lucene.index.memory.MemoryIndex;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanQuery;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
* Created by qindongliang on 2016/1/7.
* 根据规则识别是否为垃圾数据
*/
public class CheckOneAlgo {

//IK中文分词器
IKAnalyzer analyzer=new IKAnalyzer(false);
//内存索引处理
MemoryIndex index = new MemoryIndex();

static {
//设置Lucene的boolean query条件数最大支持个数
BooleanQuery.setMaxClauseCount(10000);
}


static Logger logger= LoggerFactory.getLogger(CheckOneAlgo.class);


/**构建查询query
* @param type 根据类型构建
* */
private String buildQuery(MonitorType type){

StringBuffer sb =new StringBuffer("(");
for(String kw: DictTools.main_kws){//遍历主词库
switch (type) {
case LITIGATION://代表文书 0105
for (String hkw : DictTools.assist_kws) { //遍历辅助词库
sb.append("tc:\"").append(hkw + kw).append("\"~20 ");
}
break;
case ANNOUNCEMENT://公告 0104
sb.append("tc:\"").append(kw).append("\" ");
break;
default:
logger.error("未知类型:{}",type);
break;

}
}
sb.append(" ) ");
return sb.toString();
}


/***
* 对一段文本执行垃圾数据识别功能
* 返回true说明是有效数据
* 返回false说明是垃圾数据
* @param text 监测的文本
* @return
*/
public boolean checkDoc(String text,MonitorType type){
String query=buildQuery(type);
QueryParser parser = new QueryParser("", analyzer);
index.addField("tc", text, analyzer);
try {
float score = index.search(parser.parse(query));
if(score > 0.0f){
return true;//正确数据
}else{
return false;//垃圾数据
}

}catch (Exception e){
logger.error("识别垃圾数据异常!",e);
}finally {
index.reset();//重置index引擎,服复用类对象
}
return false;
}


}


[size=medium]有些关键词在Iteye博客会屏蔽,建议直接到github看:
Github地址:[url]https://github.com/qindongliang/lucene-garbage-check[/url]
[/size]
[b][color=green][size=large]
有什么问题 可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

这篇关于Lucene暴走之巧用内存倒排索引高效识别垃圾数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990702

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

最新Spring Security的基于内存用户认证方式

《最新SpringSecurity的基于内存用户认证方式》本文讲解SpringSecurity内存认证配置,适用于开发、测试等场景,通过代码创建用户及权限管理,支持密码加密,虽简单但不持久化,生产环... 目录1. 前言2. 因何选择内存认证?3. 基础配置实战❶ 创建Spring Security配置文件

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

java内存泄漏排查过程及解决

《java内存泄漏排查过程及解决》公司某服务内存持续增长,疑似内存泄漏,未触发OOM,排查方法包括检查JVM配置、分析GC执行状态、导出堆内存快照并用IDEAProfiler工具定位大对象及代码... 目录内存泄漏内存问题排查1.查看JVM内存配置2.分析gc是否正常执行3.导出 dump 各种工具分析4.

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分