DFA算法实现铭感词过滤(二)

2024-01-11 03:52
文章标签 算法 实现 过滤 dfa 铭感

本文主要是介绍DFA算法实现铭感词过滤(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

这里的项目实战, 我们使用的是 SpringBoot2.x+JDK1.8搭建的,核心思想是借助了Hutool工具类的 WordTree。想了解更多DFA算法的实现可以参考DFA算法的实现

实战案例

1. 引入Hutool的工具类

<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.18</version>
</dependency>

2. 自定义铭感词过滤处理器

Hutool工具类中定义了 SensitiveProcessor 接口,它的作用是把敏感词替换成 *

package cn.hutool.dfa;/*** @author 肖海斌* 敏感词过滤处理器,默认按字符数替换成**/
public interface SensitiveProcessor {/*** 敏感词过滤处理* @param foundWord 敏感词匹配到的内容* @return 敏感词过滤后的内容,默认按字符数替换成**/default String process(FoundWord foundWord) {int length = foundWord.getFoundWord().length();StringBuilder sb = new StringBuilder(length);for (int i = 0; i < length; i++) {sb.append("*");}return sb.toString();}
}

我们可以根据不同的业务需求,实现不同的处理器。这里可以定义了一个默认处理器高亮处理器

SensitiveDefaultProcessor 默认处理器和原逻辑一样,可以直接调用父类的process()方法实现把铭感词替换为*

import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词*号替代处理器*/
public class SensitiveDefaultProcessor implements SensitiveProcessor {}

SensitiveHighlightProcessor 定义了敏感词进行高亮处理,可以在铭感词前后打上对应的标签。


import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词高亮处理器*/
public class SensitiveHighlightProcessor implements SensitiveProcessor {private static final String SHIELD_START = "<shield>";private static final String SHIELD_END = "</shield>";private static final String DST_START = "<dst>";private static final String DST_END = "</dst>";private static final String WARN_START = "<warn>";private static final String WARN_END = "</warn>";@Overridepublic String process(FoundWord foundWord) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();sb.append(WARN_START).append(word).append(WARN_END);return sb.toString();}public String process(FoundWord foundWord, SensitiveWordModeEnum mode) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();if (SensitiveWordModeEnum.SHIELD.equals(mode)) {sb.append(SHIELD_START).append(word).append(SHIELD_END);} else if (SensitiveWordModeEnum.DST.equals(mode)) {sb.append(DST_START).append(word).append(DST_END);} else if (SensitiveWordModeEnum.WARN.equals(mode)) {sb.append(WARN_START).append(word).append(WARN_END);}return sb.toString();}
}

其中 SensitiveWordModeEnum 是自己定义的一个敏感词模式枚举

import com.baomidou.mybatisplus.annotation.EnumValue;
import com.fasterxml.jackson.annotation.JsonValue;
import lombok.AllArgsConstructor;
import lombok.Getter;/*** 敏感词模式枚举**/
@AllArgsConstructor
@Getter
public enum SensitiveWordModeEnum {SHIELD("SHIELD", "屏蔽"),DST("DST", "脱敏"),WARN("WARN", "警告");@EnumValue@JsonValueprivate final String code;private final String name;
}

3. 定义铭感词初始化工具

通常来说,铭感词的内容是相对固定的。我们在项目启动时可以进行预加载。当铭感词变更时,我们可以通过更新本地缓存,定时刷新的方法进行处理。

Tips: 我们可以定义初始化类,它实现了ApplicationRunner接口。这个类中的 run方法将会在Boot项目的程序的入口方法 main 执行完毕之后被调用。在该类中可以定义一些应用程序启动后需要进行初始化的操作任务


/*** 敏感词工具类*/
@Slf4j
@Component
public class SensitiveWordUtil implements ApplicationRunner {// 一个定义铭感词查找的Dao层 [查询数据库中的敏感词数据]@Resourceprivate SensitiveWordConfigDao sensitiveWordConfigDao;// DFA敏感词树private static final WordTree SENSITIVE_TREE = new WordTree();// 定义了一个初始化的敏感词容器private static final ConcurrentHashMap<String, SensitiveWordConfigVO> SENSITIVE_WORDS_MAP = new ConcurrentHashMap<>();@Overridepublic void run(ApplicationArguments args) {// 1.查询数据库中的铭感词列表List<SensitiveWordConfig> sensitiveWordConfigList = sensitiveWordConfigDao.list();if (ObjectUtil.isEmpty(sensitiveWordConfigList)) {return;}for (SensitiveWordConfig sensitiveWord : sensitiveWordConfigList) {// 1.1 敏感词VO对象的转换SensitiveWordConfigVO sensitiveWordConfigVO = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, sensitiveWordConfigVO);                       //1.2 本地容器缓存的初始化SENSITIVE_WORDS_MAP.put(sensitiveWordConfigVO.getWord(), sensitiveWordConfigVO);}// 1.3 初始DFA敏感词树this.init(ListUtil.toList(SENSITIVE_WORDS_MAP.keys()), true);log.info("初始化敏感词库完毕, 共" + sensitiveWordConfigList.size() + "个敏感词");}/*** 初始化敏感词树* @param isAsync        是否异步初始化* @param sensitiveWords 敏感词列表*/public void init(final Collection<String> sensitiveWords, boolean isAsync) {if (isAsync) {ThreadUtil.execAsync(() -> {init(sensitiveWords);return true;});} else {init(sensitiveWords);}}/*** 初始化敏感词树** @param sensitiveWords 敏感词列表*/public void init(Collection<String> sensitiveWords) {SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(sensitiveWords);}
}

上面的工具类调用 run() 方法后,就能实现铭感词容器的初始化
除了定义一些最基础的初始化步骤外,我们可以把一些添加铭感词,移除敏感词,查找等方法都定义在该类中。

// 添加敏感词
public static void addSensitiveWord(SensitiveWordConfig sw) {SensitiveWordConfigVO vo = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, vo);      SENSITIVE_WORDS_MAP.put(sw.getWord(), vo);SENSITIVE_TREE.addWord(sw.getWord());
}// 移除敏感词
public static void removeSensitiveWord(String word) {SENSITIVE_WORDS_MAP.remove(word);SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(ListUtil.toList(SENSITIVE_WORDS_MAP.keySet()));
}/*** 查找敏感词,返回找到的第一个敏感词** @param text 文本* @return 敏感词* @since 5.5.3*/
public static FoundWord getFoundFirstSensitive(String text) {return SENSITIVE_TREE.matchWord(text);
}// 还可以通过上面的processor处理器进行敏感词处理

至此,我们在项目中只要引入SensitiveWordUtil 工具类,就能实现敏感词的基本操作了。

这篇关于DFA算法实现铭感词过滤(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593080

相关文章

Nginx 配置跨域的实现及常见问题解决

《Nginx配置跨域的实现及常见问题解决》本文主要介绍了Nginx配置跨域的实现及常见问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来... 目录1. 跨域1.1 同源策略1.2 跨域资源共享(CORS)2. Nginx 配置跨域的场景2.1

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

Java实现删除文件中的指定内容

《Java实现删除文件中的指定内容》在日常开发中,经常需要对文本文件进行批量处理,其中,删除文件中指定内容是最常见的需求之一,下面我们就来看看如何使用java实现删除文件中的指定内容吧... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细介绍3.1 Ja

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM