删除晋江原创网文章干扰码的思路(特征匹配)

2023-10-11 09:58

本文主要是介绍删除晋江原创网文章干扰码的思路(特征匹配),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文章仅授权非营利性质之用途,不得做它用。
著作人身权受法律保护,转载请保留作者署名,保持文章完整性,谢绝修改!
本文章仅作为技术讨论,切勿使用本文章提及的技术,侵害他人权益。由此引发的一切法律责任以及其他纠纷,本文作者均得免责!
特此声明!

==================================================

晋江原创网是国内很著名的原创文学发布网站。(http://www.jjwxc.net/)有很多作者的专栏,更新很快。
我有时会帮别人到上面找一些连载的文章,不过晋江的文章每个段落的后面都有一个干扰码,一般是乱码加上诸如什么保护版权的字样,看着很不爽啊!

比如:

Quote:

8df707a948fac1b4 保护版权!尊重作者!反对盗版! @ Copyright of 晋江原创网 @
26e359e83860db1d


这些干扰码的技术特点是:
1、内容不固定,含有随机的16进制数;
2、长度不固定,每行干扰码的长度不固定,无论是前面的16进制随机数,还是后面的中文提示。
3、干扰码在HTML中标注的颜色值不固定,随机性很强,虽然说还保持在一个色调范围内。

下面分析一下干扰码的特征:
1、以中文“的”开头;
2、后面有一串16进制数字;
3、干扰码最后必定是一个换行的标记(HTML中为<br>,文本中为chr(10)+chr(13),如果我没记错的话)

根据特征删除干扰码的思路:
1、判断开头;
2、找到结束;
3、删除!

附带的代码请看附件部分!用ASP写的,嘿嘿。
没办法,因为ASP是我机器上最好的开发环境,方便快捷,能用它做的我就懒得用别的了。

需要完善代码的细节部分,因为为了复制文章随手写的,很多特殊情况没有处理。
比如找到“的”之后,默认判定后面还有字符。如果文章以“的”结尾,程序就报错了,呵呵~
<%
dim i, j, text, text_len, tmp
text=request.Form("text")
i=1
k=1
if text<>"" then
 do while instr(i, text, "的")>0
  if instr(i, text, "的")>0 then
   'response.Write "T1"
   j=instr(i, text, "的")
   'response.Write j&"|"
   'response.Write asc(mid(text, j+3, 1))
   if (asc(mid(text, j+2, 1))>47 and asc(mid(text, j+2, 1))<58) or (asc(mid(text, j+2, 1))>96 and asc(mid(text, j+2, 1))<123) then
    tmp=mid(text, j, instr(j, text, chr(10))-j+1)
    text=replace(text, tmp, "")
   end if
   i=j+1
  end if
  k=k+1
  if k>5000 then exit Do
 loop
 text=replace(replace(text, chr(10), ""), chr(13), "<br>")
        text=replace(text, "  ", "")
 response.Write text
else
%>
<form action="" method="post">
<textarea name="text" cols="100" rows="30"></textarea><br>
<input type="submit"><input type="reset">
</form>
<%
end if
%>

这篇关于删除晋江原创网文章干扰码的思路(特征匹配)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/187230

相关文章

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Java实现删除文件中的指定内容

《Java实现删除文件中的指定内容》在日常开发中,经常需要对文本文件进行批量处理,其中,删除文件中指定内容是最常见的需求之一,下面我们就来看看如何使用java实现删除文件中的指定内容吧... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细介绍3.1 Ja

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Python对PDF书签进行添加,修改提取和删除操作

《Python对PDF书签进行添加,修改提取和删除操作》PDF书签是PDF文件中的导航工具,通常包含一个标题和一个跳转位置,本教程将详细介绍如何使用Python对PDF文件中的书签进行操作... 目录简介使用工具python 向 PDF 添加书签添加书签添加嵌套书签Python 修改 PDF 书签Pytho

Nginx路由匹配规则及优先级详解

《Nginx路由匹配规则及优先级详解》Nginx作为一个高性能的Web服务器和反向代理服务器,广泛用于负载均衡、请求转发等场景,在配置Nginx时,路由匹配规则是非常重要的概念,本文将详细介绍Ngin... 目录引言一、 Nginx的路由匹配规则概述二、 Nginx的路由匹配规则类型2.1 精确匹配(=)2

C#实现查找并删除PDF中的空白页面

《C#实现查找并删除PDF中的空白页面》PDF文件中的空白页并不少见,因为它们有可能是作者有意留下的,也有可能是在处理文档时不小心添加的,下面我们来看看如何使用Spire.PDFfor.NET通过C#... 目录安装 Spire.PDF for .NETC# 查找并删除 PDF 文档中的空白页C# 添加与删

Python MCPInspector调试思路详解

《PythonMCPInspector调试思路详解》:本文主要介绍PythonMCPInspector调试思路详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录python-MCPInspector调试1-核心知识点2-思路整理1-核心思路2-核心代码3-参考网址

SQL常用操作精华之复制表、跨库查询、删除重复数据

《SQL常用操作精华之复制表、跨库查询、删除重复数据》:本文主要介绍SQL常用操作精华之复制表、跨库查询、删除重复数据,这些SQL操作涵盖了数据库开发中最常用的技术点,包括表操作、数据查询、数据管... 目录SQL常用操作精华总结表结构与数据操作高级查询技巧SQL常用操作精华总结表结构与数据操作复制表结

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大