C#实现网页内容正文抓取

2024-08-24 16:48

本文主要是介绍C#实现网页内容正文抓取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

思路:
1、抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码。我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码
2、把网页分割成几大块。试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用。于是我自己写了个算法,可以把网页里的div块,td块等都提取出来,支持嵌套的情况。一般只提取div的文字块儿就行了。
3、把汉字少于200的文本块去了,一般少于200字的文本块不会是正文,即便是正文,一般来说也不会有太多的价值,我直接去掉。
4、 因为div支持嵌套,所以剩下的文本块,有可能是重复的,一个是另一个的父节点,所以要把最里层的文本块找出来,最里层的文本块肯定是汉字最多的,而其它 文本最少的,所以要计算出剩余文本块中汉字占所有字符比例最高的文本块,基本上它就是正文的文本块了。当然有的网页正文里也可能还有div的文本块,这时 候可能会判断错误,但只要正文嵌套的Div文本块的汉字少于200字,我的算法还是能准确提取正文文本块的。这一步我用写了一个自定义的方法传递给 List的Sort方法。
5、把<p><br>等标签替换成特殊占位符[p][br]等,因为最终的正文需要保留段落和回车换行等格式。这一步用正则实现。
6、把最后剩下的文本块的html标签去掉,我用正则过滤的。
7、把[p]替换成回车换行加俩空格,把[br]替换成回车换行,这步也用正则。到此,正文提取完毕

主要代码:

public class GetMainContentHelper
{///<summary>/// 判断两段儿文本里哪个中文占的比例高///</summary>///<param name="x"></param>///<param name="y"></param>///<returns></returns>public static int CompareDinosByChineseLength(string x, string y){if (x == null){if (y == null){return 0;}else{return -1;}}else{if (y == null){return 1;}else{Regex r = new Regex("[\u4e00-\u9fa5]");float xCount = (float)(r.Matches(x).Count) / (float)x.Length;float yCount = (float)(r.Matches(y).Count) / (float)y.Length;int retval = xCount.CompareTo(yCount);if (retval != 0){return retval;}else{return x.CompareTo(y);}}}}///<summary>/// 获取一个网页源码中的标签列表,支持嵌套,一般或去div,td等容器///</summary>///<param name="input"></param>///<param name="tag"></param>///<returns></returns>public static List<string> GetTags(string input, string tag){StringReader strReader = new StringReader(input);int lowerThanCharCounter = 0;int lowerThanCharPos = 0;Stack<int> tagPos = new Stack<int>();List<string> taglist = new List<string>();int i = 0;while (true){try{int intCharacter = strReader.Read();if (intCharacter == -1) break;char convertedCharacter = Convert.ToChar(intCharacter);if (lowerThanCharCounter > 0){if (convertedCharacter == '>'){lowerThanCharCounter--;string biaoqian = input.Substring(lowerThanCharPos, i - lowerThanCharPos + 1);if (biaoqian.StartsWith(string.Format("<{0}", tag))){tagPos.Push(lowerThanCharPos);}if (biaoqian.StartsWith(string.Format("</{0}", tag))){if (tagPos.Count < 1)continue;int tempTagPos = tagPos.Pop();string strdiv = input.Substring(tempTagPos, i - tempTagPos + 1);taglist.Add(strdiv);}}}if (convertedCharacter == '<'){lowerThanCharCounter++;lowerThanCharPos = i;}}finally{i++;}}return taglist;}///<summary>/// 获取指定网页的源码,支持编码自动识别///</summary>///<param name="url"></param>///<returns></returns>public static string getDataFromUrl(string url){string str = string.Empty;HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);//设置http头request.AllowAutoRedirect = true;request.AllowWriteStreamBuffering = true;request.Referer = "";request.Timeout = 10 * 1000;request.UserAgent = "";HttpWebResponse response = null;try{response = (HttpWebResponse)request.GetResponse();if (response.StatusCode == HttpStatusCode.OK){//根据http应答的http头来判断编码string characterSet = response.CharacterSet;Encoding encode;if (characterSet != ""){if (characterSet == "ISO-8859-1"){characterSet = "gb2312";}encode = Encoding.GetEncoding(characterSet);}else{encode = Encoding.Default;}//声明一个内存流来保存http应答流Stream receiveStream = response.GetResponseStream();MemoryStream mStream = new MemoryStream();byte[] bf = new byte[255];int count = receiveStream.Read(bf, 0, 255);while (count > 0){mStream.Write(bf, 0, count);count = receiveStream.Read(bf, 0, 255);}receiveStream.Close();mStream.Seek(0, SeekOrigin.Begin);//从内存流里读取字符串StreamReader reader = new StreamReader(mStream, encode);char[] buffer = new char[1024];count = reader.Read(buffer, 0, 1024);while (count > 0){str += new String(buffer, 0, count);count = reader.Read(buffer, 0, 1024);}//从解析出的字符串里判断charset,如果和http应答的编码不一直//那么以页面声明的为准,再次从内存流里重新读取文本Regex reg =new Regex(@"<meta[\s\S]+?charset=(.*)""[\s\S]+?>",RegexOptions.Multiline | RegexOptions.IgnoreCase);MatchCollection mc = reg.Matches(str);if (mc.Count > 0){string tempCharSet = mc[0].Result("$1");if (string.Compare(tempCharSet, characterSet, true) != 0){encode = Encoding.GetEncoding(tempCharSet);str = string.Empty;mStream.Seek(0, SeekOrigin.Begin);reader = new StreamReader(mStream, encode);buffer = new char[255];count = reader.Read(buffer, 0, 255);while (count > 0){str += new String(buffer, 0, count);count = reader.Read(buffer, 0, 255);}}}reader.Close();mStream.Close();}}catch (Exception ex){Trace.TraceError(ex.ToString());}finally{if (response != null)response.Close();}return str;}///<summary>/// 从一段网页源码中获取正文///</summary>///<param name="input"></param>///<returns></returns>public static string GetMainContent(string input){string reg1 = @"<(p|br)[^<]*>";string reg2 =@"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*>[^<]{2,}</a>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");]))|(?<Style><style[\s\S]+?/style>)|(?<select><select[\s\S]+?/select>)|(?<Script><script[\s\S]*?/script>)|(?<Explein><\!\-\-[\s\S]*?\-\->)|(?<li><li(\s+[^>]+)?>[\s\S]*?/li>)|(?<Html></?\s*[^> ]+(\s*[^=>]+?=['""]?[^""']+?['""]?)*?[^\[<]*>)|(?<Other>&[a-zA-Z]+;)|(?<Other2>\#[a-z0-9]{6})|(?<Space>\s+)|(\&\#\d+\;)";//1、获取网页的所有div标签List<string> list = GetTags(input, "div");//2、去除汉字少于200字的divList<string> needToRemove = new List<string>();foreach (string s in list){Regex r = new Regex("[\u4e00-\u9fa5]");if (r.Matches(s).Count < 300){needToRemove.Add(s);}}foreach (string s in needToRemove){list.Remove(s);}//3、把剩下的div按汉字比例多少倒序排列,list.Sort(CompareDinosByChineseLength);if (list.Count < 1){return "";}input = list[list.Count - 1];//4、把p和br替换成特殊的占位符[p][br]input = new Regex(reg1, RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(input, "[$1]");//5、去掉HTML标签,保留汉字input = new Regex(reg2, RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(input, "");//6、把特殊占维护替换成回车和换行input = new Regex("\\[p]", RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(input, "\r\n ");input = new Regex("\\[br]", RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(input, "\r\n");return input;}
}


这篇关于C#实现网页内容正文抓取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103044

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时

C# $字符串插值的使用

《C#$字符串插值的使用》本文介绍了C#中的字符串插值功能,详细介绍了使用$符号的实现方式,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录$ 字符使用方式创建内插字符串包含不同的数据类型控制内插表达式的格式控制内插表达式的对齐方式内插表达式中使用转义序列内插表达式中使用

C#中的Converter的具体应用

《C#中的Converter的具体应用》C#中的Converter提供了一种灵活的类型转换机制,本文详细介绍了Converter的基本概念、使用场景,具有一定的参考价值,感兴趣的可以了解一下... 目录Converter的基本概念1. Converter委托2. 使用场景布尔型转换示例示例1:简单的字符串到

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q