C#中使用HtmlAgilityPack对html进行解析

2024-06-16 20:58

本文主要是介绍C#中使用HtmlAgilityPack对html进行解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

xpath一般使用在xml的解析上比较多,实际上html是xml的一个子集。在.Net中为了方便我们对html进行操作微软为我们提供了一个轻量级并且开源的类库HtmlAgilityPack(点击下载)。比如我们想截取网页上某一部分文字获取其他元素的时候我们一般都是使用正则表达式一步一步的来进行处理的,这个过程相当的繁琐特别是对正则表达式不熟悉的情况,通过HtmlAgilityPack这个过程就变得相当简单了。下面我们来看下HtmlAgilityPack的基本使用方法。

工具/原料

  • Google浏览器
  • HtmlAgilityPack开源Xpath解析库
  • VS2010+
  • 一台电脑

方法/步骤

  1. 1

    下载 HtmlAgilityPack 下载地址:http://www.studycsharp.com/thread-44-1-1.html HtmlAgilityPack基本支持.Net2-.Net4.5 也支持Sliverlight和Windows Phone,大家可以根据自己的需求来使用。

  2. 2

    引用对应的DLL本文采用.Net4开发所以选择Net40文件夹中的库

    C#中使用HtmlAgilityPack对html进行解析
    C#中使用HtmlAgilityPack对html进行解析
  3. 3

    打开谷歌浏览器吧鼠标放在你想要获取的元素上,点击鼠标右键->审查元素->Copy Xpath

    C#中使用HtmlAgilityPack对html进行解析
  4. 4

    编写代码:

    /第一步声明HtmlAgilityPack.HtmlDocument实例

               HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

               //获取Html页面代码

               string html = HTMLHelper.Get_Http("http://www.studycsharp.com/");

               //第二步加载html文档

               doc.LoadHtml(html);

               //第三步通过Xpath选中html的指定元素  这样子就获取到了[url=http://www.studycsharp.com]www.studycsharp.com[/url]的"常用工具类"的板块链接了

               HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id=\"category_63\"]/table/tr[2]/td[2]/dl/dt/a");

               //获取所有板块的a标签

               HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[starts-with(@id,'category_')]/table/tr/td/dl/dt/a");

     

               StringBuilder sb = new StringBuilder();

               foreach (HtmlAgilityPack.HtmlNode item in collection)

               {

                   sb.Append(string.Format("{0}:{1}\r\n", item.InnerText, item.Attributes["href"].Value));

               }

               this.textBox1.Text = sb.ToString();

  5. 5

    代码运行效果

    C#中使用HtmlAgilityPack对html进行解析
    END

注意事项

  • HTMLHelper.Get_Http("http://www.studycsharp.com/"); 这段函数是获取远程的Html页面
  • 上面的例子的网站是http://www.studycsharp.com

这篇关于C#中使用HtmlAgilityPack对html进行解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1067535

相关文章

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

《CSSAnchorPositioning重新定义锚点定位的时代来临(最新推荐)》CSSAnchorPositioning是一项仍在草案中的新特性,由Chrome125开始提供原生支持需... 目录 css Anchor Positioning:重新定义「锚定定位」的时代来了! 什么是 Anchor Pos

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

《CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比》CSS中的position属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布... css 中的 position 属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布局和层叠关

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

nginx启动命令和默认配置文件的使用

《nginx启动命令和默认配置文件的使用》:本文主要介绍nginx启动命令和默认配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录常见命令nginx.conf配置文件location匹配规则图片服务器总结常见命令# 默认配置文件启动./nginx

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4