Golang网络爬虫框架gocolly/colly(三)

2024-09-08 13:58

本文主要是介绍Golang网络爬虫框架gocolly/colly(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio)
在这里插入图片描述
定义数据结构体:

type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}

接下来为gocolly调用准备,将用户代理设置为Chrome浏览器,该值可以通过Fiddler工具查看:

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"

在这里插入图片描述
还可以利用Fiddler设置更多的Request Header,将爬虫工具伪装成浏览器。

接下来F12调用浏览器调试器查看目标数据的元素,拷贝jQuery选择器,然后改成相对路径。
在这里插入图片描述
完成所有的数据抓取代码:

package mainimport ("encoding/json""fmt""log""strconv""strings""github.com/PuerkitoBio/goquery""github.com/gocolly/colly"
)//证监会行业市盈率
type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}func main() {var err errorc := colly.NewCollector()c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"zjhHyShyl := make([]*ZhjhHyShyl, 0)c.OnRequest(func(r *colly.Request) {fmt.Printf("%+v\r\n%+v\r\n", *r, *(r.Headers))})c.OnHTML("td>table.list-div-table>tbody>tr", func(e *colly.HTMLElement) {hyShy := ZhjhHyShyl{Hydm: e.ChildText("td:first-child"),Hymc: e.ChildText("td:nth-child(2)"),}zxsj, err := strconv.ParseFloat(e.ChildText("td:nth-child(3)"), 64)if err == nil {hyShy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(e.ChildText("td:nth-child(4)"), 10, 32)if err == nil {hyShy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(e.ChildText("td:nth-child(5)"), 10, 32)if err == nil {hyShy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(e.ChildText("td:nth-child(6)"), 64)if err == nil {hyShy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(7)"), 64)if err == nil {hyShy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(8)"), 64)if err == nil {hyShy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(e.ChildText("td:nth-child(9)"), 64)if err == nil {hyShy.Jyn = &jyn}zjhHyShyl = append(zjhHyShyl, &hyShy)hyShy.Zhy = make([]*ZhjhHyShyl, 0)e.DOM.Parent().Parent().Next().Find("table.list-div-table>tbody>tr").Each(func(_ int, s *goquery.Selection) {zhy := ZhjhHyShyl{Hydm: strings.Trim(s.Find("td:nth-child(1)").Text(), "\r\n\t "),Hymc: strings.Trim(s.Find("td:nth-child(2)").Text(), "\r\n\t "),}zxsj, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(3)").Text(), "\r\n\t "), 64)if err == nil {zhy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(4)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(5)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(6)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(7)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(8)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(9)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jyn = &jyn}hyShy.Zhy = append(hyShy.Zhy, &zhy)})})c.OnScraped(func(_ *colly.Response) {bData, _ := json.MarshalIndent(zjhHyShyl, "", "\t")fmt.Println(string(bData))})err = c.Visit("http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio?date=2017-12-27&type=zjh1")if err != nil {log.Fatal(err)}
}

运行后的部分结果:

{"行业代码": "D","行业名称": "电力、热力、燃气及水的生产和供应业","最新数据": 20.12,"股票家数": 107,"亏损家数": 5,"近一个月": 19.51,"近三个月": 19.7,"近六个月": 19.87,"近一年": 18.9,"细分行业": [{"行业代码": "44","行业名称": "电力、热力生产和供应业","最新数据": 18.75,"股票家数": 70,"亏损家数": 3,"近一个月": 18.28,"近三个月": 18.43,"近六个月": 18.55,"近一年": 17.44,"细分行业": null}, {"行业代码": "45","行业名称": "燃气生产和供应业","最新数据": 28.4,"股票家数": 22,"亏损家数": 2,"近一个月": 25.71,"近三个月": 25.33,"近六个月": 25.38,"近一年": 27.24,"细分行业": null}, {"行业代码": "46","行业名称": "水的生产和供应业","最新数据": 27.78,"股票家数": 15,"亏损家数": 0,"近一个月": 27.88,"近三个月": 29.33,"近六个月": 30.56,"近一年": 29.64,"细分行业": null}]
}

原文链接:Golang 网络爬虫框架gocolly/colly 三

这篇关于Golang网络爬虫框架gocolly/colly(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148297

相关文章

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

解决若依微服务框架启动报错的问题

《解决若依微服务框架启动报错的问题》Invalidboundstatement错误通常由MyBatis映射文件未正确加载或Nacos配置未读取导致,需检查XML的namespace与方法ID是否匹配,... 目录ruoyi-system模块报错报错详情nacos文件目录总结ruoyi-systnGLNYpe

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

Python Web框架Flask、Streamlit、FastAPI示例详解

《PythonWeb框架Flask、Streamlit、FastAPI示例详解》本文对比分析了Flask、Streamlit和FastAPI三大PythonWeb框架:Flask轻量灵活适合传统应用... 目录概述Flask详解Flask简介安装和基础配置核心概念路由和视图模板系统数据库集成实际示例Stre

Olingo分析和实践之OData框架核心组件初始化(关键步骤)

《Olingo分析和实践之OData框架核心组件初始化(关键步骤)》ODataSpringBootService通过初始化OData实例和服务元数据,构建框架核心能力与数据模型结构,实现序列化、URI... 目录概述第一步:OData实例创建1.1 OData.newInstance() 详细分析1.1.1

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola