Golang网络爬虫框架gocolly/colly(三)

2024-09-08 13:58

本文主要是介绍Golang网络爬虫框架gocolly/colly(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio)
在这里插入图片描述
定义数据结构体:

type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}

接下来为gocolly调用准备,将用户代理设置为Chrome浏览器,该值可以通过Fiddler工具查看:

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"

在这里插入图片描述
还可以利用Fiddler设置更多的Request Header,将爬虫工具伪装成浏览器。

接下来F12调用浏览器调试器查看目标数据的元素,拷贝jQuery选择器,然后改成相对路径。
在这里插入图片描述
完成所有的数据抓取代码:

package mainimport ("encoding/json""fmt""log""strconv""strings""github.com/PuerkitoBio/goquery""github.com/gocolly/colly"
)//证监会行业市盈率
type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}func main() {var err errorc := colly.NewCollector()c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"zjhHyShyl := make([]*ZhjhHyShyl, 0)c.OnRequest(func(r *colly.Request) {fmt.Printf("%+v\r\n%+v\r\n", *r, *(r.Headers))})c.OnHTML("td>table.list-div-table>tbody>tr", func(e *colly.HTMLElement) {hyShy := ZhjhHyShyl{Hydm: e.ChildText("td:first-child"),Hymc: e.ChildText("td:nth-child(2)"),}zxsj, err := strconv.ParseFloat(e.ChildText("td:nth-child(3)"), 64)if err == nil {hyShy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(e.ChildText("td:nth-child(4)"), 10, 32)if err == nil {hyShy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(e.ChildText("td:nth-child(5)"), 10, 32)if err == nil {hyShy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(e.ChildText("td:nth-child(6)"), 64)if err == nil {hyShy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(7)"), 64)if err == nil {hyShy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(8)"), 64)if err == nil {hyShy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(e.ChildText("td:nth-child(9)"), 64)if err == nil {hyShy.Jyn = &jyn}zjhHyShyl = append(zjhHyShyl, &hyShy)hyShy.Zhy = make([]*ZhjhHyShyl, 0)e.DOM.Parent().Parent().Next().Find("table.list-div-table>tbody>tr").Each(func(_ int, s *goquery.Selection) {zhy := ZhjhHyShyl{Hydm: strings.Trim(s.Find("td:nth-child(1)").Text(), "\r\n\t "),Hymc: strings.Trim(s.Find("td:nth-child(2)").Text(), "\r\n\t "),}zxsj, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(3)").Text(), "\r\n\t "), 64)if err == nil {zhy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(4)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(5)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(6)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(7)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(8)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(9)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jyn = &jyn}hyShy.Zhy = append(hyShy.Zhy, &zhy)})})c.OnScraped(func(_ *colly.Response) {bData, _ := json.MarshalIndent(zjhHyShyl, "", "\t")fmt.Println(string(bData))})err = c.Visit("http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio?date=2017-12-27&type=zjh1")if err != nil {log.Fatal(err)}
}

运行后的部分结果:

{"行业代码": "D","行业名称": "电力、热力、燃气及水的生产和供应业","最新数据": 20.12,"股票家数": 107,"亏损家数": 5,"近一个月": 19.51,"近三个月": 19.7,"近六个月": 19.87,"近一年": 18.9,"细分行业": [{"行业代码": "44","行业名称": "电力、热力生产和供应业","最新数据": 18.75,"股票家数": 70,"亏损家数": 3,"近一个月": 18.28,"近三个月": 18.43,"近六个月": 18.55,"近一年": 17.44,"细分行业": null}, {"行业代码": "45","行业名称": "燃气生产和供应业","最新数据": 28.4,"股票家数": 22,"亏损家数": 2,"近一个月": 25.71,"近三个月": 25.33,"近六个月": 25.38,"近一年": 27.24,"细分行业": null}, {"行业代码": "46","行业名称": "水的生产和供应业","最新数据": 27.78,"股票家数": 15,"亏损家数": 0,"近一个月": 27.88,"近三个月": 29.33,"近六个月": 30.56,"近一年": 29.64,"细分行业": null}]
}

原文链接:Golang 网络爬虫框架gocolly/colly 三

这篇关于Golang网络爬虫框架gocolly/colly(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148297

相关文章

Golang 日志处理和正则处理的操作方法

《Golang日志处理和正则处理的操作方法》:本文主要介绍Golang日志处理和正则处理的操作方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录1、logx日志处理1.1、logx简介1.2、日志初始化与配置1.3、常用方法1.4、配合defer

golang float和科学计数法转字符串的实现方式

《golangfloat和科学计数法转字符串的实现方式》:本文主要介绍golangfloat和科学计数法转字符串的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望... 目录golang float和科学计数法转字符串需要对float转字符串做处理总结golang float

golang实现延迟队列(delay queue)的两种实现

《golang实现延迟队列(delayqueue)的两种实现》本文主要介绍了golang实现延迟队列(delayqueue)的两种实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录1 延迟队列:邮件提醒、订单自动取消2 实现2.1 simplChina编程e简单版:go自带的time

Golang实现Redis分布式锁(Lua脚本+可重入+自动续期)

《Golang实现Redis分布式锁(Lua脚本+可重入+自动续期)》本文主要介绍了Golang分布式锁实现,采用Redis+Lua脚本确保原子性,持可重入和自动续期,用于防止超卖及重复下单,具有一定... 目录1 概念应用场景分布式锁必备特性2 思路分析宕机与过期防止误删keyLua保证原子性可重入锁自动

Linux网络配置之网桥和虚拟网络的配置指南

《Linux网络配置之网桥和虚拟网络的配置指南》这篇文章主要为大家详细介绍了Linux中配置网桥和虚拟网络的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、网桥的配置在linux系统中配置一个新的网桥主要涉及以下几个步骤:1.为yum仓库做准备,安装组件epel-re

golang 对象池sync.Pool的实现

《golang对象池sync.Pool的实现》:本文主要介绍golang对象池sync.Pool的实现,用于缓存和复用临时对象,以减少内存分配和垃圾回收的压力,下面就来介绍一下,感兴趣的可以了解... 目录sync.Pool的用法原理sync.Pool 的使用示例sync.Pool 的使用场景注意sync.

C++ HTTP框架推荐(特点及优势)

《C++HTTP框架推荐(特点及优势)》:本文主要介绍C++HTTP框架推荐的相关资料,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Crow2. Drogon3. Pistache4. cpp-httplib5. Beast (Boos

golang中slice扩容的具体实现

《golang中slice扩容的具体实现》Go语言中的切片扩容机制是Go运行时的一个关键部分,它确保切片在动态增加元素时能够高效地管理内存,本文主要介绍了golang中slice扩容的具体实现,感兴趣... 目录1. 切片扩容的触发append 函数的实现2. runtime.growslice 函数gro

golang实现动态路由的项目实践

《golang实现动态路由的项目实践》本文主要介绍了golang实现动态路由项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习... 目录一、动态路由1.结构体(数据库的定义)2.预加载preload3.添加关联的方法一、动态路由1

Golang interface{}的具体使用

《Golanginterface{}的具体使用》interface{}是Go中可以表示任意类型的空接口,本文主要介绍了Golanginterface{}的具体使用,具有一定的参考价值,感兴趣的可以了... 目录一、什么是 interface{}?定义形China编程式:二、interface{} 有什么特别的?✅