【年报文本分析】第二辑:python+selium实现根据股票代码和对应年份获取上市公司年报链接(巨潮资讯网)

本文主要是介绍【年报文本分析】第二辑:python+selium实现根据股票代码和对应年份获取上市公司年报链接(巨潮资讯网),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 序言
  • excel文件准备
  • 函数模块介绍
    • 创建模拟浏览器对象
    • 只需要执行一次的部分
    • 需要批量执行的重复操作部分(信息录入excel)
    • 主函数
  • 本地文件结构
  • 全部代码
  • 结果预览

本文以指定的A股公司年报为例,从巨潮资讯网上获取。
该方法建议需要特定年报数据的采用,如单独分析某一行业等,如果无差别的使用全部A股上市公司,建议直接某宝买现成的。

序言

巨潮资讯网链接:http://www.cninfo.com.cn/new/commonUrl/pageOfSearch?url=disclosure/list/search&lastPage=index

需要提前下载好三个库,都可以用pip install轻松下载,稍微麻烦点儿的是需要去下载个对应版本的chromedriver.exe驱动,放到python或者Anaconda的文件夹目录下,然后添加环境变量(这部分报错了自行百度即可,操作起来不麻烦的)

注意time.sleep()是必要的,一是为了避免频繁操作被浏览器提醒,二是在网络不好的情况下让网页加载完全,否则都会导致报错

一定不要图快,目前我是2s左右完成一次。建议在网络环境较好的情况下运行

这之中还会遇到诸多问题,在代码的注释里也都写到了,其他需求可以做参考。

excel文件准备

文件名建议直接命名为result.xlsx,读取和保存时均使用改路径,如果中断后,修改起点,可以直接覆盖

文件需要至少包括code(股票代码)和year(年份),再建立一个url空列存储链接

在这里插入图片描述

函数模块介绍

创建模拟浏览器对象

# 返回虚拟浏览器对象
def openUrl(url):driver = webdriver.Chrome()driver.get(url)time.sleep(2)return driver

只需要执行一次的部分

xpath如何获取百度一下即可

def oneclick(driver):driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[6]/div/span[13]/span').click()time.sleep(1)

需要批量执行的重复操作部分(信息录入excel)

# 每一页的XPATH都是一样的,只需处理好一页即可
def geturl(driver,code,year,i):    #输入股票代码if i==1:driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(code)time.sleep(0.5)else:driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(6*Keys.BACKSPACE)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(code)time.sleep(0.5)#点击年报driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[6]/div/span[1]').click()time.sleep(0.5)#输入日期driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[1]').send_keys(8*Keys.BACKSPACE)time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[1]').send_keys(str(year)[-2:]+'-01-01')time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[2]').send_keys(8*Keys.BACKSPACE)time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[2]').send_keys(str(year)[-2:]+'-12-31')time.sleep(0.5)#点击查询driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/div[1]/button').click()time.sleep(1.0)#判断是否为年报而非摘要,是打开新网页保存年报网址for j in range(1,3):        try:element=driver.find_element_by_xpath(f'//*[@id="main"]/div[2]/div[1]/div[1]/div[2]/div/div[3]/table/tbody/tr[{j}]/td[3]/div/span/a')except:breaktext=element.text    if '年度报告' in text and '摘要' not in text:reporturl=element.get_attribute('href')driverreport=openUrl(reporturl)time.sleep(2.5)urlelement = driverreport.find_element_by_xpath('//*[@id="noticeDetail"]/div/div[2]/div[1]/a')url=urlelement.get_attribute('href')  df['url'][i]=urldf.to_excel('result.xlsx')driverreport.close()break    driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/div[2]/div/div/button').click()time.sleep(0.5)

主函数

#主函数
if __name__ =='__main__':driver=openUrl('http://www.cninfo.com.cn/new/commonUrl/pageOfSearch?url=disclosure/list/search&lastPage=index')oneclick(driver)dtype={'code':str}df=pd.read_excel('result.xlsx',sheet_name='Sheet1',dtype=dtype)for i in range(0,len(df)):code=df['code'][i]year=int(df['year'][i])geturl(driver,code,year+1,i)print(str(i)+'完成')driver.close()

本地文件结构

只需要将excel文件和代码文件放一起即可,或者用绝对路径也可

全部代码

from selenium import webdriver 
from selenium.webdriver.common.keys import Keys
import time 
import pandas as pd# 返回虚拟浏览器对象
def openUrl(url):driver = webdriver.Chrome()driver.get(url)time.sleep(2)return driverdef oneclick(driver):driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[6]/div/span[13]/span').click()time.sleep(1)# 每一页的XPATH都是一样的,只需处理好一页即可
def geturl(driver,code,year,i):    #输入股票代码if i==1:driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(code)time.sleep(0.5)else:driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(6*Keys.BACKSPACE)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[1]/div/div/div/div[1]/input').send_keys(code)time.sleep(0.5)#点击年报driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[6]/div/span[1]').click()time.sleep(0.5)#输入社会责任#driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[2]/div[2]/div/div/div/input').send_keys('社会责任')#time.sleep(0.5)#输入日期driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[1]').send_keys(8*Keys.BACKSPACE)time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[1]').send_keys(str(year)[-2:]+'-01-01')time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[2]').send_keys(8*Keys.BACKSPACE)time.sleep(0.5)driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/form/div[1]/div/div/input[2]').send_keys(str(year)[-2:]+'-12-31')time.sleep(0.5)#点击查询driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/div[1]/button').click()time.sleep(1.0)#判断是否为年报而非摘要,是打开新网页保存年报网址for j in range(1,3):        try:element=driver.find_element_by_xpath(f'//*[@id="main"]/div[2]/div[1]/div[1]/div[2]/div/div[3]/table/tbody/tr[{j}]/td[3]/div/span/a')except:breaktext=element.text    if '年度报告' in text and '摘要' not in text:reporturl=element.get_attribute('href')driverreport=openUrl(reporturl)time.sleep(2.5)urlelement = driverreport.find_element_by_xpath('//*[@id="noticeDetail"]/div/div[2]/div[1]/a')url=urlelement.get_attribute('href')  df['url'][i]=urldf.to_excel('result.xlsx')driverreport.close()break    driver.find_element_by_xpath('//*[@id="main"]/div[2]/div[1]/div[2]/div/div[2]/div[2]/div/div/button').click()time.sleep(0.5)#主函数
if __name__ =='__main__':driver=openUrl('http://www.cninfo.com.cn/new/commonUrl/pageOfSearch?url=disclosure/list/search&lastPage=index')oneclick(driver)dtype={'code':str}df=pd.read_excel('result.xlsx',sheet_name='Sheet1',dtype=dtype)for i in range(0,len(df)):code=df['code'][i]year=int(df['year'][i])geturl(driver,code,year+1,i)print(str(i)+'完成')driver.close()

结果预览

在这里插入图片描述

从excel文件中下载年报详见:https://blog.csdn.net/weixin_43956523/article/details/136265883?spm=1001.2014.3001.5501

这篇关于【年报文本分析】第二辑:python+selium实现根据股票代码和对应年份获取上市公司年报链接(巨潮资讯网)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/937356

相关文章

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

mybatis执行insert返回id实现详解

《mybatis执行insert返回id实现详解》MyBatis插入操作默认返回受影响行数,需通过useGeneratedKeys+keyProperty或selectKey获取主键ID,确保主键为自... 目录 两种方式获取自增 ID:1. ​​useGeneratedKeys+keyProperty(推

Spring Boot集成Druid实现数据源管理与监控的详细步骤

《SpringBoot集成Druid实现数据源管理与监控的详细步骤》本文介绍如何在SpringBoot项目中集成Druid数据库连接池,包括环境搭建、Maven依赖配置、SpringBoot配置文件... 目录1. 引言1.1 环境准备1.2 Druid介绍2. 配置Druid连接池3. 查看Druid监控

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Linux在线解压jar包的实现方式

《Linux在线解压jar包的实现方式》:本文主要介绍Linux在线解压jar包的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux在线解压jar包解压 jar包的步骤总结Linux在线解压jar包在 Centos 中解压 jar 包可以使用 u

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期