搞了一个半小时,终于可以自由获取Excel版财务报表啦~

2024-03-28 06:50

本文主要是介绍搞了一个半小时,终于可以自由获取Excel版财务报表啦~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近来看了一些讲财务报表分析的书,自己也想趁热打铁练习练习,毕竟光说不练假把式嘛。于是首要任务便是下载上市公司的财报数据,自己以前也下载过,估计不会有什么麻烦,没想到做起来却犯了难。

首先,财报下载主要有2个途径:

1、专业数据库下载。比如国泰安、Wind数据库、Choice数据库等。

优点:数据完整,准确度较高。

缺点:收费。

2、财经网站下载(可能需要爬虫)。比如新浪财经、东方财富网。(网易财经以前可以,现在已经停止相关服务)

优点:免费。

缺点:需要手动搜集整理数据,甚至需要用网络爬虫,对技术有一定要求。

可见,两种途径优劣互补。但作为动手能力强的白嫖党,肯定毫不犹豫地选择第2种啦。(好吧我承认还是因为穷……)

一、分析思路

打开新浪财经网页,随便输入一支股票(这里以汤臣倍健为例),然后进入它的财务报表页面,发现它已经详细展示了历年资产负债表、利润表和现金流量表数据,摆出了一副渴望被爬取的架势。

网址:汤臣倍健(300146)财务摘要_新浪财经_新浪网 (sina.com.cn)

页面上,我们可以在不同报表间切换,也可以点击切换“年报”“中报”其他类型。切换后地址栏URL没有变化,显然是使用了动态网页技术,我们需要通过浏览器的“检查”→“网络”来捕获实际访问的地址。

稍加尝试,我们便捕捉到了动态页面加载时实际访问的URL:

经过测试,我们发现网址中的callback参数可以去除,不影响返回的数据结果,于是我们得到了所真正需要的URL:

资产负债表:https://quotes.sina.cn/cn/api/openapi.php/CompanyFinanceService.getFinanceReport2022?paperCode=sz300146&source=fzb&type=4&page=1&num=10

利润表:https://quotes.sina.cn/cn/api/openapi.php/CompanyFinanceService.getFinanceReport2022?paperCode=sz300146&source=lrb&type=4&page=1&num=10

现金流量表:https://quotes.sina.cn/cn/api/openapi.php/CompanyFinanceService.getFinanceReport2022?paperCode=sz300146&source=llb&type=4&page=1&num=10

在浏览器中打开上面三个链接,发现返回的都是json数据:

我们要的年度财务报表数据就嵌套在json数据的一个又一个字典中,并且里面的汉字使用了Unicode编码,好在我们可以使用强大的Python和它的json库,能够轻松地把我们要的数据提取出来。

二、代码实现

分析完思路,明确了我们要访问的URL和要解析的数据,接下来就可以尝试着用Python代码实现啦,毕竟人生苦短,请用Python~~代码整体的结构就是:

1、访问URL获取数据

2、用json库解析数据

3、保存数据并输出为Excel文件

话不多说,为老铁们送上热乎的代码:

import requests
import time
import json
import pandas as pdstart_year = '2022'
market = 'sz' # sz代表深交所,sh代表上交所
code = '300146'
sheets = ['fzb','lrb','llb']
tp = '4' # 0:全部,1:一季报,2:半年报,3:三季报,4:年报
page = '1'
num = '10'hds = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
}for sheet in sheets:com_url = 'https://quotes.sina.cn/cn/api/openapi.php/CompanyFinanceService.getFinanceReport' + start_year + '?paperCode=' + market + code + '&source=' + sheet + '&type=' + tp + '&page=' + page + '&num=' + numr = requests.get(com_url, headers = hds)rtext = r.textjson_data = json.loads(rtext)projects = []; i = 0; result_dict = dict()for year in range(int(start_year), int(start_year) - int(num), -1):year_data = json_data['result']['data']['report_list'][str(year) + '1231']['data']i = i + 1; year_result = []if i == 1:for dct in year_data:projects.append(dct['item_title'])result_dict['报表项目'] = projectsfor dct in year_data:if str(dct['item_value']) == 'None':year_result.append(0)elif dct['item_value'] == '':year_result.append('')else:year_result.append(float(dct['item_value']))result_dict[str(year) + '年'] = year_resulttime.sleep(1)sheet_data = pd.DataFrame(data = result_dict)sheet_data.to_excel(code + ' ' + sheet + '.xlsx',index = False)print(code + ' ' + sheet + ' 数据已保存')

上述代码要求安装了requests和pandas库,小伙伴们可以自己复制粘贴代码运行一下,有什么问题可以评论区留言。

运行完毕后,就会生成三个Excel文件,即我们心心念念的资产负债表、利润表、现金流量表。

三、结果展示

大家看看结果吧,是不是自己想要的那样呢。

资产负债表:

利润表:

现金流量表:

以上搞完大概花了一个半小时,虽然有点小累,但成就感满满。作为财务人士,以后可以自由下载想要的财报啦。

老铁们懂Python的,可以自己改改代码,批量爬取数据。当然控制好节奏哈,新浪的反爬虫还是挺猛的。

小伙伴们还有什么问题,欢迎评论区留言哦。

这篇关于搞了一个半小时,终于可以自由获取Excel版财务报表啦~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/854797

相关文章

SpringMVC高效获取JavaBean对象指南

《SpringMVC高效获取JavaBean对象指南》SpringMVC通过数据绑定自动将请求参数映射到JavaBean,支持表单、URL及JSON数据,需用@ModelAttribute、@Requ... 目录Spring MVC 获取 JavaBean 对象指南核心机制:数据绑定实现步骤1. 定义 Ja

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

C#实现将Office文档(Word/Excel/PDF/PPT)转为Markdown格式

《C#实现将Office文档(Word/Excel/PDF/PPT)转为Markdown格式》Markdown凭借简洁的语法、优良的可读性,以及对版本控制系统的高度兼容性,逐渐成为最受欢迎的文档格式... 目录为什么要将文档转换为 Markdown 格式使用工具将 Word 文档转换为 Markdown(.

使用Python实现获取屏幕像素颜色值

《使用Python实现获取屏幕像素颜色值》这篇文章主要为大家详细介绍了如何使用Python实现获取屏幕像素颜色值,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、一个小工具,按住F10键,颜色值会跟着显示。完整代码import tkinter as tkimport pyau

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Python实现pdf电子发票信息提取到excel表格

《Python实现pdf电子发票信息提取到excel表格》这篇文章主要为大家详细介绍了如何使用Python实现pdf电子发票信息提取并保存到excel表格,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录应用场景详细代码步骤总结优化应用场景电子发票信息提取系统主要应用于以下场景:企业财务部门:需

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、