python3 爬取上海预付卡备案企业信息

2023-11-06 22:40

本文主要是介绍python3 爬取上海预付卡备案企业信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一直想学习python,然后用python做一些有趣的例子分享,可惜之前意志力不坚定,没有效的控制自己的惰性,在18年的最后一个星期里决定写下这第一篇的初稿,爬取上海的预付卡备案企业信息。

决定爬取这个信息,是刚好上周在微信上看到推送的信息,还给了原始信息的链接,所以决定拿来练手。

初步分析,见上图,很明显这特别像个表格,所以我认为应该会简单点。然后点击F12,看下后台的编码。见下图。基本上有效信息都在这个tbody里面,而且可以很容易识别出来。看到上面有个  <div  id="ivs_content"> ,就 可以利用  BeautifulSoup 来处理了。下面直接贴上代码吧。

 

#获取上海预付卡备案企业名单
#__author__ = 'fxsxj'
#coding:utf-8import chardet
from urllib import request
import bs4
import xlwt
import xlrd
import xlutilsurl='http://www.scofcom.gov.cn/zxxxgk/233571.htm'
response=request.urlopen(url)
page=response.read()
#查看字符编码方式
#charset=chardet.detect(page)
#print(charset)#写excel
book=xlwt.Workbook()
sheet=book.add_sheet('sheet1')page=(page.decode('gbk'))
#bs=bs4.BeautifulSoup(page,'lxml')
bs=bs4.BeautifulSoup(page,'html.parser')
#print(bs.title.string)
menu=bs.find_all(id="ivs_content")  # 在soup中找到id为mulu的节点
#print(menu)
data_page=bs.find_all("tr")for i in range(0,len(data_page)):list = data_page[i].find_all("td")#print(list)for j in range(0,len(list)):#print(list[j].get_text())sheet.write(i, j, list[j].get_text())book.save('上海预付卡备案企业名单.xls') #只能用.xls结尾

这篇关于python3 爬取上海预付卡备案企业信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/359478

相关文章

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(

SpringBoot如何对密码等敏感信息进行脱敏处理

《SpringBoot如何对密码等敏感信息进行脱敏处理》这篇文章主要为大家详细介绍了SpringBoot对密码等敏感信息进行脱敏处理的几个常用方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录​1. 配置文件敏感信息脱敏​​2. 日志脱敏​​3. API响应脱敏​​4. 其他注意事项​​总结

python3 pip终端出现错误解决的方法详解

《python3pip终端出现错误解决的方法详解》这篇文章主要为大家详细介绍了python3pip如果在终端出现错误该如何解决,文中的示例方法讲解详细,感兴趣的小伙伴可以跟随小编一起了解一下... 目录前言一、查看是否已安装pip二、查看是否添加至环境变量1.查看环境变量是http://www.cppcns

springboot实现配置文件关键信息加解密

《springboot实现配置文件关键信息加解密》在项目配置文件中常常会配置如数据库连接信息,redis连接信息等,连接密码明文配置在配置文件中会很不安全,所以本文就来聊聊如何使用springboot... 目录前言方案实践1、第一种方案2、第二种方案前言在项目配置文件中常常会配置如数据库连接信息、Red

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取