如何利用request和正则表达式获取微博热搜榜

2023-10-21 19:10

本文主要是介绍如何利用request和正则表达式获取微博热搜榜,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

其实这个是很简单的,网上有很多教程,虽然说微博热搜榜是动态数据,但是数据存储确实可以通过HTML来获取
https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6
在这里插入图片描述
注意微博是每分钟都跟新的,因此上一分组和下一分钟数据可能不完全相同
在这里插入图片描述
import re
import requests
from requests.exceptions import RequestException
import json
headers={
‘User-Agent’:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36”
}

def get_one_page(url):
try:
#之前我在公司,没有外网的情况下设置proxy,
#response=requests.get(url,proxy=proxy,headers=headers,verity=False),如果没有这个参数将报错,因为没有安全证书#问题在后面是如果遇到反爬虫建议设置爬去速度调慢一些time,sleep(3)
reponse=requests.get(url)
if reponse.status_code==200:
return reponse.text
return None
except RequestException:
return None

def parse_one_page(html):
patterm=re.compile(’<tr.?<td.?ranktop">(\d+).?_blank">(.?).?(\d+).?’,re.S)
items=re.findall(patterm,html)
#return items
for item in items:
yield {
‘top’:item[0],
‘title’:item[1],
‘pop_nums’:item[2]
}

def write_to_file(conten):
path = ‘E:/test001/weibo%s.txt’ % time.strftime(’%Y_%m_%d’)
with open(path,‘w’,encoding=‘utf-8’) as f:
f.write(json.dumps(conten,ensure_ascii=False)+’\n’)
f.close()

def main():
url = ‘https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6’
html=get_one_page(url)
#print(html)
content=parse_one_page(html)
#print(content)
for item in parse_one_page(html):
print(item)
write_to_file(item)

if name == ‘main’:
main()

这篇关于如何利用request和正则表达式获取微博热搜榜的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/256370

相关文章

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Java发送SNMP至交换机获取交换机状态实现方式

《Java发送SNMP至交换机获取交换机状态实现方式》文章介绍使用SNMP4J库(2.7.0)通过RCF1213-MIB协议获取交换机单/多路状态,需开启SNMP支持,重点对比SNMPv1、v2c、v... 目录交换机协议SNMP库获取交换机单路状态获取交换机多路状态总结交换机协议这里使用的交换机协议为常

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Spring Boot中获取IOC容器的多种方式

《SpringBoot中获取IOC容器的多种方式》本文主要介绍了SpringBoot中获取IOC容器的多种方式,包括直接注入、实现ApplicationContextAware接口、通过Spring... 目录1. 直接注入ApplicationContext2. 实现ApplicationContextA

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具