AI网络爬虫:用kimichat自动批量提取网页内容

2024-05-14 08:44

本文主要是介绍AI网络爬虫:用kimichat自动批量提取网页内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先,在网页中按下F12键,查看定位网页元素:

然后在kimi中输入提示词:

你是一个Python编程专家,要完成一个爬取网页内容的Python脚本,具体步骤如下:

在F盘新建一个Excel文件:提示词.xlsx

打开网页:https://lobehub.com/zh/assistants

定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div标签;

定位div标签里面所有的a标签,

提取a标签的href属性值,前面加上”https://lobehub.com/zh”,构造成一个URL;

解析这个URL的源代码;

在源代码中定位class="acss-1ce01rv"的h1标签,提取其文本内容作为提示词标题,写入”提示词.xlsx”这个Excel文件的第1列,列的标头为:提示词标题;

在源代码中定位class="layoutkit-flexbox css-o3n4io acss-pl6lf1"的h2标签,提取其文本内容作为提示词简介,写入”提示词.xlsx”这个Excel文件的第2列,列的标头为:提示词简介;

在源代码中定位class="acss-7ksih7"的div标签,提取其全部文本内容作为提示词内容,写入”提示词.xlsx”这个Excel文件的第3列,列的标头为:提示词内容;

注意:

每一步都要输出相关信息到屏幕;

网站有放爬虫机制,要通过设置请求头、延迟请求等方式来进行应对

源代码:

import requests

from bs4 import BeautifulSoup

import pandas as pd

from openpyxl import Workbook

# 定义目标URL

url = "https://lobehub.com/zh/assistants"

# 设置请求头,模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果请求失败,将抛出异常

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 定位div标签并提取所有a标签的href属性

div_tag = soup.find('div', class_='layoutkit-flexbox css-15l7r2q acss-vjqh32')

a_tags = div_tag.find_all('a')

# 构造完整的URL

urls = ["https://lobehub.com/zh" + tag.get('href') for tag in a_tags]

# 定义Excel文件路径

excel_path = 'F:/提示词.xlsx'

# 创建工作簿和工作表

wb = Workbook()

ws = wb.active

# 设置列的标头

ws.append(['提示词标题', '提示词简介', '提示词内容'])

# 循环处理每个URL

for idx, url in enumerate(urls, start=1):

print(f"正在处理URL: {url}")

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status()

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 提取h1标签文本内容

h1_tag = soup.find('h1', class_='acss-1ce01rv')

title = h1_tag.get_text(strip=True) if h1_tag else '无标题'

# 提取h2标签文本内容

h2_tag = soup.find('h2', class_='layoutkit-flexbox css-o3n4io acss-pl6lf1')

introduction = h2_tag.get_text(strip=True) if h2_tag else '无简介'

# 提取div标签文本内容

div_tag = soup.find('div', class_='acss-7ksih7')

content = div_tag.get_text(strip=True) if div_tag else '无内容'

# 将提取的内容写入Excel文件

ws.append([title, introduction, content])

# 打印到屏幕

print(f"标题: {title}")

print(f"简介: {introduction}")

print(f"内容: {content}")

# 保存Excel文件

wb.save(excel_path)

print(f"数据已写入Excel文件: {excel_path}")

这篇关于AI网络爬虫:用kimichat自动批量提取网页内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988293

相关文章

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

JAVA实现Token自动续期机制的示例代码

《JAVA实现Token自动续期机制的示例代码》本文主要介绍了JAVA实现Token自动续期机制的示例代码,通过动态调整会话生命周期平衡安全性与用户体验,解决固定有效期Token带来的风险与不便,感兴... 目录1. 固定有效期Token的内在局限性2. 自动续期机制:兼顾安全与体验的解决方案3. 总结PS

Ubuntu向多台主机批量传输文件的流程步骤

《Ubuntu向多台主机批量传输文件的流程步骤》:本文主要介绍在Ubuntu中批量传输文件到多台主机的方法,需确保主机互通、用户名密码统一及端口开放,通过安装sshpass工具,准备包含目标主机信... 目录Ubuntu 向多台主机批量传输文件1.安装 sshpass2.准备主机列表文件3.创建一个批处理脚

Python实现简单封装网络请求的示例详解

《Python实现简单封装网络请求的示例详解》这篇文章主要为大家详细介绍了Python实现简单封装网络请求的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录安装依赖核心功能说明1. 类与方法概览2.NetHelper类初始化参数3.ApiResponse类属性与方法使用实

MySQL批量替换数据库字符集的实用方法(附详细代码)

《MySQL批量替换数据库字符集的实用方法(附详细代码)》当需要修改数据库编码和字符集时,通常需要对其下属的所有表及表中所有字段进行修改,下面:本文主要介绍MySQL批量替换数据库字符集的实用方法... 目录前言为什么要批量修改字符集?整体脚本脚本逻辑解析1. 设置目标参数2. 生成修改表默认字符集的语句3

linux部署NFS和autofs自动挂载实现过程

《linux部署NFS和autofs自动挂载实现过程》文章介绍了NFS(网络文件系统)和Autofs的原理与配置,NFS通过RPC实现跨系统文件共享,需配置/etc/exports和nfs.conf,... 目录(一)NFS1. 什么是NFS2.NFS守护进程3.RPC服务4. 原理5. 部署5.1安装NF

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结