Datawhale-爬虫-Task7(实战大项目)

2024-04-14 11:08

本文主要是介绍Datawhale-爬虫-Task7(实战大项目),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实战大项目

模拟登录丁香园,并抓取论坛所有的人员的基本信息与回复帖子的内容。
丁香园论坛:论坛登录链接

  • 首先使用Selenium模拟登录丁香园论坛。这里模拟点击登录后若要使用账号密码登录还需要模拟点击返回电脑登录
    在这里插入图片描述
    登录代码如下:
def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*******")  # 自动填值#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("****")print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")
  • 获取登陆后的论坛信息,这边我使用CSS选择器爬取相应的信息,很方便,但是爬取后暂时不知道该怎么将论坛发言人和他们的发帖内容对应输出,所以暂时先分开写了

爬取信息代码:

def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)
  • 今天在学习的时候还学到了如何加载动态页面,即使用Selenium让进度条自动下拉到最底部实现JS的加载,代码如下:
 def scroll_load(browser):#利用 execute_script() 方法将进度条下拉到最底部browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")browser.implicitly_wait(2)  # 隐式等待

作业完整代码:

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException# 声明浏览器对象
browser = webdriver.Chrome()
browser.get("http://www.dxy.cn/bbs/thread/626626#626626")def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*****")  # 填入你的账号#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("********") #填上你的密码print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)# 滚动加载
# def scroll_load(browser):
#     #利用 execute_script() 方法将进度条下拉到最底部
#     browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
#     browser.implicitly_wait(2)  # 隐式等待# 主函数
def main():login_zhihu(browser)  # 登录函数#for i in range(2):  #定义滚动次数get_information(browser)  # 获取标题与链接#scroll_load(browser)  # 滚动time.sleep(1)  # 休眠# 函数入口调用
if __name__ == '__main__':main()input("按任意键退出-> ")browser.quit()

运行结果(发帖人姓名部分):
在这里插入图片描述

这篇关于Datawhale-爬虫-Task7(实战大项目)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902855

相关文章

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

如何在Spring Boot项目中集成MQTT协议

《如何在SpringBoot项目中集成MQTT协议》本文介绍在SpringBoot中集成MQTT的步骤,包括安装Broker、添加EclipsePaho依赖、配置连接参数、实现消息发布订阅、测试接口... 目录1. 准备工作2. 引入依赖3. 配置MQTT连接4. 创建MQTT配置类5. 实现消息发布与订阅

springboot项目打jar制作成镜像并指定配置文件位置方式

《springboot项目打jar制作成镜像并指定配置文件位置方式》:本文主要介绍springboot项目打jar制作成镜像并指定配置文件位置方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录一、上传jar到服务器二、编写dockerfile三、新建对应配置文件所存放的数据卷目录四、将配置文

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

怎么用idea创建一个SpringBoot项目

《怎么用idea创建一个SpringBoot项目》本文介绍了在IDEA中创建SpringBoot项目的步骤,包括环境准备(JDK1.8+、Maven3.2.5+)、使用SpringInitializr... 目录如何在idea中创建一个SpringBoot项目环境准备1.1打开IDEA,点击New新建一个项