python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)

本文主要是介绍python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬虫(Scrapy):写一段程序代码(网络访问),自动获取网页(网络)上的数据服务端语言:网络编程,都可以作为爬虫java c c++ python 等均可写爬虫程序js不是一个典型的服务端程序,js-->node.js也可以做网络爬虫python语言更高级,使用更便捷,库更丰富,代码量更少c:100行  java:50行  python:5行本身这是一个简单的问题,就是网络访问+数据解析但是,目前爬虫也逐渐演变成一门较为复杂的技术场景:客户一直在尝试去爬;服务器一直在不断升级,反爬虫。客户端---服务端不断较量为什么服务器要进行反爬虫:@1数据安全  @2并发问题,造成网站拥堵爬虫的业务场景:
简单---》困难@1 直接访问网页,就能获取数据@2 数据不在网页上,而是需要通过查找数据接口,得到数据(服务器使用的是前后端分离模式开发)@3 数据既不在网页上,也没有找到合适的数据接口,通过selenium自动化测试手段,获取数据@4 服务端设置了各种验证手段,阻止爬虫数据(验证码、密码、拖动验证、单击验证等)
java实现网络访问的第三方的jar包java\c中有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方的公司对功能进行封装,生成jar包,使用这些jar会更方便。python实现网络访问的第三方库:python有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方公司对功能进行封装,生成库,使用这些库会更方便。requests、beautifulsoup4、lxml等库
使用第三方库之前,需要安装 这些库
(检测一下有没有这些库)【安装anaconda时,已经将一些常用库安装了】

安装第三方库,在dos窗口直接输入pip指令即可,安装完anaconda时默认安装了pip

可能需要配置一下环境变量【百度自行解决】

pip install xxx
xxx为库名

库的位置都是在国外服务器上,所以整个过程会显得有些慢,
在安装时其实可以通过-i,来指定国内服务器镜像,安装速度会快一些。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple/

使用request 第三方库,来进行网络访问
import requests# 伪装成浏览器# 在请求头中添加 user-agent
tou = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}# 访问地址,得到响应
resp = requests.get('https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?type=',headers=tou);ct = resp.content.decode('utf-8');# 80%以上均为utf-8print(ct) # 打印就是得到的整个网页,html页面
# 解析html数据,得到我们想要的那些部分的内容
beautifulsoup库解析HTML页面,查询目标数据
from bs4 import BeautifulSoup
# 将html网页,转换为BeautifulSoup对象
bs = BeautifulSoup(ct,'lxml'); # 不要把l,看成了1# 从bs中查找 想要的数据【css选择器】#css选择器#标签、class、id等几种类型#作用:定位页面元素# 通过css选择器,来定位包含目标数据的那些页面元素sa = bs.select('.subject-item .info h2 a');# 较为重要的一步同,需要程序员认真编写
print(len(sa)) # 20个标签
20
#获取标签的属性/标签的内容
#sa是一个集合,先取第一个元素(第一本书)的名字
bookname = sa[0].get_text(); #get_text()函数作用是获取标签的内容
print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
#1、打印全部的20本书的书名
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
长安的荔枝
额尔古纳河右岸
繁花
明亮的夜晚
活着
我们八月见
十八岁出门远行
名侦探的献祭:人民教会杀人事件
秋园
豆子芝麻茶:和妈妈的最后絮叨
巴别塔
一句顶一万句
绝叫
生死疲劳
悉达多:一首印度的诗
长夜难明:双星
在细雨中呼喊
六个说谎的大学生
三体:“地球往事”三部曲之一
#2、在打印书名时,打印每本书的价格
sc = bs.select('.subject-item .info .pub')
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容bookprice = sc[i].get_text();print(bookname.replace(' ','').replace('\n',''),' ',bookprice.replace(' ','').replace('\n','').split('/')[-1].replace('元',''))
太白金星有点烦   45.00
长安的荔枝   45.00
额尔古纳河右岸   32.00
繁花   48.00
明亮的夜晚   52
活着   20.00
我们八月见   39.00
十八岁出门远行   45
名侦探的献祭:人民教会杀人事件   59.00
秋园   38.00
豆子芝麻茶:和妈妈的最后絮叨   39.8
巴别塔   98.00
一句顶一万句   68.00
绝叫   58.00
生死疲劳   69.90
悉达多:一首印度的诗   32.00
长夜难明:双星   65.00
在细雨中呼喊   25.00
六个说谎的大学生   45.00
三体:“地球往事”三部曲之一   23.00

这篇关于python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/910813

相关文章

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

基于Python实现自动化邮件发送系统的完整指南

《基于Python实现自动化邮件发送系统的完整指南》在现代软件开发和自动化流程中,邮件通知是一个常见且实用的功能,无论是用于发送报告、告警信息还是用户提醒,通过Python实现自动化的邮件发送功能都能... 目录一、前言:二、项目概述三、配置文件 `.env` 解析四、代码结构解析1. 导入模块2. 加载环

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

Python内存优化的实战技巧分享

《Python内存优化的实战技巧分享》Python作为一门解释型语言,虽然在开发效率上有着显著优势,但在执行效率方面往往被诟病,然而,通过合理的内存优化策略,我们可以让Python程序的运行速度提升3... 目录前言python内存管理机制引用计数机制垃圾回收机制内存泄漏的常见原因1. 循环引用2. 全局变

使用Python的requests库来发送HTTP请求的操作指南

《使用Python的requests库来发送HTTP请求的操作指南》使用Python的requests库发送HTTP请求是非常简单和直观的,requests库提供了丰富的API,可以发送各种类型的HT... 目录前言1. 安装 requests 库2. 发送 GET 请求3. 发送 POST 请求4. 发送

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消

Python异步编程之await与asyncio基本用法详解

《Python异步编程之await与asyncio基本用法详解》在Python中,await和asyncio是异步编程的核心工具,用于高效处理I/O密集型任务(如网络请求、文件读写、数据库操作等),接... 目录一、核心概念二、使用场景三、基本用法1. 定义协程2. 运行协程3. 并发执行多个任务四、关键