python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)

本文主要是介绍python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬虫(Scrapy):写一段程序代码(网络访问),自动获取网页(网络)上的数据服务端语言:网络编程,都可以作为爬虫java c c++ python 等均可写爬虫程序js不是一个典型的服务端程序,js-->node.js也可以做网络爬虫python语言更高级,使用更便捷,库更丰富,代码量更少c:100行  java:50行  python:5行本身这是一个简单的问题,就是网络访问+数据解析但是,目前爬虫也逐渐演变成一门较为复杂的技术场景:客户一直在尝试去爬;服务器一直在不断升级,反爬虫。客户端---服务端不断较量为什么服务器要进行反爬虫:@1数据安全  @2并发问题,造成网站拥堵爬虫的业务场景:
简单---》困难@1 直接访问网页,就能获取数据@2 数据不在网页上,而是需要通过查找数据接口,得到数据(服务器使用的是前后端分离模式开发)@3 数据既不在网页上,也没有找到合适的数据接口,通过selenium自动化测试手段,获取数据@4 服务端设置了各种验证手段,阻止爬虫数据(验证码、密码、拖动验证、单击验证等)
java实现网络访问的第三方的jar包java\c中有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方的公司对功能进行封装,生成jar包,使用这些jar会更方便。python实现网络访问的第三方库:python有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方公司对功能进行封装,生成库,使用这些库会更方便。requests、beautifulsoup4、lxml等库
使用第三方库之前,需要安装 这些库
(检测一下有没有这些库)【安装anaconda时,已经将一些常用库安装了】

安装第三方库,在dos窗口直接输入pip指令即可,安装完anaconda时默认安装了pip

可能需要配置一下环境变量【百度自行解决】

pip install xxx
xxx为库名

库的位置都是在国外服务器上,所以整个过程会显得有些慢,
在安装时其实可以通过-i,来指定国内服务器镜像,安装速度会快一些。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple/

使用request 第三方库,来进行网络访问
import requests# 伪装成浏览器# 在请求头中添加 user-agent
tou = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}# 访问地址,得到响应
resp = requests.get('https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?type=',headers=tou);ct = resp.content.decode('utf-8');# 80%以上均为utf-8print(ct) # 打印就是得到的整个网页,html页面
# 解析html数据,得到我们想要的那些部分的内容
beautifulsoup库解析HTML页面,查询目标数据
from bs4 import BeautifulSoup
# 将html网页,转换为BeautifulSoup对象
bs = BeautifulSoup(ct,'lxml'); # 不要把l,看成了1# 从bs中查找 想要的数据【css选择器】#css选择器#标签、class、id等几种类型#作用:定位页面元素# 通过css选择器,来定位包含目标数据的那些页面元素sa = bs.select('.subject-item .info h2 a');# 较为重要的一步同,需要程序员认真编写
print(len(sa)) # 20个标签
20
#获取标签的属性/标签的内容
#sa是一个集合,先取第一个元素(第一本书)的名字
bookname = sa[0].get_text(); #get_text()函数作用是获取标签的内容
print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
#1、打印全部的20本书的书名
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
长安的荔枝
额尔古纳河右岸
繁花
明亮的夜晚
活着
我们八月见
十八岁出门远行
名侦探的献祭:人民教会杀人事件
秋园
豆子芝麻茶:和妈妈的最后絮叨
巴别塔
一句顶一万句
绝叫
生死疲劳
悉达多:一首印度的诗
长夜难明:双星
在细雨中呼喊
六个说谎的大学生
三体:“地球往事”三部曲之一
#2、在打印书名时,打印每本书的价格
sc = bs.select('.subject-item .info .pub')
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容bookprice = sc[i].get_text();print(bookname.replace(' ','').replace('\n',''),' ',bookprice.replace(' ','').replace('\n','').split('/')[-1].replace('元',''))
太白金星有点烦   45.00
长安的荔枝   45.00
额尔古纳河右岸   32.00
繁花   48.00
明亮的夜晚   52
活着   20.00
我们八月见   39.00
十八岁出门远行   45
名侦探的献祭:人民教会杀人事件   59.00
秋园   38.00
豆子芝麻茶:和妈妈的最后絮叨   39.8
巴别塔   98.00
一句顶一万句   68.00
绝叫   58.00
生死疲劳   69.90
悉达多:一首印度的诗   32.00
长夜难明:双星   65.00
在细雨中呼喊   25.00
六个说谎的大学生   45.00
三体:“地球往事”三部曲之一   23.00

这篇关于python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/910813

相关文章

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

Python虚拟环境与Conda使用指南分享

《Python虚拟环境与Conda使用指南分享》:本文主要介绍Python虚拟环境与Conda使用指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python 虚拟环境概述1.1 什么是虚拟环境1.2 为什么需要虚拟环境二、Python 内置的虚拟环境工具

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

Python pip下载包及所有依赖到指定文件夹的步骤说明

《Pythonpip下载包及所有依赖到指定文件夹的步骤说明》为了方便开发和部署,我们常常需要将Python项目所依赖的第三方包导出到本地文件夹中,:本文主要介绍Pythonpip下载包及所有依... 目录步骤说明命令格式示例参数说明离线安装方法注意事项总结要使用pip下载包及其所有依赖到指定文件夹,请按照以