Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

requests 安装和导入

  • requests 安装
pip install requests
  • requests 导入
import requests

爬虫编码流程

  1. 指定url
  2. 发起请求
  3. 获取响应数据
  4. 持久化存储

最简单的例子(爬取搜狗页面):

# 1.指定url
url = 'https://www.sogou.com'
# 2.发起请求get方法的返回值为响应对象
response = requests.get(url=url)
# 3. 获取响应数据
# .text:返回的是字符串形式的响应数据
page_text = response.text
# 4. 持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as f:f.write(page_text)

使用浏览器打开 “sogou.html” 文件,可以看到成功爬取:在这里插入图片描述

实现一个简易网页采集器

基于搜狗针对不同的关键字将其对应的页面数据进行爬取

参数动态化:

  • 如果请求的url携带参数,且我们想要将携带的参数进行动态化操作 那么我们必须:
    1. 将携带的动态参数以键值对应形式封装到一个字典中
    2. 将字典作用到get方法的params参数中即可
    3. 需要将原始携带参数中的url中将携带的参数删除

例如:我们搜索 jay,并通过代码来实现:

url=https://www.sogou.com/web?query=jay

在这里插入图片描述
具体代码实现如下:

keyWord = input('enter a key word:')
# 实现参数动态化:
params = {'query': keyWord
}
url = 'https://www.sogou.com/web'
# params参数(字典):保存请求时url携带的参数
response = requests.get(url=url, params=params)# 修改响应数据的编码格式
# encoding返回的是响应数据原始的编码格式,如果给其赋值则表示修改了响应数据的编码格式
response.encoding = 'uft-8'page_text = response.text
fileName = keyWord + '.html'
with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
print(fileName, '爬取完毕!!!')

我们来看下结果:

(1)模拟搜狗搜索 jay在这里插入图片描述

(2)代码结果展示
在这里插入图片描述

第二种反爬机制

如上图,我们看到代码运行结果并没有爬取到我们想要的内容。难道是我们代码流程错了吗?

不完全是。

  • 异常的访问请求

    不是浏览器发起的请求都是异常请求
    网站的后台是如何知道请求是不是通过浏览器发起的?
    是通过判定请求的请求头中的user-agent判定的。

    什么是User-Agent:

    请求载体的身份标识

    什么是请求载体:
    浏览器:浏览器的身份标识是统一固定,身份标识可以从抓包工具中获取
    爬虫程序:身份标识是各自不同

  • 第二种反爬机制

    UA检测:网站后台会检测请求对应的User-Agent,以判定的安全请求是否为异常请求

  • 反反爬策略

    • UA伪装

      被作用到了大部分网站中,日后我们写的爬虫程序都默认带上UA检测

    • 伪装流程

      从抓包工具中捕获到某一个基于浏览器请求的User-Agent的值,将其伪装作用到一个字典中,将该字典作用到请求方法(get,post)的headers参数中即可
      在这里插入图片描述

    具体代码实现如下:

    # User-Agent
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }keyWord = input('enter a key word:')
    params = {'query': keyWord
    }
    response = requests.get(url=url, params=params, headers=headers)
    response.encoding = 'uft-8'
    page_text = response.text
    fileName = keyWord + '.html'
    with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
    print(fileName, '爬取完毕!!!')

    现在就成功完整爬取到了页面!

关注 Python涛哥,学习更多Python知识!

这篇关于Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817403

相关文章

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符