小技巧绕过Sina Visitor System(新浪访客系统)

2024-09-08 15:18

本文主要是介绍小技巧绕过Sina Visitor System(新浪访客系统),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0x00 前言

一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过……

当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集,但是普通开发者的权限比较低,限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~

应该是今年的早些时候,新浪引入了一个Sina Visitor System(新浪访客系统),也不知道是为了提高用户体验还是为了反爬虫,或许是兼而有之。实际结果就是,爬虫取回来的页面全部变成Sina Visitor System了

怎么办呢,我们先来看看这个Sina Visitor System是怎么回事

0x01 分析

也许有人没有见过这个页面,那说明你的浏览器里存有新浪微博的 cookie ,你可以打开浏览器的隐身模式,然后进入新浪微博首页,就可以看到下面这个样子

sina visitor system

大概过上几秒钟才能进入正常的页面,访问其他 weibo.com 下的页面如某个用户的主页也是同样的情况

我们可以通过Sina Visitor System的网页源码来看看它到底做了什么

代码不是很多,而且还有中文注释,新浪还真是照顾我们……

根据中文注释就可以知道,它先是判断用户请求中是否携带 cookie ,如果有就直接进入正常页面,否则就要走访客流程了。

对用户来讲,除非你是第一次进入 weibo.com ,否则一定会有 cookie ,自然不会卡在这个页面。而一般的爬虫是不携带 cookie 的,除非进行了模拟登录或者把已有的 cookie 放入爬虫的请求中去,否则取回的结果就是Sina Visitor System了

0x02 换个思路

如果从正常角度来想这个问题,肯定是顺着它的代码逻辑来,既然它要检测cookie ,那么我们就用爬虫模拟登陆一下或者在 HTTP 请求中带上已有的 cookie不就得了?没错,这样是可行的,但是要注意,模拟登录可能会遇到验证码,而cookie 也有一定的有效期,更重要的是这两种方法都需要一个账号,因此这些方法都不是长久之计。

说来也巧,刚好在知乎上看到这样的页面

zhihu

知乎会自动把用户发的链接转换成对应页面的标题,可以看到这里显示的也是Sina Visitor System,说明知乎的爬虫似乎也遇到问题了

但是如果你有注意搜索引擎中新浪微博的结果,就会发现完全不是这样

google-weibo

这说明了什么?说明新浪微博为了让自己的结果呈现在搜索引擎中,对来自搜索引擎的爬虫是“来者不拒”

那么,我们就来试验一下。我用 Python 写了一个小程序,从一个微博用户的主页中取出该用户的昵称

设置一下User-Agent,把自己伪装成搜索引擎爬虫,具体用什么随意啦~谷歌、必应都可以,或者仅仅用 spider 也行!

这篇关于小技巧绕过Sina Visitor System(新浪访客系统)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148466

相关文章

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Spring @RequestMapping 注解及使用技巧详解

《Spring@RequestMapping注解及使用技巧详解》@RequestMapping是SpringMVC中定义请求映射规则的核心注解,用于将HTTP请求映射到Controller处理方法... 目录一、核心作用二、关键参数说明三、快捷组合注解四、动态路径参数(@PathVariable)五、匹配请

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

Mac备忘录怎么导出/备份和云同步? Mac备忘录使用技巧

《Mac备忘录怎么导出/备份和云同步?Mac备忘录使用技巧》备忘录作为iOS里简单而又不可或缺的一个系统应用,上手容易,可以满足我们日常生活中各种记录的需求,今天我们就来看看Mac备忘录的导出、... 「备忘录」是 MAC 上的一款常用应用,它可以帮助我们捕捉灵感、记录待办事项或保存重要信息。为了便于在不同