win10如何使用scrapyd部署爬虫

2023-10-09 23:20

本文主要是介绍win10如何使用scrapyd部署爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官方文档:http://scrapyd.readthedocs.io/en/stable/

scrapy爬虫写好后,一般需要用命令行运行。scrapyd部署能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务。优点:在网页端管理爬虫,可以控制多个爬虫任务。

1.安装
pip install scrapyd
pip install scrapyd-client

2.基本使用
2.1 运行scrapyd
在scrapy.cfg中,取消#url = http://localhost:6800/前面的“#” 。

首先切换命令行路径到Scrapy项目的根目录下,
开启scrapyd服务,输入scrapyd,将scrapyd运行起来
在这里插入图片描述

然后新开一个终端切换路径至scrapy工程根目录,发布scrapyd项目,运行命令:
scrapd-deploy -p projectName
验证是否发布成功:
scrapyd-deploy -l

2.2 发布工程到scrapyd
上述命令已经开启服务,并创建了爬虫项目

2.3 创建爬虫任务
命令行输入

curl http://localhost:6800/schedule.json -d project=projectName -d spider=spiderName

  1. 查看爬虫任务
    在网页中输入:http://localhost:6800/
    在这里插入图片描述

4.修改scrapyd的配置
scrapyd默认保留5条日志。
默认绑定地址为127.0.0.1。如果是在服务器部署爬虫需要在其他主机访问则修改地址为0.0.0.0
pip show scrapyd找到scrapyd的位置
在这里插入图片描述
在这里插入图片描述
一些常用命令:
查看状态:

scrapyd-deploy -l

启动爬虫:

curl http://localhost:6800/schedule.json -d project=PROJECT_NAME -d spider=SPIDER_NAME

停止爬虫:

curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID

删除项目:

curl http://localhost:6800/delproject.json -d project=PROJECT_NAME

列出部署过的项目:

curl http://localhost:6800/listprojects.json

列出某个项目内的爬虫:

curl http://localhost:6800/listspiders.json?project=PROJECT_NAME

列出某个项目的job:

curl http://localhost:6800/listjobs.json?project=PROJECT_NAME

1、获取状态
http://127.0.0.1:6800/daemonstatus.json
2、获取项目列表
http://127.0.0.1:6800/listprojects.json
3、获取项目下已发布的爬虫列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、获取项目下已发布的爬虫版本列表

http://127.0.0.1:6800/listversions.json?project=myproject
5、获取爬虫运行状态
http://127.0.0.1:6800/listjobs.json?project=myproject
6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
http://localhost:6800/schedule.json (post方式,data={“project”:myproject,“spider”:myspider})
7、删除某一版本爬虫
http://127.0.0.1:6800/delversion.json (post方式,data={“project”:myproject,“version”:myversion})
8、删除某一工程,包括该工程下的各版本爬虫
http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})

参考文章:https://www.cnblogs.com/zhongtang/p/5634545.html

重启scrapyd的方法

(1)ps aux|grep scrapyd:找到scrapyd的pid

(2) kill -9 pid 或者kill pid

(3)screen -S scrapyd 新建一个进程

(4) 在进程里启动scrapyd

/usr/bin/python /usr/local/bin/scrapyd

(5)ctrl+A+D退出进程

(6)改工程的scrapy.cfg文件,如果url有#号,把url前的#去掉

(7)可以scrapyd-deploy工程了

screen参考:
https://www.ibm.com/developerworks/cn/linux/l-cn-screen/
http://man.linuxde.net/screen

杀死screen会话 screen -X -S pid quit 其中pid为screen进程号
screen -ls 列出现有screen会话列表
screen -r pid 恢复到某个screen会话
Ctrl+a +d 保留会话离开当前窗口

作者:qq_41895190
来源:CSDN
原文:https://blog.csdn.net/qq_41895190/article/details/83011140
版权声明:本文为博主原创文章,转载请附上博文链接!

这篇关于win10如何使用scrapyd部署爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/176274

相关文章

Java中的getBytes()方法使用详解

《Java中的getBytes()方法使用详解》:本文主要介绍Java中getBytes()方法使用的相关资料,getBytes()方法有多个重载形式,可以根据需要指定字符集来进行转换,文中通过代... 目录前言一、常见重载形式二、示例代码三、getBytes(Charset charset)和getByt

Java使用Stream流的Lambda语法进行List转Map的操作方式

《Java使用Stream流的Lambda语法进行List转Map的操作方式》:本文主要介绍Java使用Stream流的Lambda语法进行List转Map的操作方式,具有很好的参考价值,希望对大... 目录背景Stream流的Lambda语法应用实例1、定义要操作的UserDto2、ListChina编程转成M

Spring框架中@Lazy延迟加载原理和使用详解

《Spring框架中@Lazy延迟加载原理和使用详解》:本文主要介绍Spring框架中@Lazy延迟加载原理和使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、@Lazy延迟加载原理1.延迟加载原理1.1 @Lazy三种配置方法1.2 @Component

使用easy connect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题

《使用easyconnect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题》:本文主要介绍使用easyconnect之后,maven无法... 目录使用easGWowCy connect之后,maven无法使用,原来需要配置-DJava.net.pr

使用Java编写一个字符脱敏工具类

《使用Java编写一个字符脱敏工具类》这篇文章主要为大家详细介绍了如何使用Java编写一个字符脱敏工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、字符脱敏工具类2、测试工具类3、测试结果1、字符脱敏工具类import lombok.extern.slf4j.Slf4j

pandas DataFrame keys的使用小结

《pandasDataFramekeys的使用小结》pandas.DataFrame.keys()方法返回DataFrame的列名,类似于字典的键,本文主要介绍了pandasDataFrameke... 目录Pandas2.2 DataFrameIndexing, iterationpandas.DataF

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

嵌入式Linux之使用设备树驱动GPIO的实现方式

《嵌入式Linux之使用设备树驱动GPIO的实现方式》:本文主要介绍嵌入式Linux之使用设备树驱动GPIO的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、设备树配置1.1 添加 pinctrl 节点1.2 添加 LED 设备节点二、编写驱动程序2.1

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

Python中Flask模板的使用与高级技巧详解

《Python中Flask模板的使用与高级技巧详解》在Web开发中,直接将HTML代码写在Python文件中会导致诸多问题,Flask内置了Jinja2模板引擎,完美解决了这些问题,下面我们就来看看F... 目录一、模板渲染基础1.1 为什么需要模板引擎1.2 第一个模板渲染示例1.3 模板渲染原理二、模板