docker分布式部署pyspider爬虫系统

本文主要是介绍docker分布式部署pyspider爬虫系统，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

阅读准备

docker基础命令，docker-compose基础
pyspider基础

如果您不熟悉上面的内容，可以先网上查阅有关资料。

1. 创建网络接口

首先，创建一个Driver为bridge的网络接口，命名为pyspider：
docker network create --driver bridge pyspider

说明1：需要创建该网络接口的原因是：在下面创建Docker容器的过程中，我们使用了docker和docker-compose分别创建了不同的服务。按正常来说，如果都使用docker-compose来创建服务会更好；但是这里有些特殊需求，所有就混合使用docker和docker-compose来创建服务了。
说明2：直接使用docker命令创建容器时，容器的默认网络接口使用的是NAME为bridge的接口；而使用docker-compose时，默认的网络接口使用的不是NAME 为bridge的接口，而是根据docker-compose.yml文件所在目录命名的网络接口。如，我的docker-compose.yml文件在目录Pyspider下，则使用docker-compose时的默认网络接口就是pyspider_default。所以，如果我们使用docker和docker-compose时，默认的情况下它们属于不同的子网，网络不互通，这不是我们想要的。dokcer和docker-compose的网络接口都可以通过参数自定义，从而实现它们的服务的网络互通，所有我们才自己创建一个网络接口。
说明3：
- 可以通过命令docker network ls查看已有的网络接口，如下图：
  
  docker网络接口
- 可以通过docker network inspect bridge命令查看网络接口的详细信息。如NAME为bridge的详细信息如下图：
  
  查看网络接口信息

资料： https://docs.docker.com/engine/userguide/networking/

2. 创建Redis服务

运行命令：docker run --network=pyspider --name redis -d -p 6379:6379 redis 创建Redis服务。

说明1：其中，参数--network=pyspider指定使用pyspider网络接口。我们可以使用docker inspect redis | grep IPA查看该容器的ip地址，如下图：

查看容器ip地址

我们还可以通过docker logs reids查看容器redis的日志输出，来观察redis服务是否正常运行。

3. 创建mysql服务

运行：docker run --network pyspider -p 3306:3306 --name pymysql -v /Users/andy/Pyspider/mysql/conf/my.cnf:/etc/mysql/my.cnf -v /Users/andy/Pyspider/mysql/logs:/logs -v /Users/andy/Pyspider/mysql/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=root123 -d mysql以创建mysql服务。

说明：
- 指定网络接口--network=pyspider
- -p 3306:3306指定端口号
- -v /Users/andy/Pyspider/mysql/conf/my.cnf:/etc/mysql/my.cnf指定mysql配置文件
- -v /Users/andy/Pyspider/mysql/logs:/logs指定日志目录
- -v /Users/andy/Pyspider/mysql/data:/var/lib/mysql指定mysql的数据文件存储目录
- -e MYSQL_ROOT_PASSWORD=root123指定root账户的密码为root123

用docker inspect pymysql | grep IPA查看mysql容器的ip地址。

mysql容器ip地址

4. 创建pyspider的scheduler服务

运行：docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always binux/pyspider --taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb" --resultdb "mysql+projectdb://root:root123@172.20.0.2:3306/resultdb" --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --message-queue "redis://172.20.0.3:6379/0" scheduler --inqueue-limit 10000 --delete-time 3600

参数说明
- --network=pyspider指定网络接口
- -p 23333:23333指定端口
- root:root123@172.20.0.2:3306为mysql服务的ip地址，端口，用户名和密码
- redis://172.20.0.3:6379/0为redis服务的配置。
- 命令运行成功后，可以通过docker logs scheduler查看scheduler服务的运行情况。
查看scheduler的ip地址为：172.20.0.4，方便后边使用。
pyspider分布式部署中，scheduer服务只能创建一个。

5. 使用docker-compose创建pyspider的其它组件

配置文件docker-compose.yml的内容如下：

version: '2'
services:phantomjs:image: 'binux/pyspider:latest'command: phantomjscpu_shares: 256environment:- 'EXCLUDE_PORTS=5000,23333,24444'expose:- '25555' # 暴露端口25555给link到此service的容器mem_limit: 256mrestart: alwaysphantomjs-lb:image: 'dockercloud/haproxy:latest' # 使用haproxy使用负载均衡links:- phantomjsvolumes:- /var/run/docker.sock:/var/run/docker.sock # docker-compose v2版本中haproxy需要指定docker socket(MAC系统中)restart: alwaysfetcher:image: 'binux/pyspider:latest'command: '--message-queue "redis://172.20.0.3:6379/0" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc' # fetcher以rpc的方式启动cpu_shares: 256environment:- 'EXCLUDE_PORTS=5000,25555,23333'links:- 'phantomjs-lb:phantomjs'mem_limit: 256mrestart: alwaysfetcher-lb:image: 'dockercloud/haproxy:latest' # 使用haproxy使用负载均衡links:- fetchervolumes:- /var/run/docker.sock:/var/run/docker.sock # docker-compose v2版本中haproxy需要指定docker socket(MAC系统中)restart: alwaysprocessor:image: 'binux/pyspider:latest'command: '--projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --message-queue "redis://172.20.0.3:6379/0" processor'cpu_shares: 256mem_limit: 256mrestart: alwaysresult-worker:image: 'binux/pyspider:latest'command: '--taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb"  --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --resultdb "mysql+resultdb://root:root123@172.20.0.2:3306/resultdb" --message-queue "redis://172.20.0.3:6379/0" result_worker'cpu_shares: 256mem_limit: 256mrestart: alwayswebui:image: 'binux/pyspider:latest'command: '--taskdb "mysql+taskdb://root:root123@172.20.0.2:3306/taskdb"  --projectdb "mysql+projectdb://root:root123@172.20.0.2:3306/projectdb" --resultdb "mysql+resultdb://root:root123@172.20.0.2:3306/resultdb" --message-queue "redis://172.20.0.3:6379/0" webui --max-rate 0.3 --max-burst 3 --scheduler-rpc "http://172.20.0.4:23333/" --fetcher-rpc "http://fetcher/"'cpu_shares: 256environment:- 'EXCLUDE_PORTS=24444,25555,23333'ports:- '5000:5000' # webui的对外的端口为5000，可以通过http://localhost:5000访问webui服务。links:- 'fetcher-lb:fetcher' # link到其它负载均衡haproxy的服务。mem_limit: 256mrestart: alwaysnetworks:default:external:name: pyspider #指定docker-compose的网络接口为：pyspider；实现和docker run方式创建容器的互通。

webui服务说明
- --fetcher-rpc "http://fetcher/"是以服务名的方式指定webui链接到的fetcher服务，因为fetcher实例可以有很多个，我们如果用ip指定就不能起到负载均衡的目的了。
- --scheduler-rpc "http://172.20.0.4:23333/"是webui直接用ip和port的方式链接到scheduler服务，因为scheduler只有一个。
- command的其它参数可以参考pyspider的文档：http://docs.pyspider.org/en/latest/
haproxy的文档：https://github.com/docker/dockercloud-haproxy
docker-compose的文档：https://docs.docker.com/compose/

docker-compose.yml文件写好后，运行docker-compose up（要在docker-compose.yml所在目录）命令，docker-compose开始创建容器服务，如下图：

docker-compose up

所有组件服务创建完成后，访问：http://localhost:5000，即可看到webui界面。

如果想创建更多的fetcher, result_work, phantomjs容器实例，可以使用：docker-compose scale phantomjs=2 processor=4 result-worker=2。docker-compose会自动帮你创建2个phantomjs服务，4个processor服务，2个result-worker服务；haproxy会自动实现负载均衡，如下图：