Python之Scrapy爬虫实战--爬取妹子图

本文主要是介绍Python之Scrapy爬虫实战--爬取妹子图，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、前言

反正闲着也是闲着，不如来学习啊!

2、关键代码

新建项目

不会的同学可参考我的另一篇博文，这里不再赘述：Python之Scrapy爬虫实战–新建scrapy项目

这里只讲一下几个关键点，完整代码在文末。

由于爬取的网站有反爬，一开始没绕过反爬，很快就被封了ip，
然后就在代码里加了些反反爬措施。

设置随机UA

在middlewares.py中自定义Middleware

class RandomUserAgentMiddleware(object):def process_request(self, request, spider):request.headers.setdefault("User-Agent", UserAgent().random)

settings.py

DOWNLOADER_MIDDLEWARES = {'scrapy_test.middlewares.RandomUserAgentMiddleware': 543,
}

设置代理ip

这里大家可参考我的另一篇博文：Python之Scrapy爬虫实战–绕过网站的反爬

使用ImagesPipeline下载图片

pipelines.py

class MzituImgDownloadPipeline(ImagesPipeline):def get_media_requests(self, item, info):default_headers = {'referer': 'https://www.mzitu.com/',}yield Request(item['image_urls'], headers=default_headers, meta={"item_category": item['category'],"item_url": item['image_urls']})def item_completed(self, results, item, info):image_paths = [x['path'] for ok, x in results if ok]if not image_paths:raise DropItem("Item contains no images")return item

然后到settings.py中启用MzituImgDownloadPipeline

ITEM_PIPELINES = {'scrapy_test.pipelines.MzituImgDownloadPipeline': 300,
}

顺便设置下图片存储路径

#下载图片存储位置
IMAGES_STORE = 'F:\\mzitu'

实现快速分类存储图片

关于如何实现分类存储，一开始在网上找了一下，感觉都8太行？
通过阅读源码，发现重写file_path方法就可以快速实现图片的分类存储，这样爬取不同主题下的图片就会存放在不同文件夹了。

pipelines.py

def file_path(self, request, response=None, info=None):category = request.meta['item_category']image_guid = request.meta['item_url'].split('/')[-1]return '%s/%s' % (category, image_guid)