python爬虫: 抓取任意歌手的歌词,简直不要太骚

本文主要是介绍python爬虫: 抓取任意歌手的歌词,简直不要太骚，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

估计大家对歌词的抓取一般是通过抓取网页内容的方式来进行,今天,LZ就教大家一个简单的方法。对大家进行歌词分析来说，又多了一条捷径。

本篇文章是通过请求qq音乐的某一个文件来进行获取的，这个骚操作恐怕还没什么人发现吧，娃哈哈~
看完过后你就会觉得，这简直不要太骚~
在这里插入图片描述
二话不说，先上代码：

#!/usr/bin/python
# -*- coding:utf-8 -*-
import requests
import json
import pymongo
import timedef main(page):print(page)url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'#这里数据只有三个是需要变的，分别是：jsonpCallback，w， searchiddata = {'qqmusic_ver': 1298, 'remoteplace': 'txt.yqq.lyric', 'inCharset': 'utf8', 'sem': 1, 'ct': 24, 'catZhida': 1, 'p': page,'needNewCode': 0, 'platform': 'yqq', 'lossless': 0, 'notice': 0, 'format': 'jsonp', 'outCharset': 'utf-8', 'loginUin': 0,'jsonpCallback': 'MusicJsonCallback19507963135827455','searchid': '98485846416392878','hostUin': 0, 'n': 10, 'g_tk': 5381, 't': 7,'w': '周杰伦', 'aggr': 0}headers = {'content-type': 'application/json','User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'}r = requests.get(url, params = data, headers = headers)time.sleep(3)#截取 第35个字符到最后一个text = r.text[35:-1]# print(text)result = json.loads(text)if result['code'] == 0:for list in result['data']['lyric']['list']:item = {'albumname': list['albumname'],'content': list['content']}mongoInsert(item)# print (list)# print(item)def mongoInsert(item):#进入数据库存储client = pymongo.MongoClient(host='localhost',port=27017)db = client.qqmusic# item为指定集合名collection = db.JayZhoures = collection.insert(item)print(res)print('插入成功')if __name__ == '__main__':
#页数最多为20 ，根据歌手的歌曲多少决定for i in xrange(1, 20):main(i)

代码有了，我们来看看怎么进行操作。
我们打开qq音乐的网址：https://y.qq.com/
然后输入周杰伦, 点击搜索;
再打击歌词那一项，F12打开控制台，打开如下：
在这里插入图片描述

然后你就会发现，这右边的MusicJsonCallback8040753716748157不就是我们需要的吗？
ok，直接复制黏贴进我们的代码。jsonpCallback： MusicJsonCallback8040753716748157，完美！
然后右键这一个文件，选择复制该网址，把data里面的searchid 替换成网址上面的参数searchId，w 替换成你搜索的歌曲名；
最后一步，看看你搜索的歌手有多少页，周杰伦的是有20页， ok，把mian函数改一下，改成从1到20页的数据，全部爬下来；

然后在你保存的代码文件的文件夹下， shift + 右键，在当前文件夹下打开命令行，输入：