用python爬虫自动获取某网站吉他谱并保存文件

2023-11-21 04:59

本文主要是介绍用python爬虫自动获取某网站吉他谱并保存文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        近日博主刚刚入门爬虫并且在不断学习基础知识,昨日下午室友问我能否爬出学校教务网的考试时间等信息做一个整合,博主进入教务网的主页后发现教务网全都是用js写的还有双层嵌套的网页,顿时感到无从下手,实在是学艺不精。于是弹起吉他开始摆烂,网上找谱的时候偶尔浏览到了一些页面结构比较简单的曲谱网站,于是尝试着写了一个能够自动保存吉他谱的爬虫。

        简单的实现思路就是我们进入易唱网获取一首歌曲的信息

      

 我们可以在源代码中找出标题和未经加密的曲谱图片的地址,然后爬取下载。

 在右边琴友正在浏览的吉他谱一栏中我们每次点击进入都会发现,每首歌下会有不同的超链接出现。

 那么我们就可以通过一首歌跳转到另一首歌的界面实现无限爬取,这里可以做一个递归,不过我没有去实现(爬取的数据量太大会被封ip,另外一个兴趣网站也请大家使用爬虫时不要一次几千条的爬把别人网站搞崩了

 功能如下:

在url里输入某一首歌的url链接

就可以实现爬取侧面栏目十几首歌的曲谱的效果

 

 

 

import requests
from pyquery import PyQuery as py
import os
import time
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50"
}
url = 'http://www.echangwang.com/pic/01/618.html'
def geturl(url):response = requests.get(url, headers=headers).content.decode('gbk')return response
def makeurl(response):urldata = []content=py(response)moreurl=content('#m-djph li ')for item in moreurl.items():urldata.append(item('a').attr('href'))return urldata
def get_pic(urldata):picdata=[]for url in urldata:data={}content=py(geturl(url))title = content('.hd h1').text().replace(' ', '_').replace('/','')imgurl=content('#main-article .content img')imglink=[]for item in imgurl.items():link=item.attr('src')if link[0:6]=="http:":passelse:link='http://www.echangwang.com'+linkimglink.append(link)data['imglink']=imglinkdata['name']=titlepicdata.append(data)return picdatadef save_pic(picdata):for item in picdata:path="D:\\pythonProject1"+'\\'+f"{item['name']}"mkdir(path)i=0for link in item['imglink']:i+=1with open(f'./{item["name"]}/{item["name"]+str(i)}{link[-4:]}','wb') as f:img=requests.get(link,headers=headers).contentf.write(img)print("正在保存"+item['name'])time.sleep(1)print("保存成功")passdef mkdir(path):folder = os.path.exists(path)if not folder:  # 判断是否存在文件夹如果不存在则创建为文件夹os.makedirs(path)  # makedirs 创建文件时如果路径不存在会创建这个路径print"---  new folder...  ---"print"---  OK  ---"else:print"---  There is this folder!  ---"if __name__ == '__main__':urldata=makeurl(geturl(url))save_pic(get_pic(urldata))

 注意修改当前py文件所在路径为path

 

 

 

这篇关于用python爬虫自动获取某网站吉他谱并保存文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399975

相关文章

使用Python实现实时金价监控并自动提醒功能

《使用Python实现实时金价监控并自动提醒功能》在日常投资中,很多朋友喜欢在一些平台买点黄金,低买高卖赚点小差价,但黄金价格实时波动频繁,总是盯着手机太累了,于是我用Python写了一个实时金价监控... 目录工具能干啥?手把手教你用1、先装好这些"食材"2、代码实现讲解1. 用户输入参数2. 设置无头浏

一文教你如何解决Python开发总是import出错的问题

《一文教你如何解决Python开发总是import出错的问题》经常朋友碰到Python开发的过程中import包报错的问题,所以本文将和大家介绍一下可编辑安装(EditableInstall)模式,可... 目录摘要1. 可编辑安装(Editable Install)模式到底在解决什么问题?2. 原理3.

Python+wxPython构建图像编辑器

《Python+wxPython构建图像编辑器》图像编辑应用是学习GUI编程和图像处理的绝佳项目,本教程中,我们将使用wxPython,一个跨平台的PythonGUI工具包,构建一个简单的... 目录引言环境设置创建主窗口加载和显示图像实现绘制工具矩形绘制箭头绘制文字绘制临时绘制处理缩放和旋转缩放旋转保存编

Python 异步编程 asyncio简介及基本用法

《Python异步编程asyncio简介及基本用法》asyncio是Python的一个库,用于编写并发代码,使用协程、任务和Futures来处理I/O密集型和高延迟操作,本文给大家介绍Python... 目录1、asyncio是什么IO密集型任务特征2、怎么用1、基本用法2、关键字 async1、async

Python实现剪贴板历史管理器

《Python实现剪贴板历史管理器》在日常工作和编程中,剪贴板是我们使用最频繁的功能之一,本文将介绍如何使用Python和PyQt5开发一个功能强大的剪贴板历史管理器,感兴趣的可以了解下... 目录一、概述:为什么需要剪贴板历史管理二、功能特性全解析2.1 核心功能2.2 增强功能三、效果展示3.1 主界面

Python与Java交互出现乱码的问题解决

《Python与Java交互出现乱码的问题解决》在现代软件开发中,跨语言系统的集成已经成为日常工作的一部分,特别是当Python和Java之间进行交互时,编码问题往往会成为导致数据传输错误、乱码以及难... 目录背景:为什么会出现乱码问题产生的场景解决方案:确保统一的UTF-8编码完整代码示例总结在现代软件

Python+Tkinter实现Windows Hosts文件编辑管理工具

《Python+Tkinter实现WindowsHosts文件编辑管理工具》在日常开发和网络调试或科学上网场景中,Hosts文件修改是每个开发者都绕不开的必修课,本文将完整解析一个基于Python... 目录一、前言:为什么我们需要专业的Hosts管理工具二、工具核心功能全景图2.1 基础功能模块2.2 进

Python多重继承慎用的地方

《Python多重继承慎用的地方》多重继承也可能导致一些问题,本文主要介绍了Python多重继承慎用的地方,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录前言多重继承要慎用Mixin模式最后前言在python中,多重继承是一种强大的功能,它允许一个

python+OpenCV反投影图像的实现示例详解

《python+OpenCV反投影图像的实现示例详解》:本文主要介绍python+OpenCV反投影图像的实现示例详解,本文通过实例代码图文并茂的形式给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前言二、什么是反投影图像三、反投影图像的概念四、反向投影的工作原理一、利用反向投影backproj

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的