一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件

本文主要是介绍一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://blog.csdn.net/lcz200/article/details/80813988

动机

    计算机视觉领域会议近年来论文接收数量暴增,论文多得看不过来。偶尔想起来,会兴致勃勃去下载个几篇看看。但每次看都要去官网下载,挺麻烦的。为何不直接把论文全部爬下来,有空时直接翻出来看?这篇博客要干的就是这个事情。

说明

    以防万一有同学看到最后发现该博客解决不了自己问题,这里先说明一下,以下的所有操作都是在ubuntu下进行的,windows下不能直接用,但是可以参考一下。

具体操作

    1. 写脚本,爬论文。

说到写爬论文脚本,有些同学可能会觉得有点麻烦。其实爬某个网页下的指定格式的文件并不麻烦。比如cvpr 2018年的论文所在网站为http://openaccess.thecvf.com/CVPR2018.py,这个爬论文的脚本只需一行代码:

wget --level=1 --recursive --no-parent --accept pdf,PDF http://openaccess.thecvf.com/CVPR2018.py

 直接将这行代码贴在终端中运行或者将这行代码写在一个.sh脚本中运行都可以。运行完后会在当前目录下生成一个目录"openaccess.thecvf.com",cd进去看会发现所有的论文都在“openaccess.thecvf.com/content_cvpr_2018/papers ”目录中了,相关的补充材料也会被一并爬下来,保存在“openaccess.thecvf.com/content_cvpr_2018/Supplemental ”目录下。执行ls命令会看到所有的论文都下载好了。
 

 但是有个问题很烦人,就是pdf文件的名字并不是我们想要的论文标题。难道我们每次想看论文时都得打开一个pdf来看这篇文章是干嘛的吗?更好的方式当然是直接从pdf文件名就能看出论文大概讲的是什么东西(比如做detection的文章大多题目都会有detection这个字眼),这样我们可以随心所欲地选择自己想看的主题相关的论文。
 

2. 提取论文标题,用它重命名pdf文件

    由于要获取pdf标题,这边需要先装一下叫PyPDF2的东西,安装方法很简单:

sudo pip install PyPDF2

 

安装完后,将下面的代码负责到rename_pdf_using_title.py文件中,运行即可: 

  import osfrom PyPDF2 import PdfFileWriter, PdfFileReaderfrom shutil import copy2src_dir = '/home/XXX/download/cvpr2018_papers/openaccess.thecvf.com/content_cvpr_2018/papers'des_dir = '/home/XXX/download/cvpr2018_papers/openaccess.thecvf.com/content_cvpr_2018/papers_new'if not os.path.exists(des_dir):os.makedirs(des_dir)if os.path.exists(src_dir):dirs = os.listdir(src_dir)for dirc in dirs:pdf_reader = PdfFileReader(open(os.path.join(src_dir, dirc), 'rb'))titlec = pdf_reader.getDocumentInfo().titleif titlec.find('/')!=-1: #文件名中的斜杠'/'会和目录标识符冲突,因此将其转为'-'print(titlec)titlec2 = titlec.replace('/','-')print(titlec2)titlec = titlec2copy2(os.path.join(src_dir, dirc), os.path.join(des_dir, titlec) + '.pdf')else:print("Dir does not exist!")

运行完后到des_dir下ls一下,可以看到所有的pdf文件都命名好了:

 

  希望对喜欢屯paper的同学有点帮助。 

 

这篇关于一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/634095

相关文章

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

前端下载文件时如何后端返回的文件流一些常见方法

《前端下载文件时如何后端返回的文件流一些常见方法》:本文主要介绍前端下载文件时如何后端返回的文件流一些常见方法,包括使用Blob和URL.createObjectURL创建下载链接,以及处理带有C... 目录1. 使用 Blob 和 URL.createObjectURL 创建下载链接例子:使用 Blob

Android实现打开本地pdf文件的两种方式

《Android实现打开本地pdf文件的两种方式》在现代应用中,PDF格式因其跨平台、稳定性好、展示内容一致等特点,在Android平台上,如何高效地打开本地PDF文件,不仅关系到用户体验,也直接影响... 目录一、项目概述二、相关知识2.1 PDF文件基本概述2.2 android 文件访问与存储权限2.

MySQL中动态生成SQL语句去掉所有字段的空格的操作方法

《MySQL中动态生成SQL语句去掉所有字段的空格的操作方法》在数据库管理过程中,我们常常会遇到需要对表中字段进行清洗和整理的情况,本文将详细介绍如何在MySQL中动态生成SQL语句来去掉所有字段的空... 目录在mysql中动态生成SQL语句去掉所有字段的空格准备工作原理分析动态生成SQL语句在MySQL

详解如何通过Python批量转换图片为PDF

《详解如何通过Python批量转换图片为PDF》:本文主要介绍如何基于Python+Tkinter开发的图片批量转PDF工具,可以支持批量添加图片,拖拽等操作,感兴趣的小伙伴可以参考一下... 目录1. 概述2. 功能亮点2.1 主要功能2.2 界面设计3. 使用指南3.1 运行环境3.2 使用步骤4. 核

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("