获取知网摘要与PDF文件

2024-09-03 12:32
文章标签 pdf 获取 摘要 知网

本文主要是介绍获取知网摘要与PDF文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

进入知网网址:http://www.cnki.net/
搜索知网关键词,例如离在岸人民币
在这里插入图片描述
顺序获取各文章题目和摘要,并优先进行PDF下载,如果没有PDF就进行CAJ下载,信息保存在items列表里。
在这里插入图片描述
下面为实现代码

# -*- coding: utf-8 -*-
"""
Created on Sun May 12 10:28:10 2019@author: Administrator
"""from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
import sys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECclass Item(object):title = None    #更:论文名value = None   #更:数据内容def zhi(keyword='quantile',num=10,show=True,url='http://www.cnki.net/',download=False):#keyword为关键词,num为爬取页数,show为是否可视chrome_options = Options()chrome_options.add_argument('--no-sandbox')#解决DevToolsActivePort文件不存在的报错chrome_options._arguments = ['disable-infobars']#去掉谷歌浏览器正在被自动测试控制字样chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率chrome_options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bugchrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
# =============================================================================
#     #改变下载路径
#     prefs = {"download.default_directory": r'C:\Users\Administrator\Desktop'}
#     chrome_options.add_experimental_option("prefs", prefs)
# =============================================================================##加载用户信息的谷歌浏览器chrome_options.add_argument("--user-data-dir="+r"C:\Users\Administrator\AppData\Local\Google\Chrome\User Data") if not show : chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败driver = webdriver.Chrome(chrome_options=chrome_options)  # 调用带参数的谷歌浏览器  driver.maximize_window() #窗口最大化driver.get(url)print('正在加载界面....')wait = WebDriverWait(driver, 15)     wait.until(EC.presence_of_element_located((By.ID, "txt_SearchText"))).send_keys(keyword)#driver.find_element_by_id("txt_SearchText").send_keys('quantile')driver.find_element_by_xpath("//input[@class='search-btn' and @type='button']").click()#等待搜索结果显示wait.until(EC.presence_of_element_located((By.ID, "CDMD")))driver.switch_to.frame(1)i=0while True:for n in range(2,22):ye = i*20+n-1if ye > num : if download :input('请输入quit,使程序结束')driver.quit()sys.exit()wait.until(EC.presence_of_element_located((By.XPATH,'//tr[{}]//a[@class="fz14"]'.format(n)))).click()  #切换到最新窗口windows=driver.window_handles  #获得当前浏览器所有窗口driver.switch_to.window(windows[-1]) #切换到最新打开窗口(注:也就是全部课程这个窗口)try: title = wait.until(EC.presence_of_element_located((By.XPATH, "//h2[contains(@class,'title')]")))item = Item()if download :try :try : driver.find_element_by_id("pdfDown").click()except :driver.find_element_by_id("cajDown").click()driver.switch_to.window(windows[-1])except :print('警告:第{}页第{}个标题为:{}\n无法下载'.format(i+1,ye,title.text))try : summary = driver.find_element_by_id("ChDivSummary") item.value = summary.textexcept :print('警告:第{}页第{}个标题为:{}\n不存在摘要'.format(i+1,ye,title.text))item.title = title.textitems.append(item)except :   print('第%s个未加载成功'%ye)#time.sleep(3)driver.close()#windows=driver.window_handles  #获得当前浏览器所有窗口driver.switch_to.window(windows[0])driver.switch_to.frame(1)#下一页#driver.switch_to_default_content()wait.until(EC.presence_of_element_located((By.XPATH, '//a[@title="键盘的“← →”可以实现快速翻页"][last()]'))).click()print('提示:第{}页第{}个标题为:{}已收录成功'.format(i+1,ye,title.text))i += 1
if __name__ == '__main__':    #开始计时start=time.perf_counter()items=[]zhi('离在岸人民币',num=1,download=True)#结束计时end=time.perf_counter()total=(end-start)/60#计算结束时间current=time.time()current_time=time.localtime(current)h=current_time[3]h2=current_time[4]if h<10 : h='0'+str(h)if h2<10 : h2='0'+str(h2)print('-----------------程序已运行结束-----------------')print ('注:程序共运行%.2f分钟,结束时间:%s:%s' %(total,h,h2))

这篇关于获取知网摘要与PDF文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1132966

相关文章

Java获取当前时间String类型和Date类型方式

《Java获取当前时间String类型和Date类型方式》:本文主要介绍Java获取当前时间String类型和Date类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录Java获取当前时间String和Date类型String类型和Date类型输出结果总结Java获取

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

SpringBoot集成EasyPoi实现Excel模板导出成PDF文件

《SpringBoot集成EasyPoi实现Excel模板导出成PDF文件》在日常工作中,我们经常需要将数据导出成Excel表格或PDF文件,本文将介绍如何在SpringBoot项目中集成EasyPo... 目录前言摘要简介源代码解析应用场景案例优缺点分析类代码方法介绍测试用例小结前言在日常工作中,我们经

SpringBoot+EasyPOI轻松实现Excel和Word导出PDF

《SpringBoot+EasyPOI轻松实现Excel和Word导出PDF》在企业级开发中,将Excel和Word文档导出为PDF是常见需求,本文将结合​​EasyPOI和​​Aspose系列工具实... 目录一、环境准备与依赖配置1.1 方案选型1.2 依赖配置(商业库方案)二、Excel 导出 PDF

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

MySQL 获取字符串长度及注意事项

《MySQL获取字符串长度及注意事项》本文通过实例代码给大家介绍MySQL获取字符串长度及注意事项,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 获取字符串长度详解 核心长度函数对比⚠️ 六大关键注意事项1. 字符编码决定字节长度2

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O