首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
万方数据专题
万方数据基于PaddleNLP的文献检索系统实践
又是一年开学季,看着大批莘莘学子步入高校,同时又有大批学生即将面临毕业,这一年要饱受论文的洗礼。在学术论文领域,几乎每一位大学生都避不开论文检索、查重环节。想写出一篇高质量论文,前期大量的信息储备必不可少,而文献检索成为我们获取信息的重要途径。 万方数据知识服务平台以客户需求为导向,整合了数亿条全球优质知识资源,依托强大的数据采集能力,应用先进的信息处理技术和检索技术,为决策主体、科研主体、
阅读更多...
python 爬取万方数据
万方数据是最早的数据平台,针对非计算机专业的用户群体来说,需要经常下载数据。 因此今天你用scrapy框架实现一个万方数据下载的爬虫。只需要简单部署即可使用,下载的数据采用万方统一的规定格式存储。 下面展示爬虫主代码: items.py文件字段定义: 在代码中我尽可能详细的备注了才用xpath获取元素的方式和html结构中可能出现的坑。 若你在学习爬虫,可以参考代码仔细学习下
阅读更多...