从文本文件中读取博客数据并将其提取到文件中

2024-06-11 15:12

本文主要是介绍从文本文件中读取博客数据并将其提取到文件中,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通常情况下我们可以使用 Python 中的文件操作来实现这个任务。下面是一个简单的示例,演示了如何从一个文本文件中读取博客数据,并将其提取到另一个文件中。

假设你的博客数据文件(例如 blog_data.txt)的格式

在这里插入图片描述

1、问题背景

我们需要从包含博客列表的文本文件中读取指定数量的博客(n)。然后提取博客数据并将其添加到文件中。这是应用nlp到数据的整个作业的一部分。

以下是我们已经完成的工作:

import urllib2
from bs4 import BeautifulSoupdef create_data(n):blogs=open("blog.txt","r") #opening the file containing list of blogsf=file("data.txt","wt") #Create a file data.txtwith open("blog.txt")as blogs:head = [blogs.next() for x in xrange(n)]page = urllib2.urlopen(head['href'])​    soup = BeautifulSoup(page)
​    link = soup.find('link', type='application/rss+xml')print link['href']​    rss = urllib2.urlopen(link['href']).read()
​    souprss = BeautifulSoup(rss)
​    description_tag = souprss.find('description')​    f = open("data.txt","a") #data file created for applying nlp
​    f.write(description_tag)

但是,这段代码不起作用。它只能在直接给出链接时工作,例如:

page = urllib2.urlopen("http://www.frugalrules.com")

我们从另一个脚本调用这个函数,用户在其中给出输入n。出错的原因是什么?

Traceback:

    Traceback (most recent call last):File "C:/beautifulsoup4-4.3.2/main.py", line 4, in <module>create_data(2)#calls create_data(n) function from create_dataFile "C:/beautifulsoup4-4.3.2\create_data.py", line 14, in create_datapage=urllib2.urlopen(head)File "C:\Python27\lib\urllib2.py", line 127, in urlopenreturn _opener.open(url, data, timeout)File "C:\Python27\lib\urllib2.py", line 395, in openreq.timeout = timeout
AttributeError: 'list' object has no attribute 'timeout'

2、解决方案

head是一个列表:

head = [blogs.next() for x in xrange(n)]

列表由整数索引(或切片)索引。当head是一个列表时,不能使用head[‘href’]:

page = urllib2.urlopen(head['href'])

我们很难确切地说如何修复这个问题,因为不知道blog.txt的内容。如果blog.txt的每一行都包含一个URL,那么可以使用:

with open("blog.txt") as blogs:for url in list(blogs)[:n]:page = urllib2.urlopen(url)soup = BeautifulSoup(page.read())...with open('data.txt', 'a') as f:f.write(...)

请注意,file是open的弃用形式(它在Python3中被删除)。不要使用f=file(“data.txt”,“wt”),而是使用更现代的with-statement语法(如上所示)。

例如:

import urllib2
import bs4 as bsdef create_data(n):with open("data.txt", "wt") as f:passwith open("blog.txt") as blogs:for url in list(blogs)[:n]:page = urllib2.urlopen(url)soup = bs.BeautifulSoup(page.read())link = soup.find('link', type='application/rss+xml')print(link['href'])rss = urllib2.urlopen(link['href']).read()souprss = bs.BeautifulSoup(rss)description_tag = souprss.find('description')with open('data.txt', 'a') as f:f.write('{}\n'.format(description_tag))create_data(2)

我们假设你在循环中打开、写入和关闭data.txt,因为你想保存部分结果——也许是为了防止程序被迫过早终止。否则,只需在最开始打开一次文件会更简单:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

这个脚本会读取 blog_data.txt 文件中的数据,提取每个博客数据块的标题、作者、日期和正文内容,然后将这些数据写入到 extracted_blog_data.txt 文件中。

大家可以根据实际情况修改输入文件和输出文件的文件名,以及文件路径。

这篇关于从文本文件中读取博客数据并将其提取到文件中的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1051525

相关文章

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

MySQL 数据库表操作完全指南:创建、读取、更新与删除实战

《MySQL数据库表操作完全指南:创建、读取、更新与删除实战》本文系统讲解MySQL表的增删查改(CURD)操作,涵盖创建、更新、查询、删除及插入查询结果,也是贯穿各类项目开发全流程的基础数据交互原... 目录mysql系列前言一、Create(创建)并插入数据1.1 单行数据 + 全列插入1.2 多行数据

Python 字符串裁切与提取全面且实用的解决方案

《Python字符串裁切与提取全面且实用的解决方案》本文梳理了Python字符串处理方法,涵盖基础切片、split/partition分割、正则匹配及结构化数据解析(如BeautifulSoup、j... 目录python 字符串裁切与提取的完整指南 基础切片方法1. 使用切片操作符[start:end]2

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

使用Python提取PDF大纲(书签)的完整指南

《使用Python提取PDF大纲(书签)的完整指南》PDF大纲(Outline)​​是PDF文档中的导航结构,通常显示在阅读器的侧边栏中,方便用户快速跳转到文档的不同部分,大纲通常以层级结构组织,包含... 目录一、PDF大纲简介二、准备工作所需工具常见安装问题三、代码实现完整代码核心功能解析四、使用效果控

MySQL数据脱敏的实现方法

《MySQL数据脱敏的实现方法》本文主要介绍了MySQL数据脱敏的实现方法,包括字符替换、加密等方法,通过工具类和数据库服务整合,确保敏感信息在查询结果中被掩码处理,感兴趣的可以了解一下... 目录一. 数据脱敏的方法二. 字符替换脱敏1. 创建数据脱敏工具类三. 整合到数据库操作1. 创建服务类进行数据库

MySQL中处理数据的并发一致性的实现示例

《MySQL中处理数据的并发一致性的实现示例》在MySQL中处理数据的并发一致性是确保多个用户或应用程序同时访问和修改数据库时,不会导致数据冲突、数据丢失或数据不一致,MySQL通过事务和锁机制来管理... 目录一、事务(Transactions)1. 事务控制语句二、锁(Locks)1. 锁类型2. 锁粒

Linux从文件中提取特定内容的实用技巧分享

《Linux从文件中提取特定内容的实用技巧分享》在日常数据处理和配置文件管理中,我们经常需要从大型文件中提取特定内容,本文介绍的提取特定行技术正是这些高级操作的基础,以提取含有1的简单需求为例,我们可... 目录引言1、方法一:使用 grep 命令1.1 grep 命令基础1.2 命令详解1.3 高级用法2

Qt中实现多线程导出数据功能的四种方式小结

《Qt中实现多线程导出数据功能的四种方式小结》在以往的项目开发中,在很多地方用到了多线程,本文将记录下在Qt开发中用到的多线程技术实现方法,以导出指定范围的数字到txt文件为例,展示多线程不同的实现方... 目录前言导出文件的示例工具类QThreadQObject的moveToThread方法实现多线程QC

SpringBoot集成EasyExcel实现百万级别的数据导入导出实践指南

《SpringBoot集成EasyExcel实现百万级别的数据导入导出实践指南》本文将基于开源项目springboot-easyexcel-batch进行解析与扩展,手把手教大家如何在SpringBo... 目录项目结构概览核心依赖百万级导出实战场景核心代码效果百万级导入实战场景监听器和Service(核心