Python数据分析之第四章

2024-08-24 09:38

本文主要是介绍Python数据分析之第四章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、网页数据抓取

nameage
Mon22
LIlt223

        

import urllib.request;

from bs4 import BeautifulSoup;

response = urllib.request.urlopen('file:///D:/nodepad/Notepad++/uc.html');

html=response.read();

html

soup=BeautifulSoup(html);

soup

soup.find('tr');

soup.find_all('tr');

2、JSON简述

JSON全程为JavaScript对象表示法(JavaScript Object Notation),是存储和交换文本信息的语法。具有文本量更小、更快,更易解析的特点。

JSON和HTML不一样,HTML主要用于展示数据,JSON主要用于传递数据,所以一般作为数据的查询接口。

{

"employees":[

{"firstName":"Bill","lastName":"Gates"},

{"firstName":"George","lastName":"Bush"},

{"firstName":"Thomas","lastName":"Carter"}

]

}

import json;

import urllib.request;

response = urllib.request.urlopen('file:///C:/Users/zxysnowy/Desktop/json.json')

response

jsonString=response.read();

jsonString

jsonObject=json.loads(jsonString.decode())  #字典

jsonObject['employees']

jsonObject['employees'][0]

jsonObject['employees'][0]['lastName']

3、解析网页

解析HTML函数

BeautifulSoup(html)

find(name,id=id,attrs={})

find_all(name,attrs={})

getText()

参数说明:

html:html格式文档;

name:需要检索的标签名;

attrs:html标签内的属性值,可以用这些属性进行过滤。

解析JSON函数:

json.loads(jsonString)

jsonList[index]

jsonObject['propertyName']

参数说明:

jsonString,JSON的字符串格式数据,如果没有解码,调用decode()即可;

index,JSON序列对象的索引值,从0开始,可以通过len方法获取总长度;

propertyName,JSON对象的属性名,可以通过这个方法访问JSON的属性值。

数据框的递增操作:

data=DataFrame(columns=['Feature','Property'])

data=data.append(Series([f, p], index=['Feature','Property']),ignore_index=True);

参数说明:

columns, 数据框的列;

index,序列对应的序号,通过指定和数据框一样的列名,往数据框内追加数据;

ignore_index,是否忽略原来的序号,一般设置为True,则重新设置序号。

4、案例

import json;

import urllib.request;

from pandas import Series;

from pandas import DataFrame;

from bs4 import BeautifulSoup;

response=urllib.request.urlopen('http://item.jd.com/1185291.html');

html=response.read();

soup=BeautifulSoup(html);

divSoup=soup.find(id="detail");

data=DataFrame(columns=['Feature','Property'])

trs=divSoup.find_all('dl');

for tr in trs:

    tds=tr.find_all('dt');

    dds=tr.find_all('dd');

    for i in range(0,len(tds)):

        f=tds[i].getText();

        p=dds[i].getText();     

    #if len(tds)==5:

     #   f=tds[0].getText();

      #  p=tds[1].getText();

        #q=tds[2].getText();

        #g=tds[3].getText();

        data=data.append(

                Series(

                        [f,p],

                        index=['Feature','Property']

                    ),ignore_index=True

                );

len(data)

#如何获取价格,价格是异步加载的

response=urllib.request.urlopen('http://p.3.cn/prices/get?skuid=J_5712532')

jsonString=response.read();

jsonObject=json.loads(jsonString.decode())

jsonObject[0]['p']

结果:

填写图片摘要(选填)

注意点:

由于html是静态的,而价格是异步加载的,所以,通过Google浏览器,点击审查,输入price,找到对应的id即可。

填写图片摘要(选填)

 

 

 

 

这篇关于Python数据分析之第四章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1102113

相关文章

python进行while遍历的常见错误解析

《python进行while遍历的常见错误解析》在Python中选择合适的遍历方式需要综合考虑可读性、性能和具体需求,本文就来和大家讲解一下python中while遍历常见错误以及所有遍历方法的优缺点... 目录一、超出数组范围问题分析错误复现解决方法关键区别二、continue使用问题分析正确写法关键点三

使用Python实现调用API获取图片存储到本地的方法

《使用Python实现调用API获取图片存储到本地的方法》开发一个自动化工具,用于从JSON数据源中提取图像ID,通过调用指定API获取未经压缩的原始图像文件,并确保下载结果与Postman等工具直接... 目录使用python实现调用API获取图片存储到本地1、项目概述2、核心功能3、环境准备4、代码实现

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

Python模拟串口通信的示例详解

《Python模拟串口通信的示例详解》pySerial是Python中用于操作串口的第三方模块,它支持Windows、Linux、OSX、BSD等多个平台,下面我们就来看看Python如何使用pySe... 目录1.win 下载虚www.chinasem.cn拟串口2、确定串口号3、配置串口4、串口通信示例5

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失

利用Python实现Excel文件智能合并工具

《利用Python实现Excel文件智能合并工具》有时候,我们需要将多个Excel文件按照特定顺序合并成一个文件,这样可以更方便地进行后续的数据处理和分析,下面我们看看如何使用Python实现Exce... 目录运行结果为什么需要这个工具技术实现工具的核心功能代码解析使用示例工具优化与扩展有时候,我们需要将

Python+PyQt5实现文件夹结构映射工具

《Python+PyQt5实现文件夹结构映射工具》在日常工作中,我们经常需要对文件夹结构进行复制和备份,本文将带来一款基于PyQt5开发的文件夹结构映射工具,感兴趣的小伙伴可以跟随小编一起学习一下... 目录概述功能亮点展示效果软件使用步骤代码解析1. 主窗口设计(FolderCopyApp)2. 拖拽路径

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

Python将字符串转换为小写字母的几种常用方法

《Python将字符串转换为小写字母的几种常用方法》:本文主要介绍Python中将字符串大写字母转小写的四种方法:lower()方法简洁高效,手动ASCII转换灵活可控,str.translate... 目录一、使用内置方法 lower()(最简单)二、手动遍历 + ASCII 码转换三、使用 str.tr

Python处理超大规模数据的4大方法详解

《Python处理超大规模数据的4大方法详解》在数据的奇妙世界里,数据量就像滚雪球一样,越变越大,从最初的GB级别的小数据堆,逐渐演变成TB级别的数据大山,所以本文我们就来看看Python处理... 目录1. Mars:数据处理界的 “变形金刚”2. Dask:分布式计算的 “指挥家”3. CuPy:GPU