数据分析 | Numpy实战(一) - 分析某单车骑行时间

2024-03-02 01:20

本文主要是介绍数据分析 | Numpy实战(一) - 分析某单车骑行时间,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于数据科学的学习,咸鱼也进行了一段时间,但是光学不练是学一点忘一点,所以咸鱼找了一些某共享单车的数据进行一点简单的数据分析。

思路整理

咸鱼也是第一次动手写数据分析相关的代码,所以咸鱼上网找了一张大致的流程图,且以此整理思路,分隔代码。

图 | 源自网络

在企业实际开发中各个步骤的代码不会像咸鱼下面的代码一样各块分隔的那么清楚,肯定是相互交织且复杂的。

实战
分析目的

看标题就知道了,分析各季度共享单车的骑行时间。

数据收集

因为这次的数据源自网络,所以先简单看下数据的结构:

可以看到数据有9个字段:

"Duration (ms)","Start date","End date","Start station number","Start station","End station number","End station","Bike number","Member type"

按照我们的目标,我们只需要第一个字段Duration(ms)

所以第一步先读取已经下载好的数据之后在第二步数据清洗中取出需要的字段:

# 数据收集
def data_collection():data_arr_list = []for data_filename in data_filenames:file = os.path.join(data_path, data_filename)data_arr = np.loadtxt(file,dtype=bytes,delimiter=',', skiprows=1).astype(str)data_arr_list.append(data_arr)return data_arr_list

这里关于numpy的用法,可以参考之前的几篇关于numpy的文章:

Data Science | Numpy基础(一)

Data Science | Numpy基础(二)

Data Science | 福利列表 | Numpy基础(三)

数据清洗

因为数据是整理后导出的数据所以不需要清洗缺失值等操作,我们直接取出需要的字段,做一些处理即可。

这里骑行时间单位为ms,所以需要转化为min需要/1000/60。

# 数据清洗
def data_clean(data_arr_list):duration_min_list = []for data_arr in data_arr_list:data_arr = data_arr[:,0]duration_ms = np.core.defchararray.replace(data_arr,'"','')duration_min = duration_ms.astype('float') / 1000 / 60duration_min_list.append(duration_min)return duration_min_list
数据分析

计算平均值在numpy中提供了计算函数,直接调用即可。

# 数据分析
def mean_data(duration_min_list):duration_mean_list = []for duration_min in duration_min_list:duration_mean = np.mean(duration_min)duration_mean_list.append(duration_mean)return duration_mean_list
结果展示

这里可视化展示使用的是matplotlib.pyplot库,咸鱼目前还没有写相关的入门文章,可以上网看下文档学习下简单使用即可,之后会有系列文章写可视化的内容。

# 数据展示
def show_data(duration_mean_list):plt.figure()name_list = ['第一季度', '第二季度', '第三季度', '第四季度']plt.bar(range(len(duration_mean_list)),duration_mean_list,tick_label = name_list)plt.show()
成果展示

单单从上面的图可以看到以炎热的夏季和凉爽的秋季为主调的二三季度的骑行时间要高于春冬为主调的一四季度,以此判断气温变化对人们使用的共享单车的影响。

一些踩过的坑
关于数据读取(一)

在python中字符串是有字节字符串和文本字符串之分的,我们通常说的字符串是指文本字符串。而使用numpy的loadtxt函数读取的字符串默认是字节字符串,输出的话字符串前面会有个b,形如b’……’。通常是需要转换的,如果不转换将会出现问题。

数据收集部分如果不注意这一点,在数据清洗部分,字段的格式就会因为Duration的值多了一个b转化上就会报错。

处理方式:

numpy.loadtxt读入的字符串总是bytes格式,总是在前面加了一个b
原因:np.loadtxt and np.genfromtxt operate in byte mode, which is the default string type in Python 2. But Python 3 uses unicode, and marks bytestrings with this b. numpy.loadtxt中也声明了:Note that generators should return byte strings for Python 3k.解决:使用numpy.loadtxt从文件读取字符串,最好使用这种方式np.loadtxt(filename, dtype=bytes).astype(str)

作者:Cameron
链接:https://www.zhihu.com/question/28690341/answer/164344688
来源:知乎

关于数据读取上的坑(二)

可以看到咸鱼在读取数据的时候使用的是numpy.loadtxt,这样的操作固然方便,但是代价就是内存直接爆掉,还好这次的数据才500M,所以不推荐大家使用我这个方法,之后会加以改进(如果我会的话

这里分享一段代码,来自慕课网bobby老师的实战课,如何使用生成器读取大文本文件:

#500G, 特殊 一行
def myreadlines(f, newline):buf = ""while True:while newline in buf:pos = buf.index(newline)yield buf[:pos]buf = buf[pos + len(newline):]chunk = f.read(4096)if not chunk:#说明已经读到了文件结尾yield bufbreakbuf += chunkwith open("input.txt") as f:for line in myreadlines(f, "{|}"):print (line)
关于matplotlib.pyplot使用上的坑

在可视化的时候,柱状图的标识是中文,在显示的时候直接显示的是方块,无法显示中文。如下:

错误示范

处理方法:

解决方式一:修改配置文件
(1)找到matplotlibrc文件(搜索一下就可以找到了)
(2)修改:font.serif和font.sans-serif,我的在205,206行
font.serif: SimHei, Bitstream Vera Serif, New Century Schoolbook, Century Schoolbook L, Utopia, ITC Bookman, Bookman, Nimbus Roman No9 L, Times New Roman, Times, Palatino, Charter, serif Bookman, Nimbus Roman No9 L, Times New Roman, Times, Palatino, Charter, serif
font.sans-serif: SimHei, Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif解决方式二:在代码中修改
import matplotlib指定默认字体
matplotlib.rcParams[‘font.sans-serif’] = [‘SimHei’]
matplotlib.rcParams[‘font.family’]=’sans-serif’解决负号’-‘显示为方块的问题
matplotlib.rcParams[‘axes.unicode_minus’] = False
---------------------
来源:CSDN
原文:https://blog.csdn.net/weixin_40283480/article/details/81613008

如果感觉有帮助的话,不妨点个好看?

这篇关于数据分析 | Numpy实战(一) - 分析某单车骑行时间的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_43189702/article/details/103513138
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/764477

相关文章

Java Spring 中的监听器Listener详解与实战教程

《JavaSpring中的监听器Listener详解与实战教程》Spring提供了多种监听器机制,可以用于监听应用生命周期、会话生命周期和请求处理过程中的事件,:本文主要介绍JavaSprin... 目录一、监听器的作用1.1 应用生命周期管理1.2 会话管理1.3 请求处理监控二、创建监听器2.1 Ser

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

MQTT SpringBoot整合实战教程

《MQTTSpringBoot整合实战教程》:本文主要介绍MQTTSpringBoot整合实战教程,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录MQTT-SpringBoot创建简单 SpringBoot 项目导入必须依赖增加MQTT相关配置编写

spring-gateway filters添加自定义过滤器实现流程分析(可插拔)

《spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔)》:本文主要介绍spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔),本文通过实例图... 目录需求背景需求拆解设计流程及作用域逻辑处理代码逻辑需求背景公司要求,通过公司网络代理访问的请求需要做请

Java集成Onlyoffice的示例代码及场景分析

《Java集成Onlyoffice的示例代码及场景分析》:本文主要介绍Java集成Onlyoffice的示例代码及场景分析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 需求场景:实现文档的在线编辑,团队协作总结:两个接口 + 前端页面 + 配置项接口1:一个接口,将o

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明:对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制:实现风险标准化策略实施的技术细节波动率调整的战略价

JavaScript实战:智能密码生成器开发指南

本文通过JavaScript实战开发智能密码生成器,详解如何运用crypto.getRandomValues实现加密级随机密码生成,包含多字符组合、安全强度可视化、易混淆字符排除等企业级功能。学习密码强度检测算法与信息熵计算原理,获取可直接嵌入项目的完整代码,提升Web应用的安全开发能力 目录

Redis迷你版微信抢红包实战

《Redis迷你版微信抢红包实战》本文主要介绍了Redis迷你版微信抢红包实战... 目录1 思路分析1.1hCckRX 流程1.2 注意点①拆红包:二倍均值算法②发红包:list③抢红包&记录:hset2 代码实现2.1 拆红包splitRedPacket2.2 发红包sendRedPacket2.3 抢

IDEA下"File is read-only"可能原因分析及"找不到或无法加载主类"的问题

《IDEA下Fileisread-only可能原因分析及找不到或无法加载主类的问题》:本文主要介绍IDEA下Fileisread-only可能原因分析及找不到或无法加载主类的问题,具有很好的参... 目录1.File is read-only”可能原因2.“找不到或无法加载主类”问题的解决总结1.File