去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。

本文主要是介绍去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

     去年还是前年吧,那时候共享单车首先出来的好像是红色的吧,是摩拜吧,如果我没记错的话,自从摩拜火了之后,后续又出现了很多颜色的共享单车,简直密密麻麻的,我还记得不知道是哪个公司的,我的99押金都没退出来,那家公司就没了,押金也就没了。但是发展到现在的话好像就一个小溜共享电动车和支付宝的哈罗还存在吧,其他的基本没见过了。今天咱们来好好的分析一下!

                          

对了,还有一件尤为重要的事情,在这里和大家讲一下,恭喜EDG痛失亚军,喜提冠军,又为咱们LPL拿下一个冠军,到现在也是咱们中国的第三个冠军吧,EDG牛*

     ​​​

数据集简介

关于共享单车数据集

自行车共享系统是传统自行车租赁的新一代,从注册会员、租赁到归还的整个过程都是自动化的。通过这些系统,用户可以很容易地从一个特定的位置租用自行车,并在另一个位置归还。目前,全球大约有500多个共享单车项目,这些项目由50多万辆自行车组成。今天,由于它们在交通、环境和健康问题上的重要作用,人们对这些系统产生了极大的兴趣。

除了自行车共享系统在现实世界的有趣应用之外,众多研究者们对这些系统所产生的数据产生浓厚的兴趣。与其他运输服务(如公共汽车或地铁)不同,共享自行车使用的持续时间、出发时间和到达位置都明确地记录在系统中。这一功能将自行车共享系统变成了一个虚拟传感器网络,可用于感知城市中的流动性。因此,通过监测这些数据,预计可以检测到城市中的大多数重要事件。

今天我们就运用这些数据集,挖掘出蕴含在其中的有效的信息。接下来从探索数据属性,清洗数据,到模型开发,一起来学习,共同进步。

注意,该数据集是国外共享单车数据集,并非国内的共享单车数据集。但不影响我们学习数据挖掘相关知识和技术。数据集获取可以关注公众号:Python源码   回复EDG牛逼  获取

属性信息

hour.csv和 day.csv都有以下字段,day.csv中没有 hr 字段

  • instant:记录索引

  • dteday :日期

  • season :季节 (1:春天, 2:夏天, 3:秋天, 4:冬天)

  • yr :年份 (0:2011, 1:2012)

  • mnth:月份 ( 1 to 12)

  • hr:小时 (0 to 23)

  • holiday :是否是假期

  • weekday :星期几

  • workingday :工作日,如果日既不是周末也不是假日,则为1,否则为0。

  • weathersit

    • 1:晴,少云,部分云,无云

    • 2:薄雾+多云,薄雾+碎云,薄雾+少量云,薄雾

    • 3:小雪,小雨+雷暴+散云,小雨+散云

    • 4:大雨+冰板+雷暴+雾,雪+雾

  • temp:标准化温度数据,单位为摄氏度。这些值是通过(t-t_min)/(t_max-t_min, t_min=-8, t_max=+39(仅在小时范围内)得到的

  • atemp:以摄氏度为单位的正常体感温度。这些值是通过(t-t_min)/(t_max-t_min), t_min=-16, t_max=+50(仅在小时范围内)得到的

  • hum:标准化湿度。这些值被分割到100(最大值)

  • windspeed:归一化的风速数据。这些值被分割到 67 (最大值)

  • casual:注销用户数量

  • registered:已注册用户数量

  • cnt:出租自行车总数,包括注销和注册自行车

前期准备

导入模块

import seaborn as sns
import matplotlib.pyplot as plt
from prettytable import PrettyTable
import numpy as np  
import pandas as pd  
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_squared_log_error
from sklearn.linear_model import Lasso, ElasticNet, Ridge, SGDRegressor
from sklearn.svm import SVR, NuSVR
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LinearRegression
import random
%matplotlib inlinerandom.seed(100)

定义数据获取函数

class Dataloader():'''自行车共享数据集数据加载器。'''def __init__(self, csv_path):''' 初始化自行车共享数据集数据加载器。param: csv_path {str} -- 自行车共享数据集CSV文件的路径。'''self.csv_path = csv_pathself.data = pd.read_csv(self.csv_path)# Shuffleself.data.sample(frac=1.0, replace=True, random_state=1)def getHeader(self):''' 获取共享单车CSV文件的列名。return: [list of str]--CSV文件的列名'''return list(self.data.columns.values)def getData(self):'''   划分训练、验证和测试集返回: pandas DataFrames-- 划分后的不同数据集pandas DataFrames'''# 将数据按60:20:20的比例划分为训练、验证和测试集split_train = int(60 / 100 * len(self.data)) split_val = int(80 / 100 * len(self.data)) train = self.data[:split_train]val = self.data[split_train:split_val]test = self.data[split_val:]return train, val,  testdef getFullData(self):''' 在一个DataFrames中获取所有数据。return: pandas DataFrames-- 完整的共享数据集数据'''return self.data

描述性分析

划分训练、验证和测试数据集

dataloader = Dataloader('../data/bike/hour.csv')
train, val, test = dataloader.getData()
fullData = dataloader.getFullData()category_features = ['season', 'holiday', 'mnth', 'hr',   'weekday', 'workingday', 'weathersit']
number_features = ['temp', 'atemp', 'hum', 'windspeed']features= category_features + number_features
target = ['cnt']

features
['season', 'holiday', 'mnth', 'hr', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed']

获取DataFrame的列名:

print(list(fullData.columns))
['instant', 'dteday', 'season', 'yr', 'mnth','hr', 'holiday', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']

打印数据集的前五个示例来探索数据:

fullData.head(5)

​​获取每列的数据统计信息:

fullData[number_features].describe()

​​

for col in category_features:fullData[col] = fullData[col].astype('category')
fullData[category_features].describe()

​​

缺失值分析

检查数据中的NULL值:

print(fullData.isnull().any())

instant       False
dteday        False
season        False
yr            False
mnth          False
hr            False
holiday       False
weekday       False
workingday    False
weathersit    False
temp          False
atemp         False
hum           False
windspeed     False
casual        False
registered    False
cnt           False
dtype:bool

异常值分析

箱形图

sns.set(font_scale=1.0)
fig, axes = plt.subplots(nrows=3,ncols=2)
fig.set_size_inches(15, 15)
sns.boxplot(data=train,y="cnt",orient="v",ax=axes[0][0])
sns.boxplot(data=train,y="cnt",x="mnth",orient="v",ax=axes[0][1])
sns.boxplot(data=train,y="cnt",x="weathersit",orient="v",ax=axes[1][0])
sns.boxplot(data=train,y="cnt",x="workingday",orient="v",ax=axes[1][1])
sns.boxplot(data=train,y="cnt",x="hr",orient="v",ax=axes[2][0])
sns.boxplot(data=train,y="cnt",x="temp",orient="v",ax=axes[2][1])axes[0][0].set(ylabel='Count',title="Box Plot On Count")
axes[0][1].set(xlabel='Month', ylabel='Count',title="Box Plot On Count Across Months")
axes[1][0].set(xlabel='Weather Situation', ylabel='Count',title="Box Plot On Count Across Weather Situations")
axes[1][1].set(xlabel='Working Day', ylabel='Count',title="Box Plot On Count Across Working Day")
axes[2][0].set(xlabel='Hour Of The Day', ylabel='Count',title="Box Plot On Count Across Hour Of The Day")
axes[2][1].set(xlabel='Temperature', ylabel='Count',title="Box Plot On Count Across Temperature")for tick in axes[2][1].get_xticklabels():tick.set_rotation(90)

​​

解析: 工作日和节假日箱形图表明,正常工作日出租的自行车比周末或节假日多。每小时的箱形图显示当地早上8点最大,下午5点最大,这表明大多数自行车租赁服务的用户使用自行车上班或上学。另一个重要因素似乎是温度:较高的温度导致自行车租赁数量增加,而较低的温度不仅降低了平均租赁数量,而且在数据中显示出更多的异常值。

从数据中去除异常值

sns.distplot(train[target[-1]]);

​​

计数值的分布图显示,计数值不符合正态分布。我们将使用中位数和四分位区间(IQR)来识别和去除数据中的异常值。(另一种方法是将目标值转换为正态分布,并使用平均值和标准偏差。)

print("带有异常值的列车集合中的样本: {}".format(len(train)))
q1 = train.cnt.quantile(0.25)
q3 = train.cnt.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 -(1.5 * iqr) 
upper_bound = q3 +(1.5 * iqr) 
train_preprocessed = train.loc[(train.cnt >= lower_bound) & (train.cnt <= upper_bound)]
print("没有异常值的训练样本集: {}".format(len(train_preprocessed)))
sns.distplot(train_preprocessed.cnt);

带有异常值的列车集合中的样本:10427
没有异常值的训练样本集:10151​​​

相关分析

matrix = train[number_features + target].corr()
heat = np.array(matrix)
heat[np.tril_indices_from(heat)] = False
fig,ax= plt.subplots()
fig.set_size_inches(15,8)
sns.set(font_scale=1.0)
sns.heatmap(matrix, mask=heat,vmax=1.0, vmin=0.0, square=True,annot=True, cmap="Reds")

​​

结论: 在描述性分析总结如下几点:

  • 变量"Casual"和"registered"包含关于共享自行车计数直接信息,而如果将这些信息用于预测(数据泄漏)。因此,它们不在特征集中考虑。

  • 变量"temp"和"atemp"是高度相关的。为了降低预测模型的维数,可以删除特征"atemp"。

  • 变量"hr"和"temp"似乎是预测自行车共享数量的贡献较大的特征。

features.remove('atemp')

评价指标概述

Mean Squared Error (MSE)

​​

Root Mean Squared Logarithmic Error (RMSLE)

​​

R^2 Score

​​

模型选择

所呈现的问题的特点是:

  • 回归:目标变量是一个连续型数值。

  • 数据集小:小于100K的样本量。

  • 少数特征应该是重要的:相关矩阵表明少数特征包含预测目标变量的信息。

这些特点给予了岭回归、支持向量回归、集成回归、随机森林回归等方法大展身手的好机会。记住,关注公众号:Python源码   回复EDG牛逼  领取完整代码和数据集哦!

这篇关于去年火热的共享单车为何有的爆火,有的直接倒闭呢?Python挖掘一下他们的数据。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/423633

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright