python实战之泰坦尼克号获救问题

2023-10-14 13:50

本文主要是介绍python实战之泰坦尼克号获救问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据来源:
Kaggle数据集 →
共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况研究问题:
1、整体来看,存活比例如何?
要求:① 读取已知生存数据train.csv② 查看已知存活数据中,存活比例如何?
提示:① 注意过程中筛选掉缺失值之后再分析② 这里用seaborn制图辅助研究
2、结合性别和年龄数据,分析幸存下来的人是哪些人?
要求:① 年龄数据的分布情况② 男性和女性存活情况③ 老人和小孩存活情况
3、结合 SibSp、Parch字段,研究亲人多少与存活的关系
要求:① 有无兄弟姐妹/父母子女和存活与否的关系② 亲戚多少与存活与否的关系
4、结合票的费用情况,研究票价和存活与否的关系
要求:① 票价分布和存活与否的关系② 比较研究生还者和未生还者的票价情况
5、利用KNN分类模型,对结果进行预测
要求:① 模型训练字段:‘Survived’,‘Pclass’,‘Sex’,‘Age’,‘Fare’,'Family_Size’②模型预测test.csv样本数据的生还率
提示:① 训练数据集中,性别改为数字表示 → 1代表男性,0代表女性

泰坦尼克号获救问题十分经典,比较初级,不过也很有练习价值。在这里我也简单记录一下自己的思路,小小分享,欢迎指正。
拿到问题,先打开数据看一看,了解一下大概情况以及分析目的。
前四问很简单,需要对数据进行描述、评判,最后一问是利用模型进行简单的预测。整体难度不高。

1 导入模块,加载数据

根据题目要求,预测需要的模块,也可以后期用到再加。然后导入数据,查看具体情况。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import timeimport warnings
warnings.filterwarnings('ignore')os.chdir('/Users/eleven/Desktop/python/泰坦尼克号获救问题/')
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

2 查看存活比例

存活只有两个数据值,1和0,可以直接用饼状图来体现,简单直观。

sns.set()
sns.set_style('ticks')
plt.axis('equal')
survive_per = train_data['Survived'].value_counts()
survive_per.plot.pie(autopct = '%.2f%%')

用seaborn制图,设置为正方形的绘图空间,通过value_counts计数,生成pie饼状图
生成的饼状图
得到存活比例为38.38%。

3 分析幸存下来的人群分布

(1)年龄数据的分布情况

简单的看分布情况,可以用直方图和箱型图来表示。

train_data_age = train_data[train_data['Age'].notnull()]
#去除缺失值plt.figure(figsize = (12,6))
plt.subplot(121)
train_data_age['Age'].hist(bins = 70)
plt.xlabel('age')
plt.ylabel('num')
#绘制直方图plt.subplot(122)
train_data.boxplot(column = 'Age',showfliers = False)
#绘制箱型图train_data_age['Age'].describe()
#数据描述

这篇关于python实战之泰坦尼克号获救问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210948

相关文章

Python多重继承慎用的地方

《Python多重继承慎用的地方》多重继承也可能导致一些问题,本文主要介绍了Python多重继承慎用的地方,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录前言多重继承要慎用Mixin模式最后前言在python中,多重继承是一种强大的功能,它允许一个

使用easy connect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题

《使用easyconnect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题》:本文主要介绍使用easyconnect之后,maven无法... 目录使用easGWowCy connect之后,maven无法使用,原来需要配置-DJava.net.pr

python+OpenCV反投影图像的实现示例详解

《python+OpenCV反投影图像的实现示例详解》:本文主要介绍python+OpenCV反投影图像的实现示例详解,本文通过实例代码图文并茂的形式给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前言二、什么是反投影图像三、反投影图像的概念四、反向投影的工作原理一、利用反向投影backproj

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件

Python datetime 模块概述及应用场景

《Pythondatetime模块概述及应用场景》Python的datetime模块是标准库中用于处理日期和时间的核心模块,本文给大家介绍Pythondatetime模块概述及应用场景,感兴趣的朋... 目录一、python datetime 模块概述二、datetime 模块核心类解析三、日期时间格式化与

解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException: org.junit.Test问题

《解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException:org.junit.Test问题》:本文主要介绍解决tomcat启动时报Junit相... 目录tomcat启动时报Junit相关错误Java.lang.ClassNotFoundException

解决Maven项目报错:failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.13.0的问题

《解决Maven项目报错:failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.13.0的问题》这篇文章主要介... 目录Maven项目报错:failed to execute goal org.apache.maven.pl

Java调用Python的四种方法小结

《Java调用Python的四种方法小结》在现代开发中,结合不同编程语言的优势往往能达到事半功倍的效果,本文将详细介绍四种在Java中调用Python的方法,并推荐一种最常用且实用的方法,希望对大家有... 目录一、在Java类中直接执行python语句二、在Java中直接调用Python脚本三、使用Run