kaggle入门-泰坦尼克

2023-10-08 05:20
文章标签 入门 kaggle 泰坦尼克

本文主要是介绍kaggle入门-泰坦尼克,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

机器学习流程

初探数据

导入数据:pd.read_csv
观察数据:head()、info()、describe()

数据可视化

画子图plt.subplot2grid((2,3),(1,0))
两行三列中第二行第一列的位置

每列按照unique值统计数量画条形图:df.col_name.values_counts().plot(kind=“bar”)
在这里插入图片描述
在此基础上观察某X于Y之间的联系

df.col_name[df.col_namevalues][df.col_namevalues].value_counts()

在这里插入图片描述
在这里插入图片描述
统计描述
groupby
在这里插入图片描述
统计每个特征值的频数
df.col_name.value_counts()
在这里插入图片描述

数据预处理

缺失值处理:

(1)占比高且且不重要:舍弃
(2)占比低
a. 连续变量 离散化 增加nan类
b. 非连续变量 增加nan类
在这里插入图片描述
(3)其他方法
a. 拟合得到缺失值
b. 平均值代替

例子:随机森林拟合缺失值age

在这里插入图片描述

独热编码

perfix加前缀
dummies_col_name=pd.get_dummies(df[“col_name”],perfix=“col_name”)

在这里插入图片描述

数据归一化

import sklearn.preprocessing as preprocessing
scaler=preprocessing.StandardScaler()
scaler.fit
scaler.fit_transfrom

在这里插入图片描述

模型训练

例子:逻辑回归
linear_model.LogisticRegression
在这里插入图片描述

模型预测

测试集做与训练集一样的操作
缺失值处理 独热编码 归一化
在这里插入图片描述

clf.predict
在这里插入图片描述

模型优化

创建baseline 之后的改进

系数关联分析

在这里插入图片描述

交叉验证:

方便优化调试
在这里插入图片描述

bad case

找出bad case尝试优化
在这里插入图片描述

特征工程

加tricks
离散化
组合变量构造新变量

特征工程之后拟合越来越好,分辨欠拟合以及过拟合

学习曲线

上图:过拟合test以及train之间gap很大
下图:欠拟合
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型融合

bagging:类似于随机森林
多个模型同时做决策,多数法则,有效缓解过拟合

数据集上入手,每次从数据集的subset中训练模型,每个模型都不一样,多数法则做决策,缓解过拟合

在这里插入图片描述

流程总结

在这里插入图片描述

参考 https://blog.csdn.net/han_xiaoyang/article/details/49797143

这篇关于kaggle入门-泰坦尼克的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/162986

相关文章

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al

MySQL-CRUD入门1

文章目录 认识配置文件client节点mysql节点mysqld节点 数据的添加(Create)添加一行数据添加多行数据两种添加数据的效率对比 数据的查询(Retrieve)全列查询指定列查询查询中带有表达式关于字面量关于as重命名 临时表引入distinct去重order by 排序关于NULL 认识配置文件 在我们的MySQL服务安装好了之后, 会有一个配置文件, 也就

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显