R语言实现医疗费用预测(数据科学导引)

2023-10-15 00:30

本文主要是介绍R语言实现医疗费用预测(数据科学导引),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【1】案例背景

保险公司通常需要募集比花费在受益者的医疗服务上更多的年度保费。因此,精确预测医疗费用对保险公司具有重要价值。

【2】方法陈述

观察变量间关系,建立线性回归模型,评估模型性能后进行改进,如添加非线性关系和考虑特征之间的相互影响等,得到改进的回归模型来进行预测。

【3】实验代码

  1. 步骤一

读取数据,查看数据分布

insurance <- read.csv("C:/Users/17909/Desktop/insurance.csv")

#数据分布

s<-summary (as.factor(insurance$region))

as.data.frame(cbind(Number = names(s),Freq = s), row.names = 1:length(s))

summary(insurance)

  1. 步骤二

建立相关系数矩阵,查看变量间关系。

#相关系数矩阵

mydata=insurance[,c(1,3,4,7)]

res=cor(mydata)

round(res,6)

#查看变量间关系

pairs(insurance[c("age", "bmi", "children", "charges")])

  1. 步骤三

建立线性回归模型

#线性回归

ins_model <- lm(charges ~ age + children + bmi + sex + smoker + region, data=insurance)

ins_model

summary(ins_model)

  1. 步骤四

添加非线性关系和特征间相互作用影响,改进模型。

#添加非线性关系

ins_new1_model <- lm(charges ~ .+age^2 , data=insurance)

ins_new1_model

summary(ins_new1_model)

#添加相互作用影响

insurance$bmi30 <- ifelse(insurance$bmi >= 30, 1, 0)

ins_new2_model<-lm(charges~.+age^2+bmi30:smoker,data = insurance)

ins_new2_model

summary(ins_new2_model)

【4】结果分析

由步骤一得数据分布如图1所示,发现数据几乎均匀地分布在4个地理区域中,医疗费用的分布不服从正态分布,需修正线性回归的假设。

图1 数据分布

由步骤二得各变量间的关联性不是强相关,但还是存在一定关联性(如图2所示)。age与charges并非呈现一元线性关系(如图3所示),与步骤一结论相吻合,因此,在做线性预测时,不能做简单的预测。

图2 相关系数矩阵

图3 变量间关系

由步骤三可得线性回归结果如图4所示,R方值仅为0.7494,因此模型需要优化。

图4 简单线性回归模型

由步骤四得添加非线性因素后R方值变化并不明显(如图5所示),为0.7494,而添加肥胖属性后R方值提升到0.8268(如图6所示),因此优化可行。

图5 添加非线性因素后的模型

图6 添加肥胖属性后的模型

这篇关于R语言实现医疗费用预测(数据科学导引)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/214164

相关文章

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

C语言进阶(预处理命令详解)

《C语言进阶(预处理命令详解)》文章讲解了宏定义规范、头文件包含方式及条件编译应用,强调带参宏需加括号避免计算错误,头文件应声明函数原型以便主函数调用,条件编译通过宏定义控制代码编译,适用于测试与模块... 目录1.宏定义1.1不带参宏1.2带参宏2.头文件的包含2.1头文件中的内容2.2工程结构3.条件编

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库