关于数据cutoff值确定多种方法(自备)

2024-03-24 13:44

本文主要是介绍关于数据cutoff值确定多种方法(自备),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

方法①survminer 包

方法②ROC曲线绘制的最佳cutoff

其他

方法①survminer 包

使用从“maxstat”R软件包中最大限度选择的等级统计数据,一次确定一个或多个连续变量的最佳分界点。这是一种以结果为导向的方法,提供了与结果(此处为存活率)关系最密切的分界点值。 surv_cutpoint():使用“maxstat”确定每个变量的最佳切割点。

surv _ categorize():根据surv_cutpoint()返回的切割点划分每个变量值。

示例数据分析

##采用包自带的示例数据##
rm(list = ls())
library(survival)
library(survminer)
data(myeloma)
head(myeloma)?surv_cutpoint#查看函数
res.cut <- surv_cutpoint(myeloma, time = "time", #生存时间event = "event", #生存结局variables = c("DEPDC1", "WHSC1", "CRIM1"))
summary(res.cut) #查看数据最佳截断点及统计量
#cutpoint statistic
#DEPDC1    279.8  4.275452
#WHSC1    3205.6  3.361330
#CRIM1      82.3  1.968317#数据分布
plot(res.cut, "DEPDC1", palette = "npg")

# 3. Categorize variables:这里根据cutoff值分为高低分组
res.cat <- surv_categorize(res.cut)
#head(res.cat)
#生存曲线绘制#
fit <- survfit(Surv(time, event) ~DEPDC1, data = res.cat)#拟合生存分析

#绘制生存曲线并显示P值
ggsurvplot(fit,data = res.cat,risk.table = TRUE,pval = T)

感谢木舟笔记:Q&A | R做生存分析如何取最佳cutoff(截断) - 知乎 (zhihu.com)


方法②ROC曲线绘制的最佳cutoff

根据某个数据的检验效能最佳截断值进行分组。

其可以在没有生存数据的时候进行使用,然后分析组间差异

连续性变量的组间差异分析_连续变量和连续变量差异性分析-CSDN博客

ROC及曲线面积汇总学习_roc csdn-CSDN博客

rm(list = ls())
library(pROC)
library(survival)
library(survminer)
#roc截断值确定属于是检验诊断效能
data(myeloma)##这里为了方便展示也是用这个数据进行测试dat <- myeloma[,c(4,8)]#[1] "event"  "DEPDC1"
roc1 <- roc(event ~ DEPDC1, data = dat)
#Setting levels: control = 0, case = 1
#Setting direction: controls < casesattributes(roc1)#查看结果包含内容
roc1$auc#
#Area under the curve: 0.6272
ci.auc(roc1)
#95% CI: 0.5491-0.7053 (DeLong)#求约登指数
roc.result <- data.frame(threshold = roc1$thresholds,sensitivity = roc1$sensitivities,specificity = roc1$specificities)
View(roc.result)
roc.result$youden <- roc.result$sensitivity + roc.result$specificity - 1
head(roc.result)
which.max(roc.result$youden)#找出约登指数最大的一行
roc.result[160,]##查看cutoff值
#threshold sensitivity specificity   youden
#160     281.9   0.5714286   0.7096774 0.281106
##计算出CI值和cutoff点,然后进行标注
table(dat$DEPDC1 > 281.9)#根据截断值划分分组#
myeloma$DEPDC11 <- ifelse(myeloma$DEPDC1 > 281.9,"high", "low")
##绘制生存曲线
fit <- survfit(Surv(time, event) ~DEPDC11, data = myeloma)#拟合生存分析
#绘制生存曲线并显示P值
ggsurvplot(fit,data = myeloma,risk.table = TRUE,pval = T)

结果是一致的。

surv_cutpoint()和ROC曲线都是用于确定最佳截断值的方法,它们之间存在一致性的原因如下:

  1. 目标相同:surv_cutpoint()和ROC曲线都旨在找到一个截断值,使得在该值之上或之下的预测结果能够最好地与实际观测结果相匹配。

  2. 基于模型性能:两种方法都是基于模型的性能来确定最佳截断值。surv_cutpoint()通过评估生存曲线的差异来选择最佳截断值,而ROC曲线通过计算真阳性率和假阳性率来评估分类模型的性能。

  3. 最大化敏感性和特异性:无论是surv_cutpoint()还是ROC曲线,都追求在预测中最大化敏感性和特异性。敏感性指的是正确识别阳性样本的能力,特异性指的是正确识别阴性样本的能力。

  4. 统计学原理:surv_cutpoint()和ROC曲线都基于统计学原理进行计算。surv_cutpoint()使用Kaplan-Meier估计和log-rank检验来评估生存曲线的差异,而ROC曲线使用真阳性率和假阳性率的比值来评估分类模型的性能。

综上所述,surv_cutpoint()确定的最佳截断值与ROC确定的最佳截断值是一致的,因为它们都追求在预测中最大化敏感性和特异性,并基于统计学原理来评估模型的性能。


其他

使用OptimalCutpoints包,cutpointr包

截断值确定全能-cutoff package - 知乎 (zhihu.com)

这篇关于关于数据cutoff值确定多种方法(自备)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/841764

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

电脑提示d3dx11_43.dll缺失怎么办? DLL文件丢失的多种修复教程

《电脑提示d3dx11_43.dll缺失怎么办?DLL文件丢失的多种修复教程》在使用电脑玩游戏或运行某些图形处理软件时,有时会遇到系统提示“d3dx11_43.dll缺失”的错误,下面我们就来分享超... 在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是缺失某个dll文件。其中,d3dx11_4