生存分析survival_analysis_COXmodel_python实现

2023-12-28 22:04

本文主要是介绍生存分析survival_analysis_COXmodel_python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

什么是生存分析?

生存分析(在工程中也称为可靠性分析)的目标是建立协变量与事件发生时间之间的联系。该算法起源于临床医学研究,往往主要目标是预测死亡时间,即生存。生存分析时一种回归问题(人们想要预测一个连续的值),它与传统回归的不同之处在于,部分训练数据只能被部分观察到(它们被删减了)。

例如:
考虑一项临床研究,该研究调查了冠心病,时间跨度为1年。如图所示。
在这里插入图片描述

患者A在3个月后失去随访,无心血管事件记录,患者B在入组4个半月后发生事件,患者D在入组2个月后退出研究,患者E在研究结束前未发生任何事件。因此,只能记录患者B和C的心血管事件的确切时间,他们的记录是未删失的。对于剩余的患者,不知道他们是否在研究结束后是否发生了事件,因此他们的信息是删失的。

形式上,每个患者记录由一组协变量组成 x ∈ R d x \in \mathbb{R}^d xRd,以及时间 t > 0 t>0 t>0事件发生的时间或时间 c > 0 c>0 c>0删失。由于删失、经历和事件是相互排斥的,所以通常定义一个事件指示器 δ ∈ { 0 ; 1 } \delta \in \{0;1\} δ{0;1}以及可观察到的生存时间 y > 0 y>0 y>0。右删失样本可观测时间 y y y的定义为
y = m i n ( t , c ) = { t if  δ = 1 c if  δ = 0 y=min(t,c)=\begin{cases} t& \text{ if } \delta =1 \\ c& \text{ if } \delta =0 \end{cases} y=min(t,c)={tc if δ=1 if δ=0
因此,生存分析是一种需要考虑到这种数据集的独特特征的算法。

生存分析的研究对象为生存时间,即事件失败所发生的时间,比如研究病人感染某种病毒之后多长时间会死亡,也可以是借款者在完成借款后多长时间会发生违约事件。

生存分析中的预测通常侧重与预测一个函数,而不是专注于预测时间上发生的事件,要么是生存函数,要么是风险函数。

生存函数 S ( t ) = P ( T > t ) S(t)=P(T>t) S(t)=P(T>t)返回超过时间 t t t的生存概率,风险函数 h ( t ) h(t) h(t)表示事件在小时间间隔 [ t ; t + △ t ] [t; t+\triangle t] [t;t+t]内事件发生的近似概率(没有上界),条件是个体在时间 t t t时没有发生事件:
h ( t ) = lim ⁡ △ t → 0 P ( t ≤ T < t + △ t ∣ T ≥ t ) △ t ≥ 0 h(t)=\lim_{\triangle t \to 0} \frac{P(t\le T < {t+\triangle t}|T \ge t)}{\triangle t} \ge 0 h(t)=t0limtP(tT<t+tTt)0

风险函数的其他名称有条件失败率、条件死亡率或瞬时失败率。与描述事件未发生的生存函数不同,风险函数提供了关于事件发生的信息。累计风险函数 H ( t ) H(t) H(t)为时间段 [ 0 ; t ] [0;t] [0;t]内风险函数的积分:
H ( t ) = ∫ 0 t h ( u ) d u H(t)=\int_0^t h(u)du H(t)=0th(u)du

预测

给定观察数据 { ( y 1 , δ 1 ) , . . . , ( y n , δ n ) } \{(y_1,\delta_1),...,(y_n,\delta_n)\} {(y1,δ1),...,(yn,δn)},生存函数 S ( t ) S(t) S(t) H ( t ) H(t) H(t)可以分别通过sksurv.nonparametric.kaplan_meier_estimator()sksurv.nonparametric.nelson_aalen_estimator()估计。

上述估计过于简单,因为没有考虑到可能影响生存的其他特征。 C O X COX COX比例风险模型(sksurv.linear_model.CoxPHSurvivalAnalysis)提供了一种在存在额外协变量情况下估计生存和累计风险函数的方法,它假设存在基线风险函数,并且协变量仅按比例改变风险。也就是说,它假设两个病人经历一个事件的风险比率随时间保持不变。生存函数 S ( t ) S(t) S(t) H ( t ) H(t) H(t)可以分别通过sksurv.linear_model.CoxPHSurvivalAnalysis.predict_survival_function()sksurv.linear_model.CoxPHSurvivalAnalysis.predict_cumulative_hazard_function()估计。

这篇关于生存分析survival_analysis_COXmodel_python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/547445

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致