【概率统计】生存分析

发布时间:2023年12月28日

什么是生存分析


激励例子:新药的临床试验

想象一下,有一种新药被开发出来,可以延长某种恶性癌症患者的生命。为了评估药物的有效性,需要进行临床试验,对患者进行一段时间的跟踪,看看他们开始治疗后能活多久。

以下是如何使用生存分析来设置和分析试验:

  1. 招募:招募100名癌症患者,并在招募当天开始治疗。

  2. 随访:对每个患者进行一段时间的跟踪,以查看他们是否以及何时去世。由于疾病和试验的性质,并不是每个患者的终点(死亡)将在研究期间观察,因为:

    -一些患者可能在研究结束时还活着。
    -有些人可能因为各种原因离开研究或失去随访。

  3. 数据收集:5年后,研究结束,收集数据。假设5位患者的数据如下所示(为例进行了简化):

患者ID时间(年)事件
12.51
250
311
431
540

-时间:从研究开始到死亡或结束的时间。
-事件:二元指标,1表示事件(死亡)发生,0表示审查(研究结束时患者没有发生该事件)。

  1. Kaplan-Meier估计器:我们使用它来估计生存函数( S(t) ),它告诉我们患者在过去一段时间内生存的概率( t )。

  2. 分析:我们可以看看中位生存时间,50%的患者已经去世,并将其与未用药患者的历史数据进行比较,以评估药物的有效性。


生存分析的必要性

以下是在这种情况下需要生存分析的原因:

  • 审查:并非所有患者的事件都被观察到。一些人失去了随访,另一些人在研究结束时仍然活着。生存分析方法可以处理这种类型的不完整数据。

  • 事件发生时间:感兴趣的结果不仅是事件是否发生,而且是何时发生。传统的分析,如逻辑回归,没有考虑时间方面。

  • 比较组:如果有一个对照组,我们可能想要比较两组的生存经验。生存分析提供了log-rank检验等工具,可以在统计学上比较生存曲线。

  • 协变量调整:患者的特征,如年龄、癌症阶段和其他治疗都会影响生存率。生存分析方法,如Cox比例风险模型,可以针对这些协变量进行调整。

这种分析的结果可以影响临床决策,指导病人护理,并为进一步的研究提供信息。在ML和AI的背景下,我们可以将更复杂的模型应用于这些数据,以潜在地揭示复杂的关系,并对患者结果做出更准确的预测。

生存分析中最经典、使用最广泛的统计学方法是Cox比例风险模型,由David Cox在1972年开发。它是一个半参数模型,用于处理患者的生存率和几个解释变量之间的关系。


Cox比例风险模型的主要特征:

  • 半参数化:模型对基线风险函数的形状没有假设,即所有协变量都等于零时的风险。这允许建模时间到事件数据的灵活性。

  • 比例风险:它假设解释变量对风险的影响是乘性的,并且随着时间的推移保持不变。随着时间的推移,任何两个个体的风险比率是恒定的,因此称为“比例风险”。

  • 多协变量:模型可以同时处理多种风险因素和协变量,包括连续的和分类的。

Cox模型公式:

对于一个个体 i i i和协变量 x i x_i xi?,在时间 t t t时的风险函数 h ( t ) h(t) h(t)为:

h i ( t ) = h 0 ( t ) exp ? ( β 1 x i 1 + β 2 x i 2 + … + β p x i p ) h_i(t) = h_0(t) \exp(\beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip}) hi?(t)=h0?(t)exp(β1?xi1?+β2?xi2?++βp?xip?)

其中:

  • h i ( t ) h_i(t) hi?(t) :个人 i i i t t t时间的危害。
  • h 0 ( t ) h_0(t) h0?(t) :时间$ t $时的基线危险度,即所有协变量均为零的个体的危险度。
  • β 1 , β 2 , … , β p \beta_1, \beta_2, \ldots, \beta_p β1?,β2?,,βp? :协变量的系数,衡量协变量对风险的影响。
  • x i 1 , x i 2 , … , x i p x_{i1}, x_{i2}, \ldots, x_{ip} xi1?,xi2?,,xip?:单个 i i i的协变量值。

解释:

-系数 β j \beta_j βj?大于零,表示随着协变量 x j x_j xj?的增加,事件危害增加,意味着事件发生的预期时间缩短。
-系数 β j \beta_j βj?小于零意味着随着协变量 x j x_j xj?的增加,事件风险降低,意味着事件发生的预期时间更长。

模型拟合:

Cox模型通常使用一种称为部分似然最大化的技术来拟合,这是一种有效处理截尾数据的方法。系数$ \beta 是在不指定基线危害 是在不指定基线危害 是在不指定基线危害h_0(t)$的情况下从数据中估计的,这使得模型是半参数的。

例子:

如果你想研究新疗对患者生存时间的影响,需要收集生存时间的数据,包括患者是否接受新疗(治疗组与对照组),以及可能影响生存的其他协变量,如年龄、阶段和吸烟状况。Cox模型允许您在控制这些其他因素的同时评估新疗的影响。

为什么它是经典:

Cox模型能够处理不同类型的协变量,处理筛选,并且不需要基线危害的规格说明,这使它成为生存分析工具包中通用而强大的工具。它在广泛的学科中使用,特别是在医学研究中用于临床试验分析和流行病学研究。

文章来源:https://blog.csdn.net/qq_18846849/article/details/135246472
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。