想象一下,有一种新药被开发出来,可以延长某种恶性癌症患者的生命。为了评估药物的有效性,需要进行临床试验,对患者进行一段时间的跟踪,看看他们开始治疗后能活多久。
以下是如何使用生存分析来设置和分析试验:
招募:招募100名癌症患者,并在招募当天开始治疗。
随访:对每个患者进行一段时间的跟踪,以查看他们是否以及何时去世。由于疾病和试验的性质,并不是每个患者的终点(死亡)将在研究期间观察,因为:
-一些患者可能在研究结束时还活着。
-有些人可能因为各种原因离开研究或失去随访。
数据收集:5年后,研究结束,收集数据。假设5位患者的数据如下所示(为例进行了简化):
患者ID | 时间(年) | 事件 |
---|---|---|
1 | 2.5 | 1 |
2 | 5 | 0 |
3 | 1 | 1 |
4 | 3 | 1 |
5 | 4 | 0 |
-时间:从研究开始到死亡或结束的时间。
-事件:二元指标,1表示事件(死亡)发生,0表示审查(研究结束时患者没有发生该事件)。
Kaplan-Meier估计器:我们使用它来估计生存函数( S(t) ),它告诉我们患者在过去一段时间内生存的概率( t )。
分析:我们可以看看中位生存时间,50%的患者已经去世,并将其与未用药患者的历史数据进行比较,以评估药物的有效性。
以下是在这种情况下需要生存分析的原因:
审查:并非所有患者的事件都被观察到。一些人失去了随访,另一些人在研究结束时仍然活着。生存分析方法可以处理这种类型的不完整数据。
事件发生时间:感兴趣的结果不仅是事件是否发生,而且是何时发生。传统的分析,如逻辑回归,没有考虑时间方面。
比较组:如果有一个对照组,我们可能想要比较两组的生存经验。生存分析提供了log-rank检验等工具,可以在统计学上比较生存曲线。
协变量调整:患者的特征,如年龄、癌症阶段和其他治疗都会影响生存率。生存分析方法,如Cox比例风险模型,可以针对这些协变量进行调整。
这种分析的结果可以影响临床决策,指导病人护理,并为进一步的研究提供信息。在ML和AI的背景下,我们可以将更复杂的模型应用于这些数据,以潜在地揭示复杂的关系,并对患者结果做出更准确的预测。
生存分析中最经典、使用最广泛的统计学方法是Cox比例风险模型,由David Cox在1972年开发。它是一个半参数模型,用于处理患者的生存率和几个解释变量之间的关系。
半参数化:模型对基线风险函数的形状没有假设,即所有协变量都等于零时的风险。这允许建模时间到事件数据的灵活性。
比例风险:它假设解释变量对风险的影响是乘性的,并且随着时间的推移保持不变。随着时间的推移,任何两个个体的风险比率是恒定的,因此称为“比例风险”。
多协变量:模型可以同时处理多种风险因素和协变量,包括连续的和分类的。
对于一个个体 i i i和协变量 x i x_i xi?,在时间 t t t时的风险函数 h ( t ) h(t) h(t)为:
h i ( t ) = h 0 ( t ) exp ? ( β 1 x i 1 + β 2 x i 2 + … + β p x i p ) h_i(t) = h_0(t) \exp(\beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip}) hi?(t)=h0?(t)exp(β1?xi1?+β2?xi2?+…+βp?xip?)
其中:
-系数
β
j
\beta_j
βj?大于零,表示随着协变量
x
j
x_j
xj?的增加,事件危害增加,意味着事件发生的预期时间缩短。
-系数
β
j
\beta_j
βj?小于零意味着随着协变量
x
j
x_j
xj?的增加,事件风险降低,意味着事件发生的预期时间更长。
Cox模型通常使用一种称为部分似然最大化的技术来拟合,这是一种有效处理截尾数据的方法。系数$ \beta 是在不指定基线危害 是在不指定基线危害 是在不指定基线危害h_0(t)$的情况下从数据中估计的,这使得模型是半参数的。
如果你想研究新疗对患者生存时间的影响,需要收集生存时间的数据,包括患者是否接受新疗(治疗组与对照组),以及可能影响生存的其他协变量,如年龄、阶段和吸烟状况。Cox模型允许您在控制这些其他因素的同时评估新疗的影响。
Cox模型能够处理不同类型的协变量,处理筛选,并且不需要基线危害的规格说明,这使它成为生存分析工具包中通用而强大的工具。它在广泛的学科中使用,特别是在医学研究中用于临床试验分析和流行病学研究。