摘要:
本文就临床预测模型进入到临床实践过程中会遇到的三个问题,如何构建预测模型应用,如何确定决策阈值和如何符合伦理要求,进行了举例说明。希望通过这三个问题的探讨而使预测模型能够尽早的进入临床实践。
关键词:
临床预测模型应用;决策阈值;医学伦理
以机器学习算法拟合临床大数据所构建的临床预测模型(clinical prediction model,CPM),借助更先进的算法和更大规模的数据,已经具有了良好的效能,并且CPM也展现了丰富的临床应用前景,比如辅助诊断[1]或替代决策[2]等,但是CPM进入临床实践的过程中依然存在诸多的问题,至少有三个关键的问题需要进行深入探讨,它们是:1.如何构建一个临床预测模型应用(clinical prediction model application,CPMA)使CPM融入临床实践场景;2.如何确定CPM决策阈值来得出预测结论;3.CPM如何符合临床的伦理要求。
在制作食管癌远处转移CPMA的过程中,我们对以上三个问题进行了一定的思考并尝试进行回答,在此以该CPMA为例对以上问题进行说明和探讨。
在CPM核心的预测功能之外,增加一些辅助功能形成CPMA,使其融入具体的临床实践场景。CPMA可以说是目前CPM最佳的承载形式,之前被推崇的列线图,适合在论文中进行展示,并不合适脱离论文在临床实践中进行使用。现在构建CPMA的编程框架已经比较成熟,比如python语言的streamlit和R语言的shiny,为实现丰富功能提供了基础,另外,可以部署CPMA的网站也逐渐增加,比如Heroku、huggingface spaces和streamlit cloud等,便利了CPMA的应用。
通过实践,我们实践认为一个CPMA具有以下的辅助模块是有益的,包括:
在我们构建的食管癌远处转移CPMA中,介绍了CPM构建过程中用到的样本量、样本的来源、模型的效能,有助于使用者初步评价CPM的优劣并决定是否使用该CPM;还介绍了CPM构建用到的变量的取值范围,有助于使用者了解自己的情况在不在CPM的适用范围之内(Fig.1A);另外,为了更直观地介绍模型,我们在设计了一个演示模块,提供了内置的数据对模型的预测过程进行演示(Fig1B)。许多CPMA是附属于论文而构建的,仅呈现了核心的预测功能,而以论文的内容作为CPMA的介绍说明,而在实际使用过程中,将必要的说明介绍作为CPMA的一个模块,使得使用者在不阅读论文的情况下就可以获取使用CPMA显然是一种更贴心的设计。
鉴于本地数据和模型训练使用的数据之间往往具有一定的异质性,所以建议在使用CPM进行预测之前,收集一批本地数据进行验证,以考察本地数据是否适合使用CPM进行预测。在我们设计的CPMA中,该模块接受使用者提交的数据并提供常见的模型效能指标, AUROC和校准曲线,来帮助使用者了解本地数据是否与模型相契合(Fig.2)。相反,外部验证模块的缺失会导致使用者在盲目的情况下使用CPM进行预测,导致无法判断预测结果可信性。
CPM要求使用者提供的待预测数据的变量名和标签名都要与CPM训练数据的变量名和标签名保持完全一致,哪怕是大小写或者空格这样微小的差异都会导致报错。考虑到各人收集数据的时候命名的习惯不一样,我们在食管癌远处转移CPMA中设计了这个模块来辅助变换变量名和标签名(Fig3),使用者只要选择对应的变量和标签即可,避免了变量名和标签名不一致导致的出错,随后可以下载处理过的数据,进入后续的流程。
批处理模块设想的场景是使用者将待测的数据整理到表格中,并提供给CPMA进行批量处理预测,然后可以下载预测结果进行后续的数据分析(Fig4.);而个案处理模块提供了界面输入各个变量的值,并获得个案的预测结果(Fig.5)。
在使用CPM获得模型的预测概率之后,总要确定一个决策阈值来确定将预测结果的归类。目前推崇的方法是使用临床决策曲线分析(decision curve analysis, DCA)来确定决策阈值[3],这种方法的流程是,首先,设定一个“金标准”措施来作为CPM的后续措施,然后,根据临床考量来确定该后续措施的损害-效益比(cost-benefit ratio),随后即可确定决策阈值,因为损害-效益比和决策阈值是一一对应的,比如前者是1:9,则决策阈值是0.1。但是,这个方法适合二分类的预测模型,并不适合于某些没有明确后续措施的预测模型,比如预测疾病短期预后的分类CPM。如果采取这种策略,要求模型具有良好的校准度,反而CPM的区分度不是那么重要,因为在实践中我们发现模型的区分度相差0.2左右对模型效能没有实质影响;第二种确定决策阈值的方法是取模型最佳效能时的阈值,也就是计算约登指数(Youden’s index)并取其最大值所对应的阈值即为最佳阈值。这种方法的缺点是阈值固定,缺乏灵活度,缺乏与临床情景的关联。我们构建的食管癌远处转移CPMA采用了DCA法来确定决策阈值:通过DCA推荐了候选决策阈值范围,在该阈值范围内使用模型可以取得临床收益,随后医生可以根据后续措施(PET/CT)的损害-效益比来确定具体的决策阈值,而具体的决策阈值应该落在候选决策阈值范围之内。
根据目前对人工智能在临床的应用的伦理学方面的讨论[3],CPM参与临床实践过程中遇到的伦理问题主要有两点:1.潜在的安全风险问题。目前,人工智能在医疗健康领域应用的数据质量标准、在使用环境中的验证质量评估体系尚是空白。医生在不合适的医疗场景中使用CPM或者错误的解释CPM的预测结果,都可能导致患者健康权益受到损害。在CPM使用的前中后三个过程进行充份地使用指导,信息提示等措施将有助于避免潜在的安全问题;2. 医疗责权划分问题。在使用CPM过程中,发生临床纠纷问题时,主要由CPM或仅由CPM产生的行为是否真的可以归因于人类,如何追溯伤害实现问责,谁来承担患者不良诊疗结局的责任,赔偿分配等问题亟待合理的风险责任制度和赔偿问责体系来指导规范。为了避免这一点,我们建议当前设计的CPM工作流程中,避免CPM独立做判断或决策,而是由后续的临床措施来进一步确认CPM预测的结果,比如在我们设计的食管癌远处转移CPMA中得出预测结果之后,需要PET/CT来进一步确认CPM的结果,这样,CPM的作用是为PET/CT检查而筛选食管癌远处转移的高危人群,最终还是由人类医生综合来做出该患者是否发生了远处转移的判断,就有效回避了可能的伦理问题。
总之,CPM是一种有益于临床实践的工具,能够提高医疗服务的质量,以上三个问题的讨论和解决,相信会使CPM会更加接近临床实践。
[1] 程顺达,程颖,孙士江. 基于机器学习的肿瘤智能辅助诊断方法[J]. 电子科技, 2022, 35(5): 56-59.
[2]杨俭, 郭飞, 吕涛, 等. 肝癌人工智能临床决策支持系统研究[J].中华医学杂志, 2020, 100(48): 3870-3873.
[3] Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006, 26(6):565-574.
[4]隗冰芮, 薛鹏, 江宇, 等. 世界卫生组织《医疗卫生中人工智能的伦理治理》指南及对中国的启示 [J] . 中华医学杂志, 2022, 102(12) : 833-837.