在过去的一年中,随着 GPT-4、LLaMA、Mistral,PaLM 等先进技术的突飞猛进,大型语言模型(Large Language Models)已经引领全球人工智能进入了一个全新的基础模型时代,这一时代不仅开启了技术创新的新篇章,也彻底重塑了各行各业的运作模式。特别是在医疗领域,这些变革显得尤为突出。医疗领域不仅是全球各国竞相投资的重点研究领域,而且与一个国家的医疗水平和综合国力密切相关。在这样的背景下,大型语言模型在医疗领域究竟能带来怎样的变革和影响?
近日,牛津大学的David A. Clifton,罗切斯特大学的罗杰波(Jiebo Luo)和亚马逊的Zheng Li领导的一个联合团队发布了一篇综述报告,介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展(截止至2024年),通过深入探讨相关技术发展,提供宝贵的见解,为构建更加实用和高效的医学大型模型奠定坚实的基础。
论文题目: A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges?
论文地址:? https://arxiv.org/abs/2311.05112?
项目地址:? https://github.com/AI-in-Health/MedLLMsPracticalGuide
近期,通用大型语言模型(LLMs)如PaLM、LLaMA、GPT系列和ChatGLM在多种自然语言处理(NLP)任务中展现出前所未有的进展。这些任务包括文本生成、文本摘要和问题回答等。受到这些模型在自然语言处理领域的成功启发,研究者们开始尝试将通用LLM调整应用于医学领域,从而催生了一系列医学专用的大型模型。例如,基于PaLM开发的MedPaLM和MedPaLM-2在美国医学许可考试(USMLE)上的表现,几乎与人类专家(87.0)持平,达到了86.5的竞争性准确率。此外,基于公开可用的LLM (例如LLaMA)衍生出的几个医学LLM包括ChatDoctor、MedAlpaca、PMC LLaMA、BenTsao和Clinical Camel等,正引发越来越多的关注,它们在协助医疗专业人员改善患者护理方面展现出巨大潜力。
尽管这些医学LLMs取得了令人鼓舞的成果,但在其开发和应用过程中,仍面临一些挑战。首先,许多模型主要关注生物医学NLP任务,如对话和问题回答,但其在临床实践中的实际应用价值往往被忽视。近期的研究开始探讨医学LLM在不同临床场景中的应用潜力,例如,电子健康记录(EHRs)的出院结论生成、健康教育和护理计划等。然而,这些研究多为案例研究,并依赖于临床医生对少量样本的人工评估,因此缺乏全面的评估数据集来衡量模型在实际临床场景中的表现。其次,大多数现有医学LLM的研究主要聚焦于医学问题回答的生物医学NLP性能,而忽略了文本摘要、关系提取、信息检索和文本生成等其他生物医学任务。这些研究空白激发了我们进行这项调查,旨在全面回顾LLM的发展及其在医学领域的应用,并探讨面临的挑战和机遇。
如图1所示,本综述旨在回答以下问题:
对于第一个问题,我们总结了现有医学LLMs的关键原则,详细介绍了它们的基本结构、参数数量以及用于模型开发的数据集。此外,我们还提供了这些模型构建过程中的关键见解,这对于希望根据特定需求(如计算限制、私有数据和本地知识库)定制医学LLM的研究人员和医疗从业者极具价值。
对于第二个问题,我们通过广泛的调查,对现有医学LLMs在十种生物医学NLP任务(包括判别和生成)上的性能进行了评估。这种全面的分析帮助我们理解医学LLMs在多个方面是如何超越传统医学人工智能模型的。通过展示它们的能力,我们旨在阐明医学LLMs在临床环境中部署时所带来的优势。
第三个问题着重于医学LLMs在临床环境中的实际应用。我们为七个临床应用场景提供了指南,详细说明了医学LLM的具体实施方式,并强调了在每个场景中能够发挥的能力。
第四个问题强调了在临床实践中部署医学LLM时必须克服的挑战。这些挑战包括生成幻觉(即产生连贯但事实不正确的输出)、模型的可解释性问题、伦理考量,以及医学LLM的法律和安全问题。我们还提倡对医学LLM进行更广泛的评估,比如信任度,以确保其在临床环境中的负责任和有效使用。
最后一个问题,我们展望了医学LLM的未来发展方向,并为那些希望推动该领域发展、最大化医学LLMs潜力的研究人员和从业者提供了指导。
通过回答这些问题并提供对医学LLM的全面视角,我们希望能促进对医学人工智能领域的更深入理解,更广泛的合作以及更快的进展。总结而言,本综述做出了以下贡献:
为了清晰起见,本节重点总结医学大语言模型的原理。现有的医学LLM主要是包括三种类型(1)从头开始进行预训练,(2)从现有的通用LLM中进行微调,或者(3)通过提示将普通LLM与医学领域对齐直接获得。因此,我们从预训练、微调和提示三种方法介绍了医学LLM的原理。
预训练是医学大型语言模型开发中的一个关键过程,它涉及在庞大的医学文本库上训练模型,以吸收和学习丰富的医学知识。这些文本通常包括结构化和非结构化的数据,如电子健康记录(EHR)、临床笔记、DNA序列和医学文献等。特别值得一提的是,PubMed、MIMIC-III临床笔记和PubMed Central(PMC)文献是医学LLM预训练中常用的三个主要医学语料库。模型可以选择在单一语料库或多个语料库的组合上进行预训练。例如,PubMedBERT和ClinicalBERT分别在PubMed和MIMIC-III上进行预训练。而BlueBERT结合了这两个语料库,BioBERT则同时在PubMed和PMC上进行预训练。此外,佛罗里达大学健康EHR也被用于GatorTron和GatorTronPT的预训练中。而MEDITRON则是在临床实践指南(CPG)上接受预培训,CPG主要用于指导医疗从业者和患者进行循证决策。
在预训练医学LLM时,通常会对通用LLM中常用的训练目标进行细化,包括掩蔽语言建模、下一句预测和下一个标记预测。例如,BERT系列模型如BioBERT、PubMedBERT、ClinicalBERT和GatorTron,主要采用掩蔽语言建模和下一句预测进行预训练。而GPT系列模型,如BioGPT和GatorTronGPT,则主要采用下一个令牌预测进行预训练。
预训练完成后,医学LLM通常会进行微调,然后在不同的生物医学人工智能任务中进行评估,以检验其理解和生成相关文本的能力。一旦经过预训练,LLM将掌握丰富的通用语言表示,这些表示可用于各种下游任务。为了在这些任务上获得强大的性能,LLM可以在一个小型、特定于任务的数据集上进行微调,即进一步训练。这使得模型能够使其通用语言表示适应目标任务的特定要求。大规模预训练与微调结合,已被证明能有效实现最先进的性能。
从头开始训练医学LLMs是高成本和耗时的,因为它需要大量(例如几天甚至几周)的计算能力和体力。一种解决方案是用医学数据对通用语言大模型进行微调,研究人员提出了不同的微调方法,用于学习特定领域的医学知识并获得医学LLM。当前的微调方法包括监督微调(SFT)、指令微调(IFT)和参数有效调整。
与预训练相比,微调大大降低了计算成本,但它需要进一步的模型训练和高质量数据集的收集来进行微调,因此仍需要消耗一些计算资源和人工。相反,“提示”方法有效地将一般LLM(如PaLM)与医学领域(如MedPaLM)对齐,而无需训练任何模型参数。流行的提示方法包括零/少样本提示、思想链提示、自一致性提示和提示调整。
为了进一步展现医学大型语言模型的发展现状,我们制作了医学大模型在不同分支上的进化树(图 2)。此外,我们还尝试通过MedQA (USMLE-style) 数据集性能图(图 3)洞察医学大语言模型的能力发展,来分析现有的医学LLMs是否已经超过人类专家判断水平。
我们尝试通过不同结构的参数进化图(图 4)洞察医学大语言模型的发展。随着模型规模的扩大,哪种结构有可能在医学任务上能够出现类似于通用LLM模型的“涌现”(GPT 2 -> GPT 3),从而实现超级医学大型语言模型。
在本节中,我们将介绍两种流行的下游任务:生成任务和判别任务,包括十种有代表性的下游任务,这些任务将进一步构建临床应用。我们首先描述了下游任务及其广泛使用的评估数据集,然后讨论了适用于这些任务的LLM,并比较了它们的性能。
图 5 中呈现的是各种医学LLM之间的性能对比。在这个对比中,我们观察到某些通用LLM(例如GPT-3.5-turbo和GPT-4)在多种下游任务上展现出了卓越的性能。这一点在问答任务中尤为突出,如图中的蓝线所示,GPT-4的表现不仅始终优于专门针对特定任务微调的模型,甚至与人类专家的表现(如紫线所示)相媲美。所评估的问答数据集包括MedQA(USMLE)、PubMedQA和MedMCQA等。
然而,当我们转向非问答任务时,发现通用LLM的性能往往不如特定任务微调的模型。例如,在使用NCBI疾病数据集进行的实体提取任务中,专门微调的BioBERT模型取得了89.36的F1分数,而GPT-4的表现仅为56.73。这种差异可能是因为问答任务本质上是封闭式的,即正确答案已经在有限的选项中提供。而在开放式的非问答任务中,模型必须在广泛的可能选项中预测正确答案,有时甚至没有任何候选答案可供参考。
总体来看,这些比较结果明确显示,当前的通用LLM在问答任务上具有强大的能力,但在其他任务类型上仍有改进空间。因此,我们建议在评估医学LLM时,应将其应用范围扩展到包括非问答任务在内的更广泛的任务类型,而不应仅限于医学问答任务。这种全面的评估方式将更好地反映医学LLM的真实能力和潜在的应用价值。
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区?