插补是一项与缺失数据相关的填充任务。一般来说,插补有两个目标:
使用scLLM,我们可以使用零样本学习来估计看不见的基因,也可以基于具有更多基因的reference scRNA-seq来微调模型以进行估计。scEval将此任务视为矩阵填补问题。在研究中,scEval使用了来自小鼠组织的两个公共数据集来分析scLLM的性能。一个数据集是scRNA-seq数据集,另一个是空间转录组数据集。对于scRNA-seq数据集的插补,使用scLLM解码器的输出作为插补结果。为了评估该任务,使用批次整合中的生物保护得分来比较插补前后的数据。
对于空间转录组数据的插补,作者考虑了两种不同的设置来进行插补。 第一个设置是使用 scRNA-seq 进行微调并基于空间转录组数据进行推理。第二种设置是使用零样本学习框架直接基于空间转录组数据进行推理。考虑使用已知的原始基因表达和已知的估算基因表达之间的相关性作为衡量标准。
metrics:
scRNA-seq与空间转录组的区别:
scRNA-seq模拟是一项数据生成任务。利用scGPT的生成预训练过程,可以基于真实数据集生成新的基因表达。由于scRNA-seq数据模拟的一个普遍问题是模拟数据集和真实数据集之间的差异,因此优选从真实数据集直接生成。通过排列不同的mask基因或筛选不同的种子,就能生成新的模拟scRNA-seq数据集。模拟数据集的质量可以通过将其与当前模拟方法的输出进行比较来评估。scEval将此任务视为数据生成问题。
作者使用了与批次整合任务相同的指标进行评估。通过改变随机种子,可以从单个真实数据集产生不同的重建结果。此功能使我们能够创建模拟的单细胞数据集。值得注意的是,这些生成的数据集保留了与其输入对应物相同的基因集。生成数据的批次效应取决于所采样的真实数据。
在LLM中,由于参数数量众多,有研究认为LLM可以管理尚未明确训练过的特定任务,这一属性被称为“涌现”。例如,GPT-4可以解决一些SAT问题,尽管它还没有在这种特定数据集上进行训练。假设scLLM也可能具有这种能力。为了测试这一点,scEval设计了不同的场景,类似于评估scLLM的涌现能力实例。这些场景包括:1.跨物种细胞类型注释,2.空间转录组数据分析。
对于这项任务,我们考虑了scGPT和Tangram,见 评估LLM在细胞数据上的实用性(1)-基本概述。scRNA-seq的插补结果如图5a所示,这表明scGPT对scRNA-seq数据的插补功能在原始测序数据中引入了更多的噪声,表明解码器输出的不可靠性。根据图5b,与SOTA空间插补方法Tangram相比,scGPT在空间转录组数据插补任务中表现良好。基于相关性和显著性比例的评估,scGPT的插补结果优于Tangram的插补结果。此外,基于零样本学习版本的得分甚至比使用scRNA-seq数据训练版本更好。然而,根据 Avg bio 评分评估的结果,原始数据的评分更好。这可能是由空间聚类标签的来源引起的,这些标签是由基因表达聚类而非专家注释产生的,这种方法可能会在插补前后引入偏差。
scEval为此任务考虑了scGPT和scDesign3。作者将scGPT的输出与scDesign3的输出进行了比较。如图5c所示,scDesign3在模拟任务的两个条件下都优于scGPT。特别是,与scGPT相比,scDesign3在生成没有批次效应的模拟数据方面具有更明显的优势。scDesign3的基因-基因相关性也与原始数据的基因-基因相关性更相似。因此,scLLM的模拟任务值得改进。
scEval探索了scLLM的涌现能力,包括scBERT、Geneformer和scGPT。考虑了三个场景来研究涌现能力:跨数据细胞类型预测、跨物种分析和空间转录组学分析。
跨物种细胞类型注释(Cross-species Cell-type Annotation):
空间转录组数据分析(Spatial Transcriptomic Data Analysis):