来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:(Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课分为四个部分,本篇笔记是第三部分。
主要是Xie Lab的一个讲座,讨论其组里的一些工作。在基因表达分析中应用深度学习。从介绍D-GEX开始,用于从关键基因预测基因表达的模型。接下来,将深度生成模型在基因组学中的应用,包括流形假设、自编码器,以及变分自编码器。此外,还介绍SAILER,这是一种基于单细胞ATAC-seq数据的模型,以及VAE。最后探索了多模态深度学习在单细胞多组学中的应用。
高通量测序技术的发展,越来越多的生物数据
数据来自不同的生物学方面,进行整合和处理输入到模型中
开发基于多模态的,整合多个技术,来进行潜在生物学分析的方法论非常关键
这些技术在单细胞水平上为我们提供了一个全面的生物学图景,使我们能够理解在单个细胞内基因是如何被调控的
时间不够了,很快的进行展示
2006年就发起的项目,C-Map,包含了不同小分子药物对培养的人类细胞处理后的基因表达数据
疾病、基因、药物之间的关系。研究人员可以查询某种药物引起的特定基因表达模式,看它是否与某种疾病状态的基因表达模式相匹配,进而发现可能的药物再利用(drug repurposing)机会或新的药物靶点。
后来人们想要将这种方法扩展到大型化学库、不同的基因型、多个细胞系。但是面临基因表达分析十分昂贵的问题
于是提出了**“The 1000-Gene Solution”**,只测量1000个基因(有代表性的)的表达,这可以以高通量和低成本进行,而不是整个基因组中的20000个基因都测。剩余基因的表达模式是推断出来的。
主要思想是,很多基因表达高度相关,所以可以通过小部分,来推测出全基因组的表达模式。
我们通过PCA进行降维,发现少量的主成分,可以解释绝大部分的方差。这样子的方式激发了他们去进行**“The 1000-Gene Solution”**方法的开发
基于cmap
后续他们就开发了深度学习方法,通过已经测量的978个基因,来预测剩余的21000个基因的表达水平
处理高维数据的技术——流形假设
虽然数据(如生物数据)可能存在于多维空间中,但“真实”的可变性可以在更少的维度中捕获。
流形学习——发现高维数据中低维结构的无监督学习
NDR(非线性降维)/流形学习的转换
主要是介绍了VAE,我就不记录了,李宏毅那自己学
一些相关模型,主要功能是填补缺失值、去噪(如测序错误),学习潜在的细胞表达水平的概率分布等等
scRNA-seq往往是离散的数据集,不是连续的,而且有很多0值,所以人们使用**零膨胀负二项分布(ZINB)**来对其进行建模
跟自编码器的区别就是不是基于高斯分布的,是基于这个ZINB的
除了去噪外,还有处理dropout事件(比如基因有表达但是没测到)
还有一项类似的工作,不详细介绍
scATAC-seq(单细胞ATAC测序)是一种技术,它可以在单个细胞的水平上评估染色体DNA上区域的可及性。
该技术生成的数据是高维的,并且通常难以解释。
数据分析的第一步通常包括降维和聚类,其目标是学习a representation informative on biological variations,同时对混杂因素保持不变。
SAILER方法旨在
混杂因素与细胞数据concat,并一同输入到decoder中。
目标是学习一个在混杂因素变化时保持不变的潜在表示,并在训练过程中尽量减少潜在变量和混杂因素之间的互信息
这块CVAE具体的数学原理我自己还需要学习,还有如何贴合SAILER这个模型解决的问题(去噪)
VAE的潜在空间的某个维度与已知生物标志物的关联,我们可以验证与特定通路之间的关系。
通过学习输入数据的潜在表示来重构输入数据,同时能够编码与混杂因素(如实验批次或测序深度)无关的信息
变分损失(Variational loss):
展示了SAILER方法如何用于学习在各种混杂因素存在时的稳健的潜在细胞表征。
进一步讨论了SAILER如何处理真实的鼠标图谱数据以及如何合并两个不同的鼠脑数据集。