来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:(Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课分为四个部分,本篇笔记是第二部分。
本节主要是一个讲座STARR-seq,探讨发现增强子的方法。如何利用弱监督学习检测增强子。评估了模型性能,以及它们在基因表达分析中的应用潜力。
增强子是增强特定基因的转录的。对理解细胞如何在不同条件下调控基因表达至关重要。
以前的识别方法都是一些非监督方法,因为没有监督数据
MPRA(Massively Parallel Reporter Assays)是一种高通量基因组功能验证技术。它可以同时测试成千上万个DNA序列(如启动子、增强子等调控元件)对基因表达的影响。
大量候选DNA序列插进短的报告基因vector中(比如荧光素酶基因,都包含一个小的启动子)。如果一个候选DNA是增强子,就会增强基因转录表达,就会被检测出来。
关键优点是能够在一个实验中评估大量序列,这是传统单个报告基因测定所无法实现的
STARR-seq 是MPRA的一个变体。
在一个细胞系中,它通过直接测量基因片段的活性来识别转录增强子。
产生数据为监督学习提供基础,DNA序列和其活性标签。
这里主要是为了大规模筛选,所以就用了统一的报告基因,就是为了测试DNA序列的增强子活性
不同细胞类型(如K562、HepG2等)进行的一系列基因组分析实验。
ENCODE项目研究人员的一个核心假设,即染色质的开放状态和组蛋白修饰之间的相互作用是调控基因表达特别是转录因子结合和增强子活性的关键。
这些数据集用于进行验证
在这里就是我们能否使用这些特征,来验证STARR-seq expression
该模型结合了表观遗传特征数据(如ATAC-seq、DNase-seq和ChIP-seq的信号轨迹)和STARR-seq实验结果来训练一个模型,从而识别和精确定位增强子
首先模型的input,就是某个区域的,4kb大小的滑动窗口,进行移动
然后output是STARR-seq实验得到的数据。
神经网络使用这些数据来预测哪些窗口包含活跃的增强子区域。
Grad-CAM技术可以帮助分析决策过程,有助于科学家们理解模型为什么会认为某个特定区域是一个增强子。
这里其实是重点的一个部分
使用在训练过程中计算出的梯度信息,这些信息表示了模型输出(如增强子的预测位置)对输入特征的敏感性
可以看出哪些地方对决策贡献更大
例如,如果Grad-CAM揭示了在某个4kb窗口内,H3K27ac的特定模式与模型预测增强子存在密切相关,那么我们可以得出结论,这种特定的组蛋白修饰模式对于识别增强子是重要的。
这样的准则是更加通用的
如下图所示,Grad-CAM在弱监督学习中应用效果好。弱监督学习就比如只能告诉我们照片里有猫/狗,但是我们不知道具体位置
跟我们这里只知道增强子活动而不知其位置的道理是一样的
卷积层中的激活图
梯度相加
组合生成热图
在基因组学中
一个基因组学模型在不同细胞系和染色体上的交叉验证
左边的是预测出来增强子在的区域,并且给出了表观遗传标志和基因注释、预测标签
然后论文中该模型性能超过SOTA(这里不展示)
举例一下,关于神经祖细胞(NPC)的案例研究。
Grad-CAM技术分析
预测统计