来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:(Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课分为四个部分,本篇笔记是第四部分。主要介绍了SpliceAI这个模型如何从基本序列预测RNA的剪接。首先简要介绍RNA剪接的基本概念,然后详细讲解如何运用深度学习技术解码剪接过程。介绍了模型的性能,如何解释它们的预测结果,以及它们在实际应用中如何帮助我们更好地理解遗传疾病和开发新的治疗策略。
我们对基因组的理解还在很初级的阶段
我们想要进行全基因组范围的注释
非编码区对疾病的诊断非常关键,常常被忽视。现在主要是仅用exome进行诊断,成功率很低
右边饼图是非编码区不同类型序列比例
然而,当这些剪接位点发生变异时,可能导致剪接错误,进而影响蛋白质的产生和功能,这与某些疾病的发展有关。因此,对于剪接变异的研究有助于我们理解某些遗传性疾病和癌症的分子机制。
当然了,就四个碱基“GT-AG”的组合在基因组中存在的数量太多了,并不足以据此识别剪接位点,实际上要找到几百到几千的长度来识别剪接位点
input:
architecture:32-layer conv
output:3分类,预测分数
训练(Trained):模型在染色体的一半上进行训练,另一半染色体的数据用于测试,排除了同源基因(paralogs)。
1Dconv,还用了残差连接
对于chr7基因,spilceAI的预测效果非常的好
还有一些外显子簇:发现一个外显子簇在生物学上可能比尝试解析一个很长的内含子更容易达到剪接相关的研究阈值(指能够可靠地预测或验证剪接事件发生的最低要求),给模型训练提供了很多的参考。
研究外显子簇比长内含子更简单,因为外显子簇的变量少,分析简明。长内含子含复杂序列和调控元素,剪接需精确,否则可能产生异常蛋白。所以,剪接分析通常从外显子簇开始,更易操作。
底部图:K562细胞中的核小体信号(表示DNA包装在蛋白质上的方式)和SpliceNet-10k分数
这部分的信息突出了剪接的某些长距离决定因素,即长达10kb的序列对于剪接特异性至关重要。
长距离效应:除了剪接位点本身的序列外,远离剪接位点的序列(可能长达数千个碱基对,例如10kb)也能影响剪接的发生和特异性。
内含子/外显子长度和核小体定位在剪接中扮演主要角色
长度
核小体:如果一个剪接位点被紧密包装在核小体内,那么它可能不容易被剪接机器所识别和处理。
单个核苷酸的改变对剪接可能性的影响大小
外显子和内含子的长度是确定剪接位点特异性的额外因素。这说明SpliceAI考虑了这些结构特征来优化其预测模型
该模型预测了一个基因突变对剪接的影响
SpliceAI提供了四个得分来进行评估。这里发现了剪接模式的改变,导致基因产物异常。
后面都是一些例子,与临床疾病结合,自行前往查看:[slides](