最近一个火爆AI圈的一个线性时间序列模型框架Mamba引起了大家的讨论,由于其性能在相关的实验上超越了transformer模型,让人不禁讨论注意力机制是否是大模型唯一的出路。transformer模型与mamba模型的大战也是一触即发,很多小伙伴们已经开始尝试把项目转移到mamba框架上。且mamba的开源代码已经上传到GitHub上,小伙伴们可以运行代码尝试。
目前几乎所有的大语言模型都是基于transformer模型框架。许多二次时间序列架构(例如线性注意力、门控卷积和循环模型以及结构化状态空间模型(SSM))已被开发来解决 Transformers 在长序列上的计算效率低下问题,但它们在重要模态上的表现并不好。
Mamba 是一种新的状态空间模型架构,在语言建模等信息密集数据上显示出良好的性能,而以前的二次模型在 Transformers 方面存在不足。Mamba基于结构化状态空间模型的,并使用FlashAttention进行高效的硬件设计和实现。