在大模型领域,Transformer凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但收效甚微。
最近,一项名为“Mamba”的研究似乎打破了这一局面,它在语言建模方面可以媲美甚至击败Transformer。这都要归功于作者提出的一种新架构——选择性状态空间模型(selective state space model),该架构是Mamba论文作者卡内基梅隆大学机器学习系助理教授 Albert Gu此前主导研发的S4架构(Structured State Spaces for Sequence Modeling)的一个简单泛化。
这代表了人工智能在处理和理解序列方面的一次飞跃,而序列是人类认知的一个基本方面。
神经符号人工智能(Neuro-symbolic AI)融合了神经网络的最佳学习能力和符号人工智能的精确性。这种混合方法有望更细致、更复杂地理解复杂问题,弥合类人推理与机器效率之间的差距。
然后是人工智能与自校正模型的校准,即创建能够在没有持续人为干预的情况下自我适应和纠正的模型,更接近于一种独立、负责任的生成形式,而不会产生大规模幻觉风险。
这些新的模型架构描绘了一个未来,在这个未来,人工智能的能力可以与人类的认知能力相媲美。虽然研究还为时尚早,但期待这一领域实现飞跃和突破。