极智AI | 解读专家混合架构MoE正成为大模型主流技术

发布时间：2023年12月21日

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享

大家好，我是极智视界，本文来介绍一下解读专家混合架构MoE正成为大模型主流技术。

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：https://t.zsxq.com/0aiNxERDq

首先需要明确的是 MoE 肯定不是非常新的架构，因为早在 2017 年，谷歌就已经引入了 MoE，当时是稀疏门控专家混合层，全称为 Sparsely-Gated Mixture-of-Experts Layer，这直接带来了比之前最先进 LSTM 模型少 10 倍计算量的优化。2021 年，谷歌的 Switch Transformers 将 MoE 结构融入 Transformer，与密集的 T5-Base Transformer 模型相比，训练时间的减少和效率的提升达到了 7 倍。而最近 MoE 的火热主要源于 Mistral AI，它是由前 Google、Meta 和 OpenAI 的研究人员创立的一家新科大模型公司，被称为 "欧洲 OpenAI"，而首个开源的 MoE 多专家混合模型 Mixtral 8x7B 就来自于 Mistral AI。

文章来源:https://blog.csdn.net/weixin_42405819/article/details/135121156
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！