MOE介绍 混合专家模型

发布时间:2024年01月13日

GShard

模型架构图:

参考GShard论文笔记(1)-MoE结构可知,MOE具备以下几种特点:

  1. 改造了原本的FFN层,变成Gate+n个FFN层。
  2. n个FFN层的训练数据集不同。
  3. 推理时会计算token与每个FFN的匹配程度,并k个被最匹配的FFN的输出对作加权平均。
    https://github.com/laekov/fastmoe

另外:

  • Gate只是一个维度是[dim, num_experts]的二维矩阵,用来计算每个token与每个expert的相关性。
  • 每个FFN的结构相同。比如可以是[in_dim, hidden_dim, in_dim]形式的两层FFN。

也推荐阅读DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models的"2. Preliminaries: Mixture-of-Experts for Transformers"部分,该论文对MOE的讲解也很清晰。

文章来源:https://blog.csdn.net/duoyasong5907/article/details/135569777
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。