模型架构图:
参考GShard论文笔记(1)-MoE结构可知,MOE具备以下几种特点:
另外:
也推荐阅读DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models的"2. Preliminaries: Mixture-of-Experts for Transformers"部分,该论文对MOE的讲解也很清晰。