GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:
每一个TransformerBlock是一个多头注意力层的Block
目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)
混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。
优点:
1.专家与专家之间独立,可以并行计算
2.每个专家模型可以放置在不同的GPU机器上
就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来
输入: Thank you <X> me to your party <Y> week
输出:<X> for inviting? <Y> last
有一个文档集合库,里面是一群文档的集合:
基于检索的模型直观的生成过程:
示例(开放问答):
最近邻是最常用的一种检索方法:
? ???