为什么独热向量不能表达词之间的相似性?
自监督的word2vec
。
word2vec将每个词映射到一个固定长度的向量,这些向量能更好的表达不同词之间的相似性和类比关系。
word2vec分为两类,两类模型都是自监督模型。
小结
跳元模型和连续词袋模型的损失函数?
使用负采样和分层Softmax来优化损失函数的计算:
我们可以使用嵌入层和二元交叉熵损失来训练带负采样的跳元模型。
词嵌入的应用包括基于词向量的余弦相似度为给定词找到语义相似的词。
FastText模型的主要结构组件:
FastText模型的主要特点是什么?
自然语言处理中的预训练是在训练什么?
由于语言模型的自回归特性,GPT只能向前看(从左到右)。在“i went to the bank to deposit cash”(我去银行存现金)和“i went to the bank to sit down”(我去河岸边坐下)的上下文中,由于“bank”对其左边的上下文敏感,GPT将返回“bank”的相同表示,尽管它有不同的含义。
小结
word2vec,Glove,EIMo,GPT,BERT等模型的特点,优点和缺点
:
总结:
每种模型都有其独特的优势和局限性。Word2Vec和GloVe
在词嵌入方面表现出色,但不涉及上下文信息;ELMo、GPT和BERT
则在捕捉复杂的上下文关系方面更为先进,但也伴随着更高的资源需求。选择哪种模型通常取决于特定任务的需求、可用资源和性能目标。
BERT的预训练机制:
小结
遮蔽语言模型损失和下一句预测损失分别表示什么?
MLM损失和NSP损失共同构成了BERT模型的预训练损失,它们分别针对模型的两个核心任务:理解词的上下文相关含义和理解句子间的关系。通过最小化这两个损失,BERT能够学习到丰富且有效的语言表示,为各种下游NLP任务奠定基础。