1、SFT是监督微调(Supervised Fine-Tun-ing)的缩写。这是一种常见的深度学习策略,通常在预训练的大语言模型上使用。
参考该文
2、强化学习(Reinforcement Learning)
1)强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境(Environment)进行交互获得的奖赏(Reward)驱动行为(Action),目标是使智能体获得最大的奖赏。
2)强化学习与监督学习有很大的不同,强化学习不需要依靠标签好的数据信息,甚至可以不需要大量的数据,强化学习通过自身学习去产生数据集,并且利用产生的数据集继续进行学习优化,找到最优的方式。
3、RLHF(Reinforcement Learning?fromHuman Feedback,人类反馈强化学习)起到的作用是,通过将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。这就像人类从另一个专业人士身上学习专业知识的方式一样。通过和人类之间架起一座桥梁,RLHF让AI快速掌握了人类经验。在RLHF中,强化学习与人类反馈相结合,人类的偏好被用作奖励信号,以指导模型的训练,从而增强模型对人类意图的理解和满足程度。在生成模型中,RLHF还可以让生成的图像与文本提示得到充分对齐。