人工智能的技术概念解释

发布时间：2024年01月16日

1、SFT是监督微调（Supervised Fine-Tun-ing）的缩写。这是一种常见的深度学习策略，通常在预训练的大语言模型上使用。

2、强化学习(Reinforcement Learning)

1）强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境(Environment)进行交互获得的奖赏(Reward)驱动行为(Action)，目标是使智能体获得最大的奖赏。

2）强化学习与监督学习有很大的不同，强化学习不需要依靠标签好的数据信息，甚至可以不需要大量的数据，强化学习通过自身学习去产生数据集，并且利用产生的数据集继续进行学习优化，找到最优的方式。

3、RLHF（Reinforcement Learning?fromHuman Feedback，人类反馈强化学习）起到的作用是，通过将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。这就像人类从另一个专业人士身上学习专业知识的方式一样。通过和人类之间架起一座桥梁，RLHF让AI快速掌握了人类经验。在RLHF中，强化学习与人类反馈相结合，人类的偏好被用作奖励信号，以指导模型的训练，从而增强模型对人类意图的理解和满足程度。在生成模型中，RLHF还可以让生成的图像与文本提示得到充分对齐。

文章来源:https://blog.csdn.net/modi000/article/details/135620389
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！