Datawhale 大模型基础理论 Day1 引言

发布时间：2024年01月15日

开源链接如下：https://github.com/datawhalechina/so-large-lm/blob/main/docs/content/ch01.md

语言模型的概念：即能够赋予每个有意义的词（token）以一定的概率的一个函数的集合。

语言模型可以被用来评估输入的质量，也可以根据prompt生成对应的内容（作画、描述、回答等）

温度，可以控制模型生成中的变异量。

长短期记忆模型通过门控结构，在一定程度上缓解了模型对长序列的信息的处理能力。

Transformer则是大模型的前身。

二者具有里程碑意义。

大语言模型具有参数量以及训练的数据集大的特点，当然数据集大也意味着消耗的算力资源很大，当然国外企业也能以GPU的显卡资源抑制我国AI行业的发展，比如某美丽国和三大显卡公司对其政策的执行。

ok，今天的总结到此结束。

欢迎关注无神一起学习AI前沿领域，觉得有用请给个一键三连哦！

文章来源:https://blog.csdn.net/m0_72806612/article/details/135612229
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！