AI大模型学习笔记一

发布时间：2024年01月14日

一、商业观点：企业借助大模型获得业务增长可能

在这里插入图片描述

二、底层原理：transformer

1）备注

①下面每个步骤都是自回归的过程（aotu-regressive）：已输出内容的每个字作为输入，一起生成下一个字
②合起来就是：y1输出之后，y1和x序列一起作为输出，来生成y2；y1和y2加x序列作为输入，来输出y3
③GPT3.5有1750亿参数，也就是1750亿维

2）运行步骤

①把一串输入的字符串拆分成x序列的结构
②再把这串x序列的输入字符串映射成z序列
（z序列是：z1、z2、z3、z4等，不一定必须是512维），每个z是512维坐标的向量，由512个坐标构成
③解码器根据传入的z序列生成y序列

3）编码器框架图

在这里插入图片描述
①左边是编码器，右边是解码器
②输入有两个预处理
1）input Embedding：把每个字都变成512个字去描述
2）positionnal Encoding：不仅要把每个字换成512个描述，而是还要关注每个字的位置（也就是关注词的主谓宾）
③linear做类似线性回归的东西
④softmax：把前序所有的计算结果转化成概率数字，有了概率数字才会知道蹦出来的下个数字是什么

三、应用技术：fine tune

链接

文章来源:https://blog.csdn.net/weixin_43679037/article/details/135577918
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！