以下是Andrej Karpathy一小时讲解chatgpt的笔记。
Andrej Karpathy做自动驾驶的人应该比较熟悉,他是李飞飞的学生。在openAI做了一年半的科学家之后,去了特斯拉。在Tesla AI day讲解tesla自动驾驶方案的就是他。
这里我的主要收获是两个
下面我把比较有关键的PPT笔记总结一下,比较有趣的将其看成操作系统的我会在第二部分介绍。
Finetuning阶段会让人类针对问题的标准答案,输入给模型,进行fine-tuning,此外也会训练reward-model,建立评判模型,对模型输出结果打分,结合强化学习训练模型。
(译者注:就像那个经典笑话:
A: 我会速算。
B:1234*4321等于多少?
A:788156。
B:? 这对吗?
A:你就说快不快吧。
LLM 可以看成是一种新型的操作系统,它会文件,浏览网页,也可以说话和生成视频,也可以自我提升。
在你向大模型提问,要求它计算或者画图时,他可以调用对应的python或者计算接口。
此外,类似于RAM的概念,大模型有上下文context window的概念。此外类似的概念,还有多线程,多进程和推测执行(但是这里他没有展开讲,我搜索了一下,要是不对,欢迎私信)。
在这个讲解大模型的视频以外,他也有一个一小时讲解transformer的视频。
介绍一下transformer视频的收获
译者另注:
此外我们可以看到每次新的token计算时,新的token的query都需要和之前的token的key做dot product,然后结果取softmax之后和之前的token的value进行权重相乘。
之前token的key和value都是不变的,因此我们可以将其缓存起来,也就是KV Cache的作用。
加上这个cache之后,更像操作系统了。
引自:
[1][2] Andrej Karpathy 视频讲解
[3] Transformers KV Caching Explained https://medium.com/@joaolages/kv-caching-explained-276520203249
[4] Decoding the Magic of Self-Attention: A Deep Dive into its Intuition and Mechanisms https://medium.com/@farzad.karami/decoding-the-magic-of-self-attention-a-deep-dive-into-its-intuition-and-mechanisms-394aa98f34c5
[5] Self-Attention: A step-by-step guide to calculating the context vector https://medium.com/@lovelyndavid/self-attention-a-step-by-step-guide-to-calculating-the-context-vector-3d4622600aac