webhub123算法工程师的大语言模型LLM技术路线

发布时间：2024年01月08日

我们整理了当前认可度最高的一套大语言模型LLM技术研究资料集合，整理到

webhub123 大语言模型学习路线图和关键技术

已经按照不同阶段做好了分组，点击每个卡片即可访问对应的论文和博客，方便您对技术由全局视图

1 大语言模型架构

最简单的transformer架构可视化讲解

illustrated-transformer 对照翻译

gpt2 最强最全面解释

3D可视化各种大语言模型这里可视化了大语言模型的网络结构，包括GPT-2,GPT-3,Nano-GPT,界面不能切换视角，只能放大缩小。

attention机制的讲解

大语言模型中的decoder策略

?

B 站 Andrej Karpathy 从头开始实现一个 GPT 视频有2个小时，由 Andrej Karpathy 一步一步构建一个简单的GPT模型。这里展示的是nanoGPT

2 准备指导数据集

Alpaca 和 Alpaca-GPT4 指导数据集的准备过程文章直接上代码了，讲解的较少。

medium 如何使用GPT-4合成临床问诊数据集

使用GPT 3.5来合成数据集来指导微调Llama 2

google colab 代码展示如何创建微调LLM的数据集

huggingface 的与LLM聊天模版

3 预训练模型

训练LLM可用的数据集包含了一些开源可用的，预训练的、微调的、RLHF的数据集

huggingface 使用transformers 库从头训练一个GPT-2预训练模型

TinyLlama 从头训练一个小的羊驼模型帮助你理解如何从头训练LLama模型

huggingface 因果语言模型和mask的语言模型以及如何微调DistilGPT-2模型

大语言模型中的scaling laws 以及如何把握

BLOOM 模型构建过程工程要点，以及遇到的问题解决方案

meta 训练一个175B参数的LLM的实验日志它记录了整个训练过程遇到的所有问题，以及处理方案，这个PDF有114页，详细记录了整个训练过程的操作。如果你也要训练大模型，可以参考。

llm360 开源的LLM框架包含LLM 数据准备、模型训练、参数评估等所有流程

4 监督微调

Lora 基于low-rank adapters 只训练部分低秩的adapters，无需训练所有参数。

QLora 高效训练LLM 在4Bit量化模型权重

axolotl 开源的LLM微调工具，很多开源大语言模型都在使用

deepspeed 多GPU多节点预训练和微调LLM

微调LLM的基本概念和参数设置指南

Lora最佳实践以及如何选择参数作者总结了几百次的Lora实验经验

手把手教你如何微调Llama 2模型

给初学者的LLM微调手册

medium 训练因果LLM的最佳实践

5 从人类反馈来做强化学习RLHF

解释为什么RLHF 能够提升LLM性能

arxiv 论文 Proximal Policy Optimization Algorithms 近端策略优化算法，使用一个奖励函数来预测给定文本是否会被人类排序靠前。

arxiv： Direct Preference Optimization: Your Language Model is Secretly a Reward Model 将预测问题变成了分类问题。使用了一个引用模型而非奖励模型，进而只需要一个超参数。变得更加稳定高效。

huggingface 使用奖励模型训练，强化学习微调LLM

“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程

使用 DPO 微调 Llama 2

LLM Training: RLHF and Its Alternatives 介绍了RLHF和其他替代方案

6 模型评估

Github EleutherAI 开源的LLM评估框架

HuggingFaceH4 公认的LLM性能世界排名

PubMedQA 针对生物医疗问答的数据集和LLM评估排名

huggingface 聊天机器人LLM排名

google BIG-bench LLM评估指标

huggingface 讲解评估LLM常用的PPL指标

towardsdatascience 评估NLP任务中的文本输出BLEU评分

arxiv 论文:中科大、微软亚洲研究院等评估LLM调查报告

7 量化

量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的，花销更小，运行更快的模型。

llama.cpp meta的LLama模型的c/c++接口 llama.cpp 运行期占用内存更小，推断速度也更快，同样的模型，7B 基础模型举例，32位浮点数的模型占用空间 27G，llama.cpp 量化后占用内存 9G 左右，推断速度为15字/秒。

GPTQ 量化技术 arxiv论文一种后训练量化方法，相比其他后训练量化方法可以有效的处理10亿参数以上的模型。他基于Hessian matrix（海森矩阵）完成模型量化，而非常见的基于统计的方法。

消费级GPU上本地做LLM推理的库

mlabonne系列: LLM 模型量化入门技术博客

mlabonne系列: 使用ExLlamaV2库量化Mistral更快执行LLM

mlabonne系列: 使用GGUF和llama.cpp量化llama模型

medium博客: 理解Activation-Aware Weight(AWQ)量化技术

8 推理优化

Fast Transformer Decoding: Multi-Query Attention技术论文

google arxiv论文: Grouped-Query Attention (GQA)

追一科技: transformers中的位置编码 RoPE技术论文

AliBi：使用了线性biases的attention以增强输入文本长度

YaRN: LLM的高效上下文窗口拓展

huggingface: 如何在GPU加速推理

huggingface: 优化LLM内存和速度

huggingface: 推理解码,低延迟文本生成的新方向

eleuther ai的技术博客: RoPE的拓展 Rotary Position Embedding

LLM中拓展上下文的技术总结这个博客总结了很多LLM中使用的上下文拓展技术，分析了难点和解决方案。

整理自 GitHub - mlabonne/llm-course: Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks.

文章来源:https://blog.csdn.net/huangxia73/article/details/135423598
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！

最新文章