业务需要开始研究LLM,并且二次开发用到我们的业务上。
罗嗦几句,我从开始看LLM到配起来训练总共花了两个礼拜时间,看了不下20个视频教程和100篇博客教程,没有哪一个教程是能够从头到尾配置完没有差错的跑起来的,真的呼吁一下大家提高一下教程的质量,自己验证完之后再发布,有错误及时更新或者下线。
1.1 window11
1.2 nvdia 4080或4090显卡,(这里有坑,后面再说 )
具体看我的另一篇博客(我看的LLM教程基本都没写这一步),这一步是需要用nvida显卡训练必须的一步,还好我以前做过图像识别,知道pytorch需要安装cuda
3.1 llama2-recipes是llama2用来微调和二次开发的一个仓库,我之前还跟其他教程用过其他的像mlc-chat这些已经封装好的仓库,我建议如果想二次开发的话还是用这种底层原生的库,用第三方的毕竟被加了一层东西,改起来不灵活
git clone https://github.com/facebookresearch/llama-recipes .
GitHub - facebookresearch/llama-recipes: Examples and recipes for Llama 2 model
3.2 安装虚拟环境(基操,不多说)
python -m venv [env folder]