大语言模型成为学术界和工业界的热门话题。
起源于2018年的GPT-1。
大模型是发展通用人工智能的重要途径,可以应对多任务、多模态。
覆盖轻量级、中量级、重量级的应用。7B、20B已开源可用
20B性能比较,值得一提的是参数量小,可以达到Llama2-70B水平
需要考虑业务场景、算力、环境交互的因素
模型部署:更少的资源、提升吞吐量
涵盖不同领域,包含积累的技术和数据。对齐中国主流价值观
开放的数据平台
增量续训和有监督微调。
增量续训:垂直领域、文章、数据、代码
有监督微调:数据量更少
只需要8G显存即可训练。第一个可以做到8G显卡训练。
主要还是考试做题,全面性不够
大维度评测,更全面
评测架构
优势:
部署:
参数巨大、内存开销
开源部署框架:全流程解决方案
性能
局限性:
提供工具集合