广受好评的开源基础大模型最全梳理，你最钟意哪一个？

发布时间：2023年12月18日

2023 年即将过去。一年以来，各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时，另一方「势力」悄然崛起 —— 开源。

开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀？是否能够媲美专有模型的性能？

迄今为止，我们一直还只能说是某些方面接近。即便如此，开源模型总会给我们带来惊艳的表现，让我们刮目相看。

开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展，给专有模型带来了强有力的挑战，能够改变大型科技公司的竞争格局。

今天我来分享一些广受好评的开源的基础大模型，非基于基础模型的微调模型，列表如下：

开源的基础大模型列表

序号	名称	参数规模	数据规模	说明
1	LLaMA-2	7B,13B,34B,70B	2T	可商用
2	Falcon	7B,40B,180B	3.5T	数据集 RefinedWeb
3	baichuan-2	7B,13B	2.6T	开放，商用需授权，baichuan-1
4	InternLM	7B,20B	2.3T	开放，商用需授权
5	BLOOM	3B,7.1B,176B	366B	可商用，最为宽松，详细介绍
6	GALACTICA	6.7B,30B,120B	106B	开放的科学文本和数据
7	LLaMA	7B,13B,30B,65B	1.4T	Meta，代码开源，模型“泄露”,不可商用，详细介绍
8	MOSS-moon	16B	700B	6.67x1022 FLOPs
9	ChatGLM2	6B	1.4T
10	StableLM	3B,7B	800B
11	RedPajama-INCITE	3B,7B	1T
12	GPT-NeoX	20B	3.15M	800GB的The Pile数据集
13	OpenLLaMA	3B,7B,13B	1T
14	MPT	7B,30B	1T
15	Pythia	2.8B,6.9B,12B	300B
16	XGen	7B	1.5T
17	OPT	6.7B,13B,30B,66B,175B	180B
18	Qwen	7B,14B,72B	2.4T,3.0T,3.0T
19	XVERSE	13B,65B	1.4T,2.6T
20	Aquila2	7B,34B	2T
21	Prithvi			IBM+NASA,地理空间，100M（图片）
22	Skywork	13B	3.2T	昆仑万维·天工
23	Deepseek Coder	1.3B,6.7B,33B	2T	Deepseek Coder comprises a series of code language models trained on both 87% code and 13% natural language in English and Chinese, with each model pre-trained on 2T tokens.
24	Aquila	7B		悟道·天鹰
25	Yi	6B,34B	3T
26	Mistral	7B		欧洲
27	Yuan-2	2B,51B,102B
28	Mistral 7BX8 MoE	56B		7BX8 MoE

非基础大模型

WizardLM，WizardMath，WizardCoder
Alpaca
Vicuna
Guanaco
CodeLLaMA
- 7B,13B,34B，基于LLaMA2，增加了650B左右的代码词元进行增量训练和微调

模型架构

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球！想要资料、进交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司，即可。然后就可以拉你进群了。

方式①、添加微信号：mlc2060，备注：大模型资料 or 技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：大模型资料 or 技术交流

在这里插入图片描述

文章来源:https://blog.csdn.net/m0_59596990/article/details/135051476
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！