2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。
开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?
迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。
开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变大型科技公司的竞争格局。
今天我来分享一些广受好评的开源的基础大模型,非基于基础模型的微调模型,列表如下:
序号 | 名称 | 参数规模 | 数据规模 | 说明 |
---|---|---|---|---|
1 | LLaMA-2 | 7B,13B,34B,70B | 2T | 可商用 |
2 | Falcon | 7B,40B,180B | 3.5T | 数据集 RefinedWeb |
3 | baichuan-2 | 7B,13B | 2.6T | 开放,商用需授权,baichuan-1 |
4 | InternLM | 7B,20B | 2.3T | 开放,商用需授权 |
5 | BLOOM | 3B,7.1B,176B | 366B | 可商用,最为宽松,详细介绍 |
6 | GALACTICA | 6.7B,30B,120B | 106B | 开放的科学文本和数据 |
7 | LLaMA | 7B,13B,30B,65B | 1.4T | Meta,代码开源,模型“泄露”,不可商用,详细介绍 |
8 | MOSS-moon | 16B | 700B | 6.67x1022 FLOPs |
9 | ChatGLM2 | 6B | 1.4T | |
10 | StableLM | 3B,7B | 800B | |
11 | RedPajama-INCITE | 3B,7B | 1T | |
12 | GPT-NeoX | 20B | 3.15M | 800GB的The Pile数据集 |
13 | OpenLLaMA | 3B,7B,13B | 1T | |
14 | MPT | 7B,30B | 1T | |
15 | Pythia | 2.8B,6.9B,12B | 300B | |
16 | XGen | 7B | 1.5T | |
17 | OPT | 6.7B,13B,30B,66B,175B | 180B | |
18 | Qwen | 7B,14B,72B | 2.4T,3.0T,3.0T | |
19 | XVERSE | 13B,65B | 1.4T,2.6T | |
20 | Aquila2 | 7B,34B | 2T | |
21 | Prithvi | IBM+NASA,地理空间,100M(图片) | ||
22 | Skywork | 13B | 3.2T | 昆仑万维·天工 |
23 | Deepseek Coder | 1.3B,6.7B,33B | 2T | Deepseek Coder comprises a series of code language models trained on both 87% code and 13% natural language in English and Chinese, with each model pre-trained on 2T tokens. |
24 | Aquila | 7B | 悟道·天鹰 | |
25 | Yi | 6B,34B | 3T | |
26 | Mistral | 7B | 欧洲 | |
27 | Yuan-2 | 2B,51B,102B | ||
28 | Mistral 7BX8 MoE | 56B | 7BX8 MoE |
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
建了技术交流群&星球!想要资料、进交流群的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司,即可。然后就可以拉你进群了。
方式①、添加微信号:mlc2060,备注:大模型资料 or 技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:大模型资料 or 技术交流