你可能已经听说过Meta(原Facebook)的Llama 2,这是一款拥有13亿参数的语言模型,能够生成文本、代码、图像等多种内容。
但是你知道吗,有一家法国的创业公司Mistral AI,推出了一款只有7.3亿参数的语言模型,却能够在各种标准的英文和代码基准测试中,击败Llama 2和其他所有目前可用的开源模型。
这款神奇的语言模型就是Mistral 7B。
Mistral AI是谁?
Mistral AI是一家成立于2023年6月的法国人工智能创业公司,由前Meta和DeepMind的研究员组成。他们在6月份就获得了1.13亿美元的种子轮融资,显示出投资者对他们开源理念的信心。他们的愿景是创建一个开放、可靠、高效、可扩展、可解释和可审计的人工智能平台。
Mistral 7B有什么特点?
Mistral 7B最大的特点就是它是完全开源的,没有任何使用限制。
Mistral AI认为,开源的、社区驱动的模型开发是未来的趋势,也是对抗审查和偏见等人工智能伦理挑战的最有效的方式。他们希望通过公开透明的模型,让公共机构和私营企业能够审计生成系统的缺陷,以及检测生成模型的不良用途。
Mistral 7B各项指标都十分优秀
Mistral 7B 与 Llama 2 家族模型进行了比较
基准测试分类:
常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge 和 CommonsenseQA 的 0-shot 平均值;
世界知识:NaturalQuestions 和 TriviaQA 的 5-shot 平均值;
阅读理解:BoolQ 和 QuAC 的 0-shot 平均值;
数学:maj@8 的 8-shot GSM8K 和 maj@4 的 4-shot MATH 的平均值;
代码:0-shot Humaneval 和 3-shot MBPP 的平均值;
热门聚合结果:5-shot MMLU、3-shot BBH 和 3-5-shot AGI Eval(仅限英文多项选择题)。
Mistral 7B能够根据特定的任务和用户需求进行定制。这对于那些希望降低成本同时保持性能的企业来说,是非常有利的。
Mistral AI还采用了一些先进的技术,如分组查询注意力(Grouped-query attention)和滑动窗口注意力(Sliding window attention),来提高推理速度和处理长序列的效率。
总结
Mistral 7B是一款开源的超大语言模型,能够超越Llama 2和其他开源模型,在各种任务上表现出惊人的能力。
Mistral 7B Instruct 模型快速演示了基本模型可以轻松微调以实现引人注目的性能。
它是Mistral AI的第一个重要产品,也是他们实现开放、可靠、高效、可扩展、可解释和可审计的人工智能平台的第一步。
公司网址:
https://mistral.ai/
开发文档:
https://docs.mistral.ai/
模型地址:
https://docs.mistral.ai/llm/mistral-v0.1