新闻中心

EEPW首页 > 智能计算 > 业界动态 > 开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

作者:时间:2023-12-12来源:量子位收藏

一条神秘磁力链接引爆整个 圈,现在,正式测评结果终于来了:

本文引用地址:http://www.eepw.com.cn/article/202312/453814.htm

首个开源 MoE 大模型 Mixtral 8x7B,已经达到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。

(对,就是传闻中 GPT-4 的同款方案。)

并且由于是稀疏模型,处理每个 token 仅用了 12.9B 参数就做到了这般成绩,其推理速度和成本也与 12.9B 的密集模型相当。

消息一出,再次在社交媒体上掀起讨论热潮。

创始成员 Andrej Karpathy 第一时间赶到现场整理起了笔记,还高亮出了重点:这家“欧版 ”透露出的最强模型,还只是“中杯”。

p.s. Mixtral 8×7B 甚至只是小杯……

英伟达 AI 科学家 Jim Fan 则赞说:

每个月都会有十几个新的模型冒出来,但真正能经得住检验的却寥寥无几,能引发大家伙热烈关注的就更少了。

并且这波啊,不仅是模型背后公司 Mistral AI 大受关注,也带动 MoE(Mixture of Experts)再次成为开源 AI 社区的最火议题。

HuggingFace 官方就趁热发布了一篇 MoE 的解析博文,同样打出了“转发如潮”的效果。

值得关注的是,Mistral AI 的最新估值已经冲破 20 亿美元,在短短 6 个月中增长了 7 倍多……

基本超越 Llama 2 70B

说起来,Mistral AI 这家公司也是不走寻常路。隔壁大厂前脚刚轰轰烈烈搞发布会,慢慢悠悠发模型,他们可倒好,直接来了个程序颠倒:

先甩链接开放下载,又给 vLLM 项目(一个大模型推理加速工具)提了 PR,最后才想起来发布技术博客给自家模型整了个正经官宣。

△ 模型一开始是酱婶发布的

那么还是先来看看,官方给出了哪些信息,与这两天吃瓜群众自己扒出来的细节有何不同。

首先,官方自信地表示:

Mixtral 8×7B 在大多数基准测试中都优于 Llama 2 70B,推理速度快了 6 倍。

它是最强大的、具有宽松许可的开放权重模型,也是最佳性价比之选。

具体来说,Mixtral 采用了稀疏混合专家网络,是一个 decoder-only 的模型。在其中,前馈块会从 8 组不同的参数组中进行选择 ——

也就是说,实际上,Mixtral 8×7B 并不是 8 个 7B 参数模型的集合,仅仅是 Transformer 中的前馈块有不同的 8 份。

这也就是为什么 Mixtral 的参数量并不是 56B,而是 46.7B。

其特点包括以下几个方面:

  • 在大多数基准测试中表现优于 Llama 2 70B,甚至足以击败 GPT-3.5

  • 上下文窗口为 32k

  • 可以处理英语、法语、意大利语、德语和西班牙语

  • 在代码生成方面表现优异

  • 遵循 Apache 2.0 许可(免费商用)

具体测试结果如下:

另外,在幻觉问题方面,Mixtral 的表现也由于 Llama 2 70B:

在 TruthfulQA 基准上的成绩是 73.9% vs 50.2%;在 BBQ 基准上呈现更少的偏见;在 BOLD 上,Mixtral 显示出比 Llama 2 更积极的情绪。

此次与 Mixtral 8×7B 基础版本一起发布的,还有 Mixtral 8x7B Instruct 版本。后者经过 SFT 和 DPO 优化,在 MT-Bench 上拿到了 8.3 的分数,跟 GPT-3.5 差不多,优于其他开源大模型。

目前,Mistral 官方已经宣布上线 API 服务,不过还是邀请制,未受邀用户需要排队等待。

值得关注的是,API 分为三个版本:

  • 小小杯(Mistral-tiny),对应模型是 Mistral 7B Instruct;

  • 小杯(Mistral-small),对应模型是这次发布的 Mixtral 8×7B;

  • 中杯(Mistral-medium),对应的模型尚未公布,但官方透露其在 MT-Bench 上的得分为 8.6 分。

有网友直接把 GPT-4 拉过来对比了一下。可以看到,中杯模型在 WinoGrande(常识推理基准)上的得分超过了 GPT-4。

价格方面,小小杯到中杯的输入和输出价格分别是每一百万 token0.14~2.5 欧元和 0.42~7.5 欧元不等,嵌入模型则是 0.1 欧元每百万 token(1 欧元约合 7.7 人民币)。

而在线版本,目前还只能到第三方平台(Poe、HuggingFace 等)体验。

能看懂中文,但不太愿意说

虽然官方通告中并没有说支持中文,但我们实测(HuggingFace Chat 中的在线版,模型为 Instruct 版本)发现,Mixtral 至少在理解层面上已经具备一定中文能力了。

生成层面上,Mixtral 不太倾向于用中文来回答,但如果指明的话也能得到中文回复,不过还是有些中英混杂的情况。

面对更多的“弱智吧”问题,Mixtral 的回答虽中规中矩,但看上去至少已经理解了字面含义。

数学方面,面对经典的鸡兔同笼问题,Mixtral 的回答从过程到结果都完全正确。

即使是高等数学问题,比如复杂的函数求导,Mixtral 也能给出正确答案,更难能可贵的是过程没什么问题。

而此次的官方通告中专门强调了 Mixtral 的代码能力很强,所以也受到了我们的重点考察。

一道困难难度的 LeetCode 下来,Mixtral 给出的代码一次就通过了测试。

给你一个未排序的整数数组 nums,请你找出其中没有出现的最小的正整数。

请你实现时间复杂度为 O (n) 并且只使用常数级别额外空间的解决方案。

但随着我们继续提问,Mixtral 的回答一不小心暴露了自己可能专门针对 LeetCode 做过训练,而且还是中文版 LC。

为了更加真实地展示 Mixtral 的代码能力,我们转而让它编写实用程序 —— 用 JS 写一个 Web 版计算器。

经过几轮调整之后,虽然按钮的布局有些奇怪,但基本的四则运算已经可以完成了。

此外我们会发现,如果在同一个对话窗口中不断补充新的要求,Mixtral 的表现可能会有所下降,出现代码格式混乱等问题,开启新一轮对话后则会恢复正常。

除了 API 和在线版本,Mistral AI 还提供了模型下载服务,可以用



关键词: OpenAI ChatGPT AI

评论


相关推荐

技术专区

关闭