在刚刚过去的前两天
谷歌发布了号称最强的多模态大模型Gemini
不仅提供了Ultra
、Pro
和 Nano
版本
而且在32项学术基准
中
Gemini Ultra
都达到了SOTA
水平
甚至在MMLU测试
中
Gemini Ultra
的得分率高达 90.0%,
是第一个超过人类专家的模型
应该说,Gemini这次的关注度
很大程度上是因为它的一段演示视频
爆火了全球
像《钢铁侠》的AI助手贾维斯
一样
谷歌Gemini
一边看着用户绘画、变魔术、放视频
一边实时对画面进行分析
并主动和用户对话交谈
让人大呼惊叹
不过,质疑声也随之而来
像Hugging Face
的技术主管菲利普?施密德(Philipp Schmid)
这样的产业大佬
就称谷歌夸大了测评成绩
同时这段宣传视频也被曝出不是实时演示录制
而是精心挑选和剪辑的营销内容
对此
谷歌立刻甩出了Gemini演示视频的制作记录文章
大方承认视频经过了后期处理
并秀出在视觉谜题
、多模态对话
、逻辑与空间推理
、翻译视觉效果
等方面的交互过程图文解析
昨天
谷歌DeepMind研究与深度学习主管
、奥里奥·维尼亚尔斯(Oriol Vinyals)
再度自证
在X平台
上发文称
视频中的所有用户提示和输出都是真实的
简洁起见做了缩减
并发布了一段Gemini Pro的对应演示视频
但是网上的原宣传视频是用Gemini Ultra演示
的
因此这也招来网友质疑
为什么不敢放出原视频?
我们今天希望通过逐帧拆解
谷歌Gemini演示视频背后的形成过程
和技术原理
尝试探索一下Gemini的真正能力
到底能达到何种地步
到底是不是在造假
相信大家看完视频后自有判断
在谷歌发布的Gemini演示视频中
看着十分抽象的简笔画
、几秒闪过的短视频
接收语焉不详的问题
Gemini却能立马明白用户的意图
给出正确的答案
并不动声色的展现出自己文理兼修的实力
第一个场景
Gemini一眼可以看出天文知识Bug
这样排序正确吗?
不,正确的顺序是太阳、地球、土星
只有几张简笔画,一个抽象的问题
Gemini不仅识别出了图中所画的对象是什么
还准确根据自己的天体物理知识
推断
出顺序摆放不对
说实话我第一次看的时候
连图上内容和题目都还完全理解清楚呢
那Gemini又是如何做到对答如流的呢?
莫不是真的是已经成精了?
不过
在我看了谷歌第一次发布的解析文件
之后
才发现工作人员真实输入的提示词
可能不是如视频中所示
而是一系列非常照顾Gemini理解的句子
根据谷歌发布的文章
工作人员首先给Gemini看了三张按顺序摆放的天体图片时
他输入的内容是:“这是正确的顺序吗?
考虑与太阳的距离并解释你的推理”
可见图片对象
、知识点
和回答要求
都被谷歌工作人员给提示到了
这就好像给考题标注了解题思路
而Gemini是在理解其中含义的基础上作答的
不
正确的顺序是太阳、地球、土星
太阳距离太阳系中心最近
其次是地球
然后是土星
而根据谷歌方发出的第二次解读
用户首先需要输入一段关于模拟专家身份的说明
然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案
这个提示词前置的方法
本质与之前的做法是类似的
谷歌这次宣布了Gemini三个版本
适用于高度复杂任务的Gemini Ultra、
适用于各种任务的最佳模型Gemini Pro
以及适用于端侧设备的Gemini Nano
目前,接入Bard的为Gemini Pro
与GPT-3.5是一个能力层级
在评测过程中发现
Bard对前面提到的两种提示词方式
都会给出同一正确答案
在第二道题中
谷歌员工给到两张小车的图片让Gemini做松木赛车挑战
其实也是给了比较详细的提示词
在演示视频中,Gemini只是被问了
从设计上看,哪个车会跑得更快
Gemini立刻回复,右边的车更快
它更符合空气动力学
既要识别左右两辆车
又得自己联系空气动力学知识点
Gemini看起来确实有点神
但是实际上
这也似乎不是仅靠原有提示词触发的效果
按照谷歌发布文章的解读
谷歌工作人员输入的内容是
这些汽车中哪一辆更具空气动力学性能?
左边那个还是右边那个?
使用具体的视觉细节解释原因
Gemini回答
右边的车更符合空气动力学
它具有更低的轮廓和更流线型的形状
左边的汽车轮廓更高
形状更四四方方
这使得它的空气动力学性能较差
可见,问题其实是限定的比较死的
因此Gemini的回应也比较严丝合缝
也就是说
Gemini确实是具备空间推理和专业知识能力的
但这离不开提示词的帮助
通过提供图片空间信息
和背后知识点线索
提示词工程师
和Gemini一起完成了挑战
在随后的另一个场景中
Gemini还可以轻松识别模仿的电影桥段
他们在演什么电影?
我想他们是在表演《黑客帝国》中
著名的“子弹时间镜头
通过一段几秒钟的视频
Gemini就推断出了这出自哪一部电影
并且还给出了具体涉及的剧情桥段
这可能是很多人都做不到的事
但是按照谷歌的解析文件
这个例子背后制作过程却不是视频呈现的那么简单
而是更详细的提示词做支持
当谷歌工作人员向Gemini展示视频的几帧静止画面
让它猜电影
猜猜我在演什么电影
Gemini回答,黑客帝国
工作人员进一步说,好了!
但具体是哪一部分呢?
看我的身体动作
Gemini回答,尼奥躲避子弹的部分
可以看到
谷歌解析文件里介绍的Gemini并不是如视频里呈现的“贾维斯”
,
或许更像一个需要老师循循善诱的“小朋友”
。
应该说
Gemini的酷炫演示效果离不开提示词的助攻
但是不能抹去核心逻辑推理能力
的功劳
比如Gemini拆解经典魔术的功力
也让很多人惊掉下巴
大呼魔术师要失业了
这是这绝不仅仅是靠输入策略
实现的
在这个例子的演示中
谷歌工作人员先展示了握在右手心里的硬币
然后双手翻转,手心向下
还没等工作人员发话
Gemini就迫不及待地说
硬币应该在右手下面
然后工作人员并没有说话
而是拿起右手
只见右手下根本没有硬币
Gemini对此连忙回应,嗯
我不知道,硬币在左手下面
你运用了一些手法
使硬币看起来好像消失了
工作人员啥也没说
Gemini就像一个人似得知道这是在变魔术
并且根据手势变化给出了一波猜测
这实在让人匪夷所思
Gemini为什么能不需要“唤醒”
就明白了工作人员想问什么?
又为什么能看穿这个魔术?
前者很可能是一个剪辑后的效果
幕后演示应该是先有提示词
同时,Gemini对这一魔术的破解
也是在工作人员一步步的提示
推动下完成的
按照谷歌公开的制作过程
谷歌工作人员先输入一张照片说
解释一下我在做什么
Gemini回答,你右手拿着一枚硬币
紧接着,工作人员紧接着按下硬币
问,你认为硬币在哪里?
Gemini回答,硬币在你的右手
这是一个合乎逻辑的答案
但是工作人员向Gemini展示下一张图片时玩了点花招
他打开右手,并没看到硬币
并说,看看这里,发生了什么?
Gemini回答,硬币不见了
Gemini注意到硬币不见了
但它能概括出刚刚发生了什么事吗?
于是工作人员说,从第一张图片开始
逐步总结可能发生的情况
这一步十分关键,Gemini回答,
1、一开始,你右手拿着一枚硬币
2、然后你用手做了一个动作,硬币就消失了
3、然后你表明硬币不见了
可见
Gemini正在利用这次对话的整个背景
包括文本和图像,来总结它的答案
最后工作人员再问道
你能解释一下它是如何消失的吗?
Gemini回答,硬币被捧在手里
所以说
Gemini是在工作人员一步步的引导下
完成了时间线的推理
从而看透了这个“魔术”
。
而这种时间线推理能力
意味着对事情的先后有明确的判断
懂得事情发生的因果,而不仅是规律
这是Gemini令人赞叹的地方
当然
也有博主将Gemini的这一能力与GPT-4对比
发现后者也能完成一些类似任务
比如猜出东西在三只杯子的哪一个里面
在视频中
很多人对Gemini创作的“你指我猜”游戏
印象深刻
但是Gemini并不是天生游戏高手
而是先经过了求师学艺
这是怎么回事呢?
我们先来回顾下Gemini的神操作
谷歌工作人员给到Gemini一张海洋地图称
根据你所看到的
想一条游戏创意,并加入表情符号
Gemini立马回复,这样如何?
我们来玩“猜国家”的游戏
工作人员说,可以,我们开始吧
于是Gemini就给出了一个提示
这个国家是袋鼠、考拉和大堡礁的故乡
工作人员说,哦,这太简单了
随即
他指出了地图上澳大利亚的位置
Gemini回复,正确
这种几秒中之内想出一个复杂交互的游戏
令很多人赞叹
但是,这是因为
Gemini在之前得到了特别的“紧急训练”。
首先
工作人员向Gemini提示这个游戏的核心思想
说明,我们来玩一个游戏
想想一个国家并给我一个线索
线索必须足够具体
只有一个正确的国家/地区
我会尝试在地图上指出该国家/地区
接下来
工作人员为Gemini提供了一个游戏玩法示例
以此展示它被期待如何处理错误和正确答案
接下来
工作人员对Gemini的学习情况进行测试
他先试了一道题
这个国家以其独特的野生动物而闻名
包括袋鼠和考拉
答案当然是澳大利亚
工作人员首先尝试指向错误的地方
Gemini猜测
一个人用右手食指指着世界地图上的巴西
因为该地图包括蓝色的海洋和没有国家边界的绿色大陆
因此不正确
Gemini的推断是正确的
接下来工作人员指向地图上的正确位置澳大利亚
Gemini给出判定:正确
可以看到
Gemini之所以能够创作游戏
是工作人员提前告诉了它存在这样一个游戏
相当于一个更复杂的提示文段
虽然Gemini并不是天生能设计出这个游戏
但是却展现出了极强的图文多模态理解能力
仅仅通过举例
具体说是通过例子里的插图
Gemini就学会了一个复杂游戏逻辑
这可能就比很多人要强
不同于市面同行将视觉和文本模型拼接的做法
Gemini是业内少有的从头开始构建的多模态大模型
它可以同时识别和理解文本、图像、音频、视频和代码五种信息
这意味着用户可以自然地交错输入
说几句话
添加图像、文本,或是短视频
同样
模型也会自然地交错文本和图像作为输出
此外
Gemini还可以用图文结合的方式
回应用户需求
具备“交错文本和图像生成”能力
这或许也是它的一个“杀手锏”。
在演示视频中
当谷歌工作人员让Gemini帮他想想这些材料可以做什么时
Gemini随即给出了“编织的火龙果和生日蛋糕”
的建议
而且Gemini给的答案不仅有文字建议
还有对应的图片示意
当工作人员将绿色的毛线换了一团蓝色的
并要求Gemini帮他想一些动物造型之后
Gemini立马给出了编织的小猪、章鱼和兔子三个建议
并给出了对应的示意图
这是如何实现的?
谷歌的图文交错生成模式
在业内还比较少有
当然也离不开提示词的配合
首先
谷歌工作人员给Gemini提供了一个交互示例
然后谷歌人员告诉Gemini的核心互动规则
我会给两个毛线球拍一张照片
我希望你(Gemini)都能想出一个我可以制作的东西的想法
并生成它的图像
紧接着
谷歌人员向Gemini展示了一对它从未见过的新纱线颜色
看看它是否可以概括
给我三个关于我可以用这两种颜色制作的钩针作品的想法
随后,Gemini立马给出了三个建议
可以看到
Gemini正确地识别了新颜色
并给出了比较合适的建议
虽然提示词功劳不小
但这个应用还是牛在背后的“交错文本和图像生成”能力
谷歌创意总监亚历山大·陈(Alexander Chen)
称
Gemini的图文输出从根本上有别于今天市面上的文生图模型
因为
它不仅是将指令传递给单独的文生图模型
还能看到木桌上的实际图像
真正对文本和图像进行多模态推理
不过
陈也坦言这个功能在Gemini初版本
中还没开放
只是放出来给大家看一眼
交错文本图像生成能力
图文多模态理解能力
最后一个场景
是Gemini秀了一下图音画的联动能力
图音画联动能力
画图触发背景音乐
可以说是本次演示的另一神来之笔
展现出了Gemini在插件扩展方面的野心
当谷歌员工画出一把吉他的简笔画
Gemini立马说我看到你正在画吉他
并随即播放了一首吉他相关的曲子
当画面上多了一个类似音箱的图像
Gemini称你给吉他加了一个扬声器
我们现在可以放点更响亮的音乐了
于是音乐立马被切换成了一首
更响亮的交响曲
随着画布上增加了鼓
Gemini主动将音乐换成了带鼓点的音乐
画布上增加了椰树
Gemini则主动切换了一首更加惬意的音乐
根据我们前面的分析啊可以知道
要实现这些效果
Gemini大概率也是需要谷歌员工先发出提示词来触发的
根据陈的解读
当谷歌工作人员输入以下图片及文字的时候
Gemini就能够看图搜索音乐
步骤一观察这幅图画
描述其中的所有内容
并针对良好的音乐配乐、流派、情绪或者是配乐
提出有趣而且具体的想法
步骤二通过以下形式提供搜索查询
及搜索[插入查询]
Gemini对此回应这个图画的是吉他、鼓和扩音器
还有一棵棕榈树
气氛有趣、乐观,充满热带风情
流派是雷鬼音乐
这个配乐可以用于以热带地区为背景的电影或者是电视节目
搜索热带度假的雷鬼音乐
可见图片理解和插件操作
一气呵成
Gemini通过画图搜索音乐的应用
实际上是为了展示
它的图像理解与应用插件结合的能力
那就是Gemini会对他所看到的内容进行推理
然后生成一个搜索查询
进而搜索到所需要的配套的应用插件
从这个过程来看
Gemini强调的是一种多模态的翻译能力
这不是语言的翻译
而是从绘画、音乐到思维、插件应用的多种模态的翻译
通过多模态提示
用户可以使用Gemini在不同的输入和输出之间
发明自己的全新的翻译效果
好了通过深扒谷歌Gemini的演示过程
我们可以发现
谷歌Gemini的这次发布呢
说造假有些言过其实
但是确实显然存在夸大和误导
的情况
也怪不得股价又一次在发布会后大幅下跌
不过呢也可以看到
谷歌在多模态对话
、多模态生成
逻辑与空间推理
、翻译视觉效果
文化理解
等等方面呢
确实拿出了实力
向OpenAI发起了强有力的挑战
落地情况到底怎么样呢
还要等Gemini Ultra发布之后
看看真实效果才知道
我们也会再继续的跟踪报道
可以预见到的是
谷歌Gemini与OpenAI的GPT两大阵营的竞赛即将打响
也就是说
将在模型的能力
应用家族
以及生态方面
展开更加深入的比拼
而开源大模型
与头部玩家
的差距呢或许会变得更大
行业的头部效应会更加的明显
另一方面
我想说从这次发布会也可以看出
大模型的底层研发是有多难
连谷歌都要靠强力的粉饰
才能够拿得出手
可见承压之大
虽然从Bard到Gemini
谷歌一直没有拿出足够有说服力的产品
AI革命的决心
也总让人感觉他有些犹犹豫豫的
但是我还是希望
市场上不是只有OpenAI和GPT
一家独大
应该多有一些有实力的玩家存在
让行业更加良性的竞争和发展下去