自从最近微软凭借OpenAI
和ChatGPT火了一把之后呢
老对手Google就总想着扳回一局
之前发布了硬刚ChatGPT的Bard
但是没想到翻车了
弄巧成拙
所以呢Google这一周又发了个大招
发布了史上最大的视觉语言模型PaLM-E
这个模型有多夸张呢
参数量高达5,620亿
是ChatGTP-3的三倍
这个模型结合了5,400亿参数的PaML模型
以及220亿参数的ViT模型
不仅可以理解图像
还能理解和生成语言
执行各种复杂的机器人指令
而且重点是无需重新训练
PaLM-E可以直接分析
来自机器人摄像头的数据
无需对场景进行预处理
而且实验结果证明
模型的正迁移能力
也相当强大
接下来我们看几个PaLM-E的demo视频
相信你一定会有通用AI
很快就要到来的感觉
第一个demo
是基于机器人摄像头的视觉反馈
任务是从抽屉里把薯片拿给我
注意这个过程中还加入了对抗性干扰
即便实验人员多次移动薯片
机器人仍然能够重新抓取
而且最后还把抽屉给合上了
并且把薯片交给实验人员
注意这个视频是4倍速播放的
所以实际的速度应该并不快
第二个demo
是让机器人把绿色的星星拿过来
这个绿色的星星
是机器人之前没有直接接触过的物体
第三个demo
是让机器人按照不同的颜色
将积木块放到不同的
角落
可以看到
机器人可以很好的规划
和执行长期任务
并且详细分解说明了
机器人的每个步骤是如何规划的
这个demo是让机器人将剩余的积木块
移到已有的积木组中
PaLM-E会将它分解成多个低级的策略
比如将黄色六边形移动到绿色心形旁
和把蓝色三角形移动到积木组中
而下一个demo
是让机器人
将海洋色的积木块放到一起
可以看到
机器人也可以准确识别出
蓝色的积木块
最后
实验人员还演示了两个泛化的示例
一个是将红色积木块推到咖啡杯中
这个数据集
只包含了3个带有咖啡杯的演示数据
并且没有一个含有红色的积木块
另一个示例
是让机器人将绿色的积木块
推给乌龟
即使机器人以前从来没有见过乌龟
它也能够成功的执行任务
在零样本推理
方面
PaLM-E可以在给定图像
的情况下
讲一个笑话
并展示了包括感知
基于视觉的对话
和规划
在内的能力
对于多张图的关系
PaLM-E也整的很明白
比如图1中的哪个物品在图2中没有
PaLM-E还可以
在给定带有手写数字的图像后
执行数学运算
比如对于这张餐馆手写的菜单
PaLM-E可以直接算出
两张披萨需要多少钱
谷歌的研究人员计划未来将探索PaLM-E
在现实世界中的更多应用
例如家庭自动化
或者工业机器人
也希望PaLM-E
能够激发更多关于多模态AI的应用