论文标题:
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
论文作者:
William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
项目地址:
https://f3rm.csail.mit.edu
导读:
研究提出了一种新的方法F3RM(Feature Fields for Robotic Manipulation),将3D几何信息与2D基础模型的语义信息相结合,实现对非特定实验场景的泛化功能。根据少量标注样本的学习,机器人可以根据语言引导,完成6自由度抓取和放置任务。??【深蓝AI】编译
自监督和语言监督的图像模型包含丰富的有利于泛化学习的先验知识,许多机器人任务需要对3D几何结构有详细的了解,而2D图像特征通常缺乏这些信息。研究者在此项工作中通过利用提取的特征字段将准确的3D几何信息与2D基础模型的语义信息结合,弥补了机器人操作从2D到3D的鸿沟。F3RM提出可以利用强大的空间信息和先验的语义信息来实现对新物体的泛化,并最终用于机器人6-DOF的抓取放置。该方法使用从视觉语言模型CLIP提取出的特征,提供不同语义粒度级别的自然语言指导,实现对新对象的精细化识别抓取功能。
●使用安装在机械臂末端的RGB相机拍摄一系列照片扫描桌面,构建NeRF神经辐射场;
●训练NeRF,用来渲染RGB颜色和图像特征,这些图像特征是由预训练的视觉基础模型产生的;
●提出蒸馏特征场 (Distilled Feature Fields, DFFs),将2D特征图转化嵌入到3D空间中;
●机器人参考语言指令抓取用户指定的物体。
▲图1|蒸馏特征场 ??【深蓝AI】编译
问题总结:如何从多幅RGB图像中得到机械臂需要运动的刚体变换T?如何在少量标注样本学习训练后实现对新物体的精准抓取?
■3.1 F3RM
● 特征提取:
优化
f
f
f,其损失函数为:
L
f
e
a
t
=
∑
r
∈
R
∣
∣
F
∧
(
r
)
?
I
f
(
r
)
∣
∣
2
2
L_{feat}=\sum_{r\in R}||F^{\wedge}(r)-I^{f}(r)||_{2}^{2}
Lfeat?=r∈R∑?∣∣F∧(r)?If(r)∣∣22?其中
I
f
=
f
v
i
s
(
I
)
I^{f}=f_{vis}(I)
If=fvis?(I),表示对RGB图像
I
I
I的一种特征生成函数
f
f
f,
F
∧
(
r
)
F^{\wedge}(r)
F∧(r)通过特征渲染近似估计得到。DFFs主要通过增加额外的视觉模型输出来扩展 NeRF,输出结果构建2D特征。
● 从CLIP中提取稠密的视觉特征:
使用MaskCLIP方法提取特征,并与语言嵌入对齐。同时插入位置编码以适应具有任意长宽比的较大图像。以上方法结合,使2D特征提取速度达到25fps速度。
■3.2 六自由度位姿表示
通过夹具坐标系中的局部3D特征场来表示夹具的姿态。对于6-DOF夹具位姿 T T T,对查询点云中每个点的特征场进行采样,并通过进行变换,如图2(b)所示。
▲图2|六自由度位姿表示 ??【深蓝AI】编译
● 推断6自由度位姿:
包含平移向量的粗调步骤和旋转向量的精调过程。对工作空间内稠密的体素网格进行筛选,接着比较相似性,嵌入计算。
● 位姿优化:
优化损失函数为: L p o s e ( T ) = ? c o s ( z T , Z M ) L_{pose}(T)=-cos(z_{T},Z_{M}) Lpose?(T)=?cos(zT?,ZM?)
其中, z T ∈ R N q ∣ f ∣ , Z M ∈ R N q ∣ f ∣ z_{T}\in R^{N_{q}|f|},Z_{M}\in R^{N_{q}|f|} zT?∈RNq?∣f∣,ZM?∈RNq?∣f∣, N q N_q Nq?是目标点。使用Adam优化器 搜索与嵌入 Z M Z_M ZM?的任务具有最高相似度的位姿。
■3.3 开放对象集的语言引导操纵(Open-Text Language-Guided Manipulation)
自然语言提供了一种将机器人操作扩展到开放对象集的方法,当目标对象的照片不准确或不可用时,自然语言可以作为一种有效的替代方案。该语言引导的小样本操作流程中,在测试时,机器人接收来自用户的语言查询,指定要操作的对象。该项研究的语言引导过程包括三个步骤:
●获得相关演示
●粗略抓取
●语言引导优化抓取位姿
▲图3|语言引导机器人操作流程 ??【深蓝AI】编译
■4.1 示例学习
研究团队测试了5个6-DOF抓取和放置任务,并为每个任务提供了2个演示(如图4所示)。研究人员将NeRF重建的点云加载到VR中,并使用手动控制器将夹具移动到所需的位姿。研究人员比较了三种类型的特征性能,包括DINO ViT、CLIP ViT、CLIP ResNet,同时比较了三个baseline,包括分别使用密度,中间特征和RGB颜色特征的NeRF。与MIRA进行比较,对于每项任务,在10个场景中进行评估,包含任意姿态的新物体以及干扰物体。
▲图4|五个抓取和放置任务 ??【深蓝AI】编译
表1 和图5 分别展示了成功率和机器人执行示例。虽然使用密度,RGB颜色特征和中间特征的baseline实现了比较好的效果,但是仍然难以识别一些对象的语义类别,尤其是在干扰因素较多的复杂场景中。DINO和CLIP特征域表现了较好的泛化能力,并且具有互补优势。DINO ViT对物体几何形状有比较好的zero-shot理解,有7/19的失败案例是因为抓取的旋转不准确以及偶尔的平移不准确造成的,相比之下,CLIP ViT和ResNet的失败率达到21/27。结果显示,CLIP更偏向于语义和分类信息,这对于抓取和放置物体很重要。另一方面,DINO很难区别目标对象和干扰对象,这些干扰对象的视觉外观与演示中使用的对象相似。
▲图5|对新物体的泛化 ??【深蓝AI】编译
▲表1|抓取和放置任务的成功率 ??【深蓝AI】编译
■4.2 语言引导机器人操作
研究者设置13个桌面场景来测试语言引导操作对象的可行性。包含3种对象类别,分别是与学习示例中相似的新对象,有相似几何形状的新对象,干扰对象。
▲表2|语言引导机器人操作的成功率 ??【深蓝AI】编译
总的来说,研究团队在50种语言引导抓取中成功了31次。值得注意的是,机器人仅通过杯子和螺丝刀的学习示例,就可以推广到碗、胶带卷等其他的物体类别。
在这项工作中,作者提出了一种将2D视觉先验信息与3D几何信息相结合的方法,机器人可以通过语言引导在开放场景下进行操作。无需微调,蒸馏特征场DFFs就可以对目标类别、材质和位姿的多样性进行泛化概括。当特征源自视觉语言模型时,提取的特征字段可以提供不同语义粒度级别的语言指导。
未来可以改善的工作:
1)目前系统需要花费1分40秒拍摄场景图像,耗时90秒对特征域进行建模,可以通过增强NeRFs的泛化功能,让它只需要几个视图就可以快速恢复几何形状;
2)研究的视图合成方法其实与GAN合成图像等方法没有太大区别,未来可以提出更有效的替换方法解决通用视觉和几何理解问题。
编译|xlh
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。