视觉语言导航任务的一个挑战是如何处理智能体偏离参考路径的“偏离路径”场景(即智能体偏离指令规定的参考路径)。先前的工作根据从智能体的位置到目标点的最短路径来对智能体进行监督,这种以目标为导向的监督通常与指令的描述不一致,并且先前工作采用的评估指标并不能衡量智能体能够遵循多少语言指令。在本文,提出一种语言对齐监督方案,以及一个可以衡量智能体在导航过程中完成的子指令数量的新度量。
语言对齐监督方案鼓励智能体在每一个导航时间步都向与语言对齐的路径上(即参考路径)最近的路点移动,从而监督智能体更好地遵循指令(见图1)。
图中的蓝色路径表示语言指令的参考路径,红色路径代表到目标点的最短路径;与语言对齐的蓝色箭头鼓励处于任何位置(黑色圆圈)的智能体向与语言指令对齐路径上最近的路点移动,对于VLN任务来说,与目标导向的监督(红色箭头)相比,这是一个更好的监督信号。
本文所提方法在VLN-CE数据集上进行评估。VLN-CE数据集中包含语言指令和参考路径的导航集,其中的参考路径是这样构建的:通过采用与全景相机位置相对应的离散导航图节点(称为pano waypoints,如图2顶部的灰色圆圈表示),并取它们之间最短的测地距离,创建由密集航路点(步长航路点,见图2中的虚线路径)组成的ground truth参考路径,对应的智能体步长为0.25m。