参考论文:Core Challenges in Embodied Vision-Language Planning
论文作者:Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh
论文原文:https://arxiv.org/abs/2106.13948
论文出处:Journal of Artificial Intelligence Research 74 (2022) 459-515
论文被引:27(11/19/2023)
目前在 EVLP 中使用的度量标准可分为五类,分别从不同角度测量智能体性能:
评估智能体是否成功完成任务的指标在所有 EVLP 任务中都有不同形式的应用。VLN 和 VDN 等指令遵循任务通常将成功率 (Success Rate,SR)定义为智能体距离目标 d t h d _{th} dth? 在阈值距离范围内的比例。不同数据集的距离 d t h d _{th} dth? 各不相同,
这种测量方法有一些弱点,特别是对于离散化的状态-动作空间(state-action spaces),它相当依赖于所述离散化的粒度(Thomason et al.,2019a;Krantz et al.,2020)。此外, d t h d _{th} dth? 的变化也会影响 SR,这可能会产生误导性结果,正确的执行可能会被认为是错误的(Blukis et al.,2019)。
EQA 没有目标位置的概念;相反,成功与否是根据输出空间的准确性来衡量的,即问题解答的准确性(Das et al.,2018a;Gordon et al.,2018)。其他可以使用的常用分类指标包括(Valuations,2015):
这些指标中的任一指标的每类性能也可用于衡量模型是否通过输出常见回复来提高准确率,而这是以牺牲少数类别的性能为代价的。
在大多数情况下,只有当智能体接近最终目的地,回答问题或满足操作指令后,任务才被视为 “complete”。不过,某些数据集,如 ALFRED(Shridhar et al.,2020),Lani(Misra et al.,2018)和 CerealBar(Suhr et al.,2019)也会报告子目标完成情况。例如,增加子目标评分有助于利用子任务的模块性和层次性(Shridhar et al.,2020;Jansen,2020),或缓解成功度量的问题,例如任务早期的失败会影响后面的步骤(Suhr et al.,2019),从而难以评估每个时间步的智能体能力。为了解决这个问题,CerealBar 将轨迹 T 评估为 |T | - 1 个子路径,每个子路径都比下一个短:取这些运行的平均成功率,衡量模型从错误中恢复的能力。子目标评分的另一个好处是,可以更容易地找出具体的智能体错误并进行分类。
虽然成功率是一种直观的衡量标准,但它所提供的关于智能体在空间中行进效率的信息非常有限。在导航和操作任务中,距离度量可以量化这类信息。这方面的两个有用指标:
从本质上讲,距离不仅可用于推导 VLN 和 VDN 的成功指标,还可用于量化智能体路径的误差和效率。就导航而言,这衡量的是导航员偏离目标的程度。这为评估和比较模型性能增加了一个维度。
距离度量无法捕捉到智能体是否遵循了真实路径(ground-truth path)。对于 VLN 和 VDN 等遵循指令的任务,用户会指定一条带有指令的路径,我们可能希望明确遵循这些指令,而不是寻找最短路径。Jain et al.(2019)讨论了路径相似度度量的必要条件:
我们相信,这些需求可以更广泛地应用于任何指令跟随任务。早期衡量路径跟随的指标之一是编辑距离(Chen et al.,2019b)。
Ilharco et al.(2019)在此基础上提出了两种测量方法:
这些度量指标具有许多理想的特性:它们尊重上述理想条件,可有效用作基于 RL 的智能体的奖励信号,并可与人类判断进行比较。与 CLS、SPL、SR 等替代方案相比,这些特性使它们始终更受青睐。
不同的方法可用于衡量图像和文本形式的路径之间的对齐:
虽然这些方法最初用于 VQA,但最近也被改用于 VLN(Zhao et al.,2021)。
对齐度量也可作为训练的一部分。
EGM 和 EOR 需要通过遮蔽或从真实边界框中选择目标。Chen et al.(2019b)和 Shridhar et al.(2020)使用交并比(Intersection over Union,IoU)作为评估指标,这是 CV 中常用的指标,特别是在目标检测任务中(Padilla et al.,2020)。然而,这并不是唯一的指标,也不是信息量最大的指标。
最近,Kim et al.(2020)提出了三个指标来评估目标的选择效果:
CTC 衡量选择的目标是否正确;PTC 衡量放置的目标是否正确。需要注意的是,CTC 和 PTC 都可以看作是阈值 IoU 问题,因为有些智能体(Shridhar et al. 2020)就是这样决定是否拾取一个目标的。rPOD 是一种标准化的测量方法,如果物体的摆放位置与理想位置相差甚远,则得分为接近零分;如果摆放位置完全正确,则得分为 1 分。
虽然只适用于 EGM 和 EOR,但测量目标选择交互的质量也很重要。这是任务的另一个方面,也是了解语言的哪些方面对模型来说更难的一个好方法。目标识别方面的最新研究(Padilla 等人,2020 年)表明,有许多衡量标准和变体。在这些任务中,即使是更传统的指标,如精度、召回率和 F 分数,目前也没有报告。这样做可以提供更多有关边界框准确性的信息。此外,我们还可以报告每个类别的准确率,这将有助于识别哪些目标未被模型检测到。