源自:应用光学
作者:李楚为, 张志龙, 钟平
“人工智能技术与咨询”? 发布
目标跟踪算法的性能通常和初始跟踪框的质量有关。在无人机对地侦察任务中,由于反应时间有限,操作员通常难以选取精确的初始跟踪框,导致目标跟踪结果较差。针对这一问题,提出一种半自动的跟踪框快速初始化和自适应优化策略,并给出基于视觉显著性和显著图像分割的自适应优化算法样例,在性能提升和运行时间上均具有优势。与优化前相比,在2个数据集上的跟踪成功率最高提升0.262、跟踪精度最高提升0.177;在运行时间方面,处理200像素×200像素的图像切片时,理论并行速度可达10帧/s。提出的跟踪框初始化和优化策略,结合了人的主观选择和视觉认知,可以有效解决无人机对地侦察任务中目标难以锁定的问题,并具备在嵌入式设备中的可移植性。
无人机?/ 目标跟踪?/ 初始跟踪框?/ 视觉显著性?/ 显著区域分割?
随着低成本无人机和嵌入式人工智能芯片的发展[1],单目标跟踪技术在违法取证[2]、精确打击[3]等无人机应用上发挥了重要作用。在计算机视觉领域,单目标跟踪任务是指给定目标初始位置,要求跟踪算法对目标在后续图像帧中的位置进行预测。如果初始跟踪框质量不高,跟踪算法的性能就会大打折扣[4]。初始跟踪框既可以由人手动选取,也可以由算法自动求得,如表1所示。在具备目标先验信息的前提下,可以用模板匹配[5]、目标识别[6]等方式获取目标的初始跟踪框;缺少目标先验信息的场合,则可以用差分法检测运动目标,作为初始跟踪框[7-8]。
表? 1??目标跟踪初始化方法对比
在无人机对地场景中,无人机平台高速运动,与目标之间也存在相对运动[13],使得差分法难以适用。而对于未知的待跟踪目标,基于先验信息的方法又不具备通用性。因此,在无人机对地侦察任务中,采用“手动选取初始跟踪框”这一方式非常有必要。“手动选取初始跟踪框”通常有两种形式:正方形框和任意长宽比的矩形框。由于目标在画面中持续运动,选取贴合目标的矩形框并非易事?人手动选取矩形框平均需要1.5 s,最长则要6 s[12]。在选取矩形框的过程中,目标已经在传感器视场中大幅度移动,会使初始跟踪框偏离目标实际位置,这将直接导致跟踪失败。
目前,一些机载光电吊舱使用正方形框进行手动跟踪的起始,如图1所示。地面控制台采用“摇杆+扳机”的方案,通过摇杆控制正方形框的大小和位置、通过扳机下达跟踪指令。与选取任意长宽比的矩形框相比,这类方案虽然设计简单、操作便捷、便于快速锁定目标,但容易包含过多背景,导致跟踪器性能下降、甚至跟踪失败,如图1所示。
图? 1??实物系统中的典型初始跟踪框(正方形)
资料来源:①https://zala-aero.com/en/usage/security-and-law-enforcement/;②http://www.gemstonepi.com/page/Default.asp?pageID=11。
本文试图解决无人机对地侦察任务中的跟踪框初始化问题。如何在无人机和目标的相对运动过程中,让操作员快速、准确地锁定任意目标,是这一问题的最大难点。本文的贡献主要有3方面:1) 在VisDrone2018-SOT-test-dev[14]数据集上,定量评估了不同偏差的正方形初始跟踪框对跟踪精度的影响;2) 提出了一种结合人的主观选择和视觉认知的跟踪框初始化和优化策略,可以快速、准确地锁定感兴趣目标,并在VisDrone2018-SOT-test-dev和UAVDT[15]数据集上进行了验证;3) 本文提出的策略可以与任意跟踪算法结合,并具备在嵌入式设备中的可移植性。本文提出的跟踪框自适应优化代码在线发布地址为:https://github.com/iammusili/SQUARE_BBOX_OPT。
1.1? ?目标跟踪初始化
单目标跟踪算法包括初始化和更新两个阶段,初始化阶段的输入为第1帧图像和初始跟踪框。为减少人工交互,文献[7]、文献[8]分别利用背景差分法和帧间差分法检测运动目标,将其用作初始跟踪框;文献[10]、文献[11]则利用视觉显著性代替人工标定初始帧。给定目标先验信息,文献[5]将目标模板匹配的结果作为初始跟踪框;文献[6]使用Adaboost人脸分类器检测人脸,实现人脸跟踪首帧自动初始化;文献[9]使用Faster R-CNN (区域卷积神经网络)检测无人水面艇得到原始边框,然后用超像素进行细化,再进行跟踪。上述方法在各自的应用场景中均发挥了较好的作用,但并未与人的主观选择相结合,也并非针对无人机应用场景专门设计。
1.2?? ?视觉显著性
视觉显著性算法通常可分为两类:预测人类注视点,检测图像中的显著物体或区域[16]。早期的视觉显著性研究多为启发性方法。文献[17]提出一种基于生物启发和多尺度图像特征的视觉显著性计算方法;文献[18]使用布尔图理论同时估计注视点和显著区域。随着视觉显著性基准数据集的发展,基于机器学习的方法得到广泛关注。文献[19]将显著图计算视为回归问题,训练基于多层级特征的随机森林回归器;文献[20]训练基于卷积神经网络的显著性检测模型;文献[21]则训练基于卷积长短时记忆神经网络的视觉显著性模型。在目标跟踪问题上,视觉显著性算法已经被用于跟踪框纠偏[22]、跟踪框精确定[23]等方面,并取得一定效果。然而,当存在多个显著目标时,仅依赖图像自身信息,算法难以关注到无人机对地场景中的局部显著目标(如图6所示)。
1.3? ?图像分割和显著区域分割
传统图像分割算法通常使用轮廓、纹理、颜色等线索。GraphCut[24]算法将某些像素标记为“前景”或“背景”,获得较为准确的分割结果;GrabCut[25]算法用矩形框标记前景区域,既减少了用户交互,还提升了分割质量。
基于显著图的图像分割技术被称为显著区域分割。文献[26]对原图分别进行mean-shift(均值漂移)分割和显著性计算,将均值漂移分割结果中显著性值大于自适应阈值的区域作为最终分割结果;Saliency Cut算法[27]在显著图上迭代运行GrabCut并更新前景、背景和区域位置信息,得到显著区域分割结果。与传统图像分割相比,显著区域分割综合了图像信息和显著性线索,在复杂场景图像上更具优势。
文献[28]认为跟踪算法对初始跟踪框较为敏感,提出对跟踪数据集的真值框进行随机平移和尺度变化,以模拟检测算法带来的误差,在此基础上定量评估跟踪算法的性能。参考文献[28]的做法,本节定性对比几种不同的跟踪初始化方法,并定量分析不同偏差的正方形初始跟踪框带来的精度损失。
2.1? ?典型跟踪初始化方法的定性对比
图2展示了在无人机对地图像序列上,用几种不同方法对fDSST(fast discriminative scale space tracking)[29]算法进行初始化的跟踪结果。图中红色、绿色、蓝色、黄色分别表示为基于跟踪数据集的真值框、真值框的外接正方形框、YOLO V3检测框以及优化后的初始跟踪框。可以看出:1) 当目标长宽比接近于1时(图2中序列一),无论采用何种跟踪初始化方法,跟踪算法都能稳定地跟踪目标;2) 当目标长宽比过大时(图2中序列二、三),基于正方形框初始化会逐渐跟丢目标,而经过本文方法(3.2节)优化后的初始跟踪框仍然可以取得与真值框、检测框接近的跟踪效果。
图? 2??不同跟踪初始化方法的跟踪结果
2.2? ?正方形初始跟踪框的精度损失评估
上一节定性地展示了正方形初始跟踪框可能存在的问题。本节对不同偏差的正方形初始跟踪框进行测试,定量评估其造成的跟踪精度损失。
2.2.1??? ?实验设计
文献[28]在计算SRE(spatial robustness evaluation,空间鲁棒性评估)得分时,将目标真值框尺度从80%递增到120%,测试不同尺度下跟踪器的性能,然后计算均值。
本文使用跟踪数据集标注文件中目标在第1帧的位置作为目标真值框。参考文献[28]的做法,首先将真值框扩展为最小外接正方形框,然后计算5种不同尺度(分别为80%、100%、125%、150%、200%)下的跟踪算法精度。与文献[28]不同,本文不计算均值,采用OPE(one-pass evaluation,一次性通过评估)准则。选用4种具有代表性的跟踪算法进行评估,分别为MUSTer(multi-store tracker)[30]、GOTURN(generic object tracking using regression networks)[31]、fDSST和ECO(efficient convolution operators)[32]。测试数据集为VisDrone2018-SOT-test-dev,共35个序列,最短90帧,最长2783帧。评价指标为OPE准则下的成功率(success)和精度(precision),来自于文献[28]。
精度和精度曲线(precision plot)的计算方法如下文。首先,根据算法输出的跟踪框中心位置(xtrack,ytrack)和目标真值框中心位置(xgt,ygt),计算中心位置误差Δ:
? ?(1) ? ?
其次,设置0~50像素、间隔1 像素的位置误差阀值,统计不同位置误差阈值下Δ小于该阈值的图像帧数量占图像序列总帧数的比值,绘制为精度曲线。然后,将位置误差阈值 20 像素对应的比值作为跟踪精度。
成功率和成功率曲线(success plot)的计算方法如下文。首先,根据算法输出的跟踪框区域
Rtrack和目标真值框区域Rgt,计算平均重叠得分S:
? ?(2)? ??
其次,设置0~1、间隔 0.05 的重叠阈值,统计不同重叠阈值下 大于该阈值的图像帧数量占图像序列总帧数的比值,绘制为成功率曲线。然后,将曲线下面积作为跟踪成功率。
2.2.2??? ?实验结果
图3和图4分别展示了不同偏差的正方形初始框对跟踪成功率和精度的影响。可以看出:1) 使用正方形框作为初始框,严重影响跟踪性能;2) 正方形框与真值框的尺度偏差越大,跟踪性能越差。
图? 3??不同偏差的正方形初始框对跟踪成功率的影响
图? 4??不同偏差的正方形初始框对跟踪精度的影响
如前所述,现有的跟踪框自动初始化方法存在一定局限,不能满足无人机对地侦察任务的需要。手动选取正方形框的初始化方式虽速度较快,但2.2节的定量实验表明,该方式会导致性能严重下降。由此,针对实际系统的需要,本节将提出一种跟踪框的快速初始化和自适应优化策略,并给出验证样例。
3.1? ?总体策略
如图5所示,本文提出的跟踪框初始化和优化策略共分为粗选取、自适应优化、细选取3个阶段:首先,由操作员手动选取一个尽可能覆盖目标、且形心与目标中心接近的正方形框,这一过程相对较快,即便是目标相对无人机快速运动时也可完成;然后,由跟踪框自适应优化算法自动找出正方形框中最符合人的视觉认知的显著目标,以其分割得到的外接矩形作为初始跟踪框,然后起始跟踪,这一过程由算法完成,故速度较快。最后,在跟踪算法持续锁定目标的过程中,可以根据需要手动选取更为精细的、贴合目标的任意长宽比矩形框。
图? 5??跟踪框快速初始化和自适应优化策略
3.2? ?跟踪框自适应优化算法
给定输入图像和手动选取的正方形框,跟踪框优化算法要找到正方形框中最符合人的视觉认知的目标,并具备一定的偏差容忍能力。本节对视觉显著性和显著区域分割在无人机图像上的应用方式进行探索,提出一种跟踪框自适应优化算法。
3.2.1? ?视觉显著性的全局和局部对比
选取4种具有代表性的视觉显著性算法进行测试,分别为:BMS(boolean map saliency)[18]、DRFI(discriminative regional feature integration)[19]、MDF(multiscale deep CNN features)[20]、ASNet(attentive saliency network)[21]。
图6、图7分别展示了视觉显著性算法在典型无人机对地图像上的全局显著图和局部显著图。图6中黄色方框表示感兴趣目标。可以看出,局部突出的目标,全局上不一定具备显著性。
图? 6??无人机对地图像的全局显著图
图? 7??无人机对地图像的局部显著图
3.2.2
? ?图像分割和显著区域分割对比
对比两种交互式图像分割方法和两种显著区域分割方法,分别为:GrabCut[25]、OneCut[33]和二倍阈值分割[26]、Saliency Cut[27]。其中,显著区域分割方法使用的显著图来自BMS算法。从图8可以看出,基于显著图的显著区域分割方法比基于方框的交互式图像分割方法要稳定,且分割结果也较为准确。
3.2.3
? ?算法设计
如前所述,视觉显著性算法虽然具备在复杂场景中快速、准确定位目标的能力,但需要适当的引导信息。3.2.1节的结果也验证了这一观点。若将手动选取的正方形框视作引导信息,问题则将转化为:给定输入图像和正方形边框,如何找出正方形框中的局部显著目标。
结合3.2.1节和3.2.2节的实验结果,并考虑到在嵌入式设备上的部署便捷性。本节提出基于视觉显著性和显著区域分割的跟踪框自适应优化算法,如图9所示。图9中,图像切片从上至下依次为根据真值框的外接正方形缩放1.25、1.0、0.8倍后从原图截取,显著图来自BMS算法,显著区域分割从上至下依次为二倍阈值分割和Saliency Cut算法。
图? 8??图像分割和显著区域分割对比图
图? 9??跟踪框自适应优化算法流程图
表? 2??算法伪代码
算法伪代码如表2所示。算法在计算过程中用到两个经验阈值:Tdist和Tratio。Tdist的作用是优先考虑形心与B中心距离最近的矩形边框,设为0.2(若超出这一距离,则不予考虑);Tratio的作用是优先考虑最长边与B边长最接近的矩形边框,设为0.5(若小于这一比值,则不予考虑)。
图9中外接矩形对应的数值如表3所示。
表? 3??外接矩形对应参数
4.?? 实验
实验设备为Intel i7 CPU@2.80 GHz和8 GB内存的笔记本电脑,实验环境为Matlab R2016b。通过Matlab与C++混合编程的方式,调用视觉显著性算法BMS和显著区域分割算法Saliency Cut;在Matlab环境下进行图像裁剪、计算归一化距离和可视化等操作。
4.1
? ?实验设置
本节在VisDrone2018-SOT-test-dev和UAVDT数据集上,定量地评价本文提出的跟踪框自适应优化算法对跟踪精度的提升效果。与2.2.1节相同,对比MUSTer、GOTURN、fDSST和ECO 4种跟踪算法。实验中,仍然以跟踪数据集标注文件中目标在第1帧的位置作为目标真值框。将真值框扩展为最小外接正方形框,计算2种不同尺度(125%和150%)下优化前和优化后的跟踪算法精度。评价指标为OPE准则下的成功率曲线(success plot)和精度曲线(precision plot),来自于文献[28]。
4.2?
? 实验结果
实验结果如图2、图10和图11所示。
图? 10??VisDrone2018-SOT-test-dev数据集上的成功率曲线图和精度曲线图
图? 11??UAVDT数据集上的成功率曲线图和精度曲线图
可以看出:1) 经过本文跟踪框自适应优化算法优化后的初始跟踪框,能较好地贴合目标,并有效提升跟踪性能;2) 在VisDrone2018-SOT-test-dev数据集上,与优化前相比,成功率平均提升0.138,最高提升了0.262,精度平均提升0.135,最高提升了0.165;3) 在UAVDT数据集上,与优化前相比,成功率平均提升0.093,最高提升了0.147,精度平均提升0.082,最高提升了0.177。
图10、图11中:MUSTer、GOTURN、fDSST和ECO前缀表示4种跟踪算法;125、150后缀分别表示将真值框扩展至1.25倍和1.5倍外接正方形框;opt后缀表示正方形框经过本文算法优化。
5.?? 讨论和分析
5.1
? ?方案优势和局限性
本文提出的跟踪框快速初始化和自适应优化策略结合了人的主观选择和视觉认知,与基于先验信息的方法相比,更具通用性;与基于任意长宽比矩形框的方法相比,速度更快;与基于正方形框的方法相比,更贴合目标。
由于未考虑先验信息,目前方案存在一定局限:在处理带有阴影的目标(图12中序列一)、结构多样的目标(图12中序列二、三)时,跟踪框自适应优化结果难以与人的认知保持完全一致。但相较于正方形框而言,优化后的框仍具备更好的跟踪初始化效果。图12中蓝色、绿色、黄色分别为基于跟踪数据集的真值框、真值框的外接正方形框、优化后的初始跟踪框对fDSST算法进行初始化的跟踪结果。
图? 12??跟踪框自适应优化算法的局限性
5.2
? ?算法参数和耗时分析
?5.2.1?
? ?距离归一化阈值和边长归一化阈值
由于反应延迟和通信延迟带来的偏差,操作员在地面端选取正方形框时,正方形框中心与目标中心难以保持一致。为确保跟踪框自适应优化算法可以准确锁定目标,不被其他目标干扰,根据经验值将距离归一化阈值Tdist设为0.2。图13展示了对正方形框进行随机扰动时这一阈值的效果。图13中蓝色、黄色分别为真值框的外接正方形框、优化后的初始跟踪框。
此外,考虑到操作员在选取正方形框时,难以准确覆盖目标,除了采用三层图像金字塔结构(5.2.2节)外,还需要对目标的长度与正方形框的边长比值进行限制,远大于边框或远小于边框的目标都不予考虑。因此,根据经验值将边长归一化阈值Tratio设为0.5。
图? 13??距离归一化阈值的作用
?5.2.2?
? ?图像金字塔
在无人机飞行过程中,由于时间有限或心理压力等原因,操作员选取的正方形框可能在目标实际尺寸上下浮动。针对这一问题,采用三层图像金字塔结构(见图9),对原始正方形框缩放1.25、1.0、0.8倍后截取图像切片,再进行后续的显著性和区域分割处理。图14定性地展示了这一结构的有效性:当背景杂乱、存在相似目标时(图14第1行),缩小视野可以忽略干扰;当目标简单、独立时(图14第2行),放大视野更容易把握全局。图14中黄色表示优化后的初始跟踪框。
图? 14??三层图像金字塔结构的作用
5.2.3
? ?算法可移植性和耗时分析
本文使用的BMS算法和Saliency Cut算法分别来自文献[18]、文献[27],其核心代码均为C语言开发。因此,可以很便捷地移植到嵌入式设备上。在Intel i7 CPU@2.80 GHz和8 GB内存的电脑上运行,以200×200像素的图像为例,release模式下耗时为0.3 s。考虑到本文算法的三级金字塔是分别独立的,可以并行处理优化,则理论上可以达到0.1 s的速度(10帧/s),基本满足实时性要求。
6.?? 结论
本文对单目标跟踪的跟踪初始化问题进行了讨论和研究。针对无人机对地侦察任务的特点,提出了一种结合人的主观选择和视觉认知的半自动初始化和优化策略,并给出了基于视觉显著性和显著图像分割的自适应优化算法样例,在两个公开数据集上验证了跟踪框自适应优化算法的有效性。
本文的主要贡献在于对跟踪初始化问题的探讨,以及一种提升初始跟踪框精度的策略,而非算法创新。在当前的框架下,包括本文方法在内的多数跟踪初始化方法都只利用了当前帧信息,因此仍不是最佳解决方案。如何利用历史帧的时空上下文信息,实现更为准确、快速的通用目标跟踪初始化,是下一步研究的重点。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。