论文链接:https://ieeexplore.ieee.org/document/8956326
论文出处:2019 RO-MAN
论文单位:Korea University of Science and Technology,韩国
根据社会学习理论,人类可以通过观察和模仿他人来学习新的行为。
通过这种社会学习技能,人类互动并进行非语言的社会行为,如挥手或鞠躬。
同样,对于人类与机器人的非语言社交互动,教会机器人观察和模仿人类的动作是至关重要的。
模仿学习是一种长期研究的方法,用于向机器人教授人类动作。
机器人教学方法多种多样,包括基于点的直接教学、基于人体运动数据的动态建模和优化的运动重定向、远程操作间接教学和基于虚拟现实的远程操作教学。
通过这些精确的动力学建模和基于末端执行器的教学方法,机器人可以有效地完成目标任务。
考虑到人-机器人的社会互动,为了在不失去表演者的隐含意义或意图的情况下模仿人类的运动,不仅在末端执行器上,而且在肘关节等其他关节上都应该进行精确的运动重定向。
特别是,需要精确的设备或方法来克服由于运动学配置差异而出现的问题,同时教授复杂的运动,如手腕关节运动。
因此,在这些情况下,不借助任何外部设备直接操纵机器人手臂来指导机器人的动觉教学是直观有效的,特别是在手腕关节运动的教学中。
近年来,许多研究引入深度学习技术来解决具有挑战性的问题。深度学习需要大量的训练数据。然而,收集如此大量的数据成本很高,特别是在机器人应用中。
在本研究中,为了利用少量试验的直接教学和深度学习的优势,我们试图对上一步中由模拟器进行深度强化学习训练的策略进行微调。
我们将我们的方法称为三阶段强化学习,包括基于模拟的学习和基于人在环的交互式学习方法(图1)。
我们的目标是使NAO机器人能够产生与人类骨骼的姿势相匹配的运动,这些动作展示了从NTU-DB数据集获得的挥手和敬礼动作。
我们的学习计划包括三个阶段。第一阶段,作为准备步骤,使用骨骼和合成运动数据生成人类和NAO运动的嵌入。
在第二阶段,我们使用强化学习确定两个嵌入之间的映射策略。
在最后一个阶段,动觉教学是根据第二阶段学到的最优策略逐帧进行的。我们能够学习到上一阶段没有考虑到的细节运动,比如手腕关节的运动,并解决运动学构型差异带来的困难。
此外,通过实验,我们证明了模仿技能可以在相对较短的学习时间内得到提高。
表1。列出每个学习阶段的模拟和交互式学习方法的使用情况。
综上所述,我们的主要贡献如下:
(1) 将人体运动模拟建模为人体骨骼与机器人运动之间的映射问题,提出了基于用户引导的三阶段框架,并给出了实验结果。据我们所知,这是人类运动模仿的第一个框架,它结合了从合成运动中学习和交互式微调。
(2)我们为机器人生成了一个统一的运动解码器,它包含了我们所有的运动类,并验证了我们的策略可以成功地使用这个集成的机器人运动解码器进行训练。
(3)实验表明,通过少量的交互式教学,可以有效地改进前一阶段的定量训练策略。
如图3所示,VAE用于学习骨架的低维状态表示和NAO的参考运动。
在排除误差数据的情况下,用40k帧的挥手动作和32k帧的敬礼动作训练骨架的VAE。
图4的左侧显示了骨架的VAE编码器部分的详细结构。
骨架编码器 ρ_s 接受75维(25 × 3)的 x_s 的骨架作为输入,利用整流线性单元激活函数对200、100和50的均值和标准差进行采样后,输出一个五维潜在表示向量 z_s。
NAO运动的VAE具有与骨架相似的结构,并且在我们的研究中仅使用了解码器 β_r 来从NAO姿态的潜在表示向量 z_r 生成估计的运动值 β_r(z_r) = x_r^ 。
NAO运动解码器的详细结构如图4右侧所示。
利用机器人运动潜在表示向量 z_r,估计的电机值 x^ r = {θ^ 1, θ^ 2, …, θ^10}, 通过50,100和200层的 Tanh 激活函数输出。
电机值,θ^ 1,···,θ^10,对应左臂的五个关节,即肩倾、侧倾、肘部偏航、侧倾、手腕偏航,以及右臂类似的五种运动。
为了训练每个动作类的NAO动作解码器,一个名为“Choregraphe”的官方NAO模拟器被用来为每个动作生成几个合成的参考动作帧。
在挥手运动中,我们从双臂的四种参考运动模式中,通过噪声添加数据增强创建了20k帧。在敬礼运动中,采用两种参考运动模式和噪声加持数据增强生成10k帧。