模仿学习:倾向于从优秀的个体展现出来的技能中快速学习,并获得泛化能力,但模仿学习目前学到的仅是相同技能的不用应用,比方说,“放苹果”泛化到“放梨”,“放牛奶”,都是“放”这个技能的不同应用,但模仿学习不能从技能“放”泛化到技能“拿”。
强化学习:强调在与现实世界交互过程中持续学习,这让强化学习具有不断重新学习新的技能的可能。
模仿学习:需要人为构造复杂数据集,数据利用率高,但数据难
强化学习:需要搭建高仿真环境,或者学习环境的模型,再用这个模型生成数据,数据利用率低,但数据相对易。
总结:类比于人,强化学习适合开疆拓土,不断在新的环境中学习新的技能,并不断学习,把这项技能学到最优,而模仿学习,适合复制强化学习最优的个体,以便大规模应用,或者说,强化学习是个将军,模仿学习是教官和士兵。
? ? ? ? 在实际应用中,我们希望智能体不是从零开始学,所以先用模仿学习,学习基本技能,加快基础学习速度(类似于预训练模型),但模仿学习学到的技能,从能力上难以超过学习的本体,所以要进行强化学习不断提升自己。在实际操作中,这样能大大减少强化学习的训练时间。因此,模仿学习和强化学习往往是一起使用的。好处是既能大大加快训练速度,又能得到超越人类的超高水准。
1.模仿学习与强化学习的结合(原理讲解与ML-Agents实现)_ma-poca-CSDN博客