Imitation Learning

date

Nov 21, 2024

slug

imitation-learning

status

Published

模仿学习基础

在马尔可夫决策过程（MDP）的框架下，我们假设系统的当前状态仅依赖于前一个状态和所采取的动作，并且系统的未来发展与过去的状态条件独立。这意味着预测未来时，只需关注当前状态，而无需回顾整个历史。这实际上将复杂的现实情况简化为一个理想化的模型，这也是模仿学习在实际应用中表现不佳的原因之一。现实中的条件概率关系通常比MDP的假设更加复杂，系统往往依赖于更长的历史信息，而不仅仅是“当前状态 + 动作 → 下一状态”。这类似于医生在诊断病情时，需要了解患者的完整病史，而不仅仅是当前的症状。因此，在推理过程中，常会遇到一些不符合MDP假设的情况。

从最基础的角度理解，在满足MDP假设且已知当前状态和所采取动作的情况下，推断当前状态发生的概率可以表示为：

其中，表示系统的状态（state），表示系统的观测输入，通常也称为观察（observation）。我们希望构建一个策略，该策略定义为，用于指导在某一状态下应采取的动作。通常，我们会依赖高质量的专家数据集，这些数据集通常由一系列状态-动作对组成，例如：（状态0，动作0），（状态1，动作1）……

数据质量

为什么需要高质量的专家数据集？模仿学习对高质量专家数据集的需求源于其理论基础。从本质上看，模仿学习建立在统计机器学习的框架之上，其核心是通过极大似然估计（MLE）来拟合专家行为。这一理论基础决定了几个关键特性：

首先，示范数据的质量直接决定了模型能力的上限。这符合机器学习最基本的"垃圾进，垃圾出"(Garbage In, Garbage Out)原则。模型再强大，最终也无法超越训练数据所展现的最佳水平。这就像天花板效应，数据质量设定了模型能达到的最高高度。

其次，模仿学习中的错误具有累积效应。由于模型在实际运行时是连续决策的过程，早期的小偏差会随着时间推移而放大（在T步决策序列中，每一步的小误差都会累积），最终可能导致系统偏离预期轨迹。在dagger论文中也证明了，传统行为克隆(Behavior Cloning)的误差会线性增长：O(T²)。

另外，数据一致性直接影响模型的学习效果。当不同专家展现出不同的决策风格时，模型可能会学习到一个折中但实际上并不合理的策略。这种"混淆"会降低模型在实际应用中的表现。笔者目前只在小范围数据集上测试过，不清楚如果有特别多的数据集会是什么情况，但从理论上说，混淆的数据会增加模型学习的难度。

最后，边界情况的覆盖对构建鲁棒的模型至关重要。如果训练数据缺乏对极端或罕见情况的覆盖，模型在遇到这些情况时就会表现不佳。因此，一个好的数据应该有一个明确的工作边界和足够多的case覆盖。

single expert vs multi experts

模仿学习如何做决策？

以后更新

References

Abbeel, Pieter, and Andrew Y. Ng. "Apprenticeship learning via inverse reinforcement learning." Proceedings of the twenty-first international conference on Machine learning. 2004.

Ross, Stéphane, and Drew Bagnell. "Efficient reductions for imitation learning." Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2010