Imitation Learning
date
Nov 21, 2024
slug
imitation-learning
status
Published
tags
TEMP
summary
模仿学习依赖高质量专家数据集,因其直接影响模型能力和学习效果。数据质量、错误的累积效应及边界情况的覆盖是构建鲁棒模型的关键因素。推理过程中需考虑更复杂的历史信息,而不仅仅依赖当前状态和动作。
type
Post
模仿学习基础
在马尔可夫决策过程(MDP)的框架下,我们假设系统的当前状态仅依赖于前一个状态和所采取的动作,并且系统的未来发展与过去的状态条件独立。这意味着预测未来时,只需关注当前状态,而无需回顾整个历史。这实际上将复杂的现实情况简化为一个理想化的模型,这也是模仿学习在实际应用中表现不佳的原因之一。现实中的条件概率关系通常比MDP的假设更加复杂,系统往往依赖于更长的历史信息,而不仅仅是“当前状态 + 动作 → 下一状态”。这类似于医生在诊断病情时,需要了解患者的完整病史,而不仅仅是当前的症状。因此,在推理过程中,常会遇到一些不符合MDP假设的情况。
从最基础的角度理解,在满足MDP假设且已知当前状态和所采取动作的情况下,推断当前状态发生的概率可以表示为:
其中, 表示系统的状态(state), 表示系统的观测输入,通常也称为观察(observation)。我们希望构建一个策略 ,该策略定义为,用于指导在某一状态下应采取的动作。通常,我们会依赖高质量的专家数据集,这些数据集通常由一系列状态-动作对组成,例如:(状态0,动作0),(状态1,动作1)……
数据质量
为什么需要高质量的专家数据集?模仿学习对高质量专家数据集的需求源于其理论基础。从本质上看,模仿学习建立在统计机器学习的框架之上,其核心是通过极大似然估计(MLE)来拟合专家行为。这一理论基础决定了几个关键特性:
- 首先,示范数据的质量直接决定了模型能力的上限。这符合机器学习最基本的"垃圾进,垃圾出"(Garbage In, Garbage Out)原则。模型再强大,最终也无法超越训练数据所展现的最佳水平。这就像天花板效应,数据质量设定了模型能达到的最高高度。
- 其次,模仿学习中的错误具有累积效应。由于模型在实际运行时是连续决策的过程,早期的小偏差会随着时间推移而放大(在T步决策序列中,每一步的小误差都会累积),最终可能导致系统偏离预期轨迹。在dagger论文中也证明了,传统行为克隆(Behavior Cloning)的误差会线性增长:O(T²)。
- 另外,数据一致性直接影响模型的学习效果。当不同专家展现出不同的决策风格时,模型可能会学习到一个折中但实际上并不合理的策略。这种"混淆"会降低模型在实际应用中的表现。笔者目前只在小范围数据集上测试过,不清楚如果有特别多的数据集会是什么情况,但从理论上说,混淆的数据会增加模型学习的难度。
- 最后,边界情况的覆盖对构建鲁棒的模型至关重要。如果训练数据缺乏对极端或罕见情况的覆盖,模型在遇到这些情况时就会表现不佳。因此,一个好的数据应该有一个明确的工作边界和足够多的case覆盖。
single expert vs multi experts
模仿学习如何做决策?
以后更新
References
- Abbeel, Pieter, and Andrew Y. Ng. "Apprenticeship learning via inverse reinforcement learning." Proceedings of the twenty-first international conference on Machine learning. 2004.
- Ross, Stéphane, and Drew Bagnell. "Efficient reductions for imitation learning." Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2010