Non-crossing quantile regression for distributional reinforcement learning

发布时间：2021-01-21 浏览次数：133

Zhou, F., Wang, J., and Feng, X.* (2020). Non-crossing quantile regression for distributional reinforcement learning. Neural Information Processing Systems 2020, Vancouver, Canada.

强化学习由于谷歌旗下的Alpha Go大胜人类顶尖围棋高手而扬名天下。实际上，这一方法正是统计学与优化决策的交叉发展而来。通过奖励（Reward）的优化反馈机制，强化学习使得统计学基于数据的估计不再局限于简单的单一优化目标，而是深受逐步决策中动态变化的影响，最终得到一条优化决策路径。两个学科的思想融合带来了实际数据分析和优化决策的突破性发展，在自动化驾驶、机器人等领域获得了成功的应用。从某种层度上来讲，统计学试图从已经获得的数据中来挖掘有用的信息，从而对一些感兴趣的参数进行估计和推断，而反馈式的奖励可以让统计方法不断自我调整来实现决策上的优化，从而丰富了统计学本身应对问题的学科内涵，赋予了统计学更能有效解决某些实际问题的模型框架。两个学科的有机融合使得人工智能的发展出现了突飞猛进。课题组注意到分位数回归与优化决策结合的强化学习方法以及相关的应用研究已经开始出现。近两年来，一些研究结果表明：基于分位数的优化机制似乎能够有效提高决策路径的选择效果。然而目前基于分位数的方法还略显粗糙。实际上，分位数回归已经被统计学家大量研究，其中的很多思想都颇为精妙且有较好的效果。由于课题组在分位数回归中的积累，我们知道分位数无交叉的约束加入到基于分布的强化学习之中将有可能改进样本较少时的强化学习方法的表现。我们方法在真实的57个游戏数据集上的表现也确实展现出了优异的表现。