A2C Plan

HuGuoDong

August 21, 2019

Page content

[TOC]

IPC 2018 中的A2C Plan

2018-A2C-Plan: A Reinforcement Learning Planner

今天又研究了一下IPC2018比赛使用的规划器。

2019-08-21-001

ac-plan 使用prost做为中间传输的媒介，实际是一种妥协。一方面是利用的prost中已有的功能，例如估计最大最小reward，另一方面，prost解析大规模的问题会很慢。解析慢也是影响这个规划器表现的主要原因之一。

另一个原因是不收敛？

2019-08-21-002

图中看出网络结构还是比较简单的。

2019-08-21-003

改进的思路：