A2C Plan

Page content

[TOC]

IPC 2018 中的A2C Plan

2018-A2C-Plan: A Reinforcement Learning Planner

今天又研究了一下IPC2018比赛使用的规划器。

2019-08-21-001

ac-plan 使用prost做为中间传输的媒介,实际是一种妥协。一方面是利用的prost中已有的功能,例如估计最大最小reward,另一方面,prost解析大规模的问题会很慢。解析慢也是影响这个规划器表现的主要原因之一。

另一个原因是不收敛?

2019-08-21-002

图中看出网络结构还是比较简单的。

2019-08-21-003

改进的思路:

  1. 可以使用tf-simulator,这样rddl文件的解析会不会更快一些?
  2. 实现基于pytorch。我不是很熟悉这块。算法可以改成基于tensorflow的。这样就能和tf-simulator无缝对接了。
  3. 实现:tf-simulator + a2c planner 可以试一下。优点:针对大规模问题。