A2C Plan
Page content
[TOC]
IPC 2018 中的A2C Plan
2018-A2C-Plan: A Reinforcement Learning Planner
今天又研究了一下IPC2018比赛使用的规划器。
ac-plan 使用prost做为中间传输的媒介,实际是一种妥协。一方面是利用的prost中已有的功能,例如估计最大最小reward,另一方面,prost解析大规模的问题会很慢。解析慢也是影响这个规划器表现的主要原因之一。
另一个原因是不收敛?
图中看出网络结构还是比较简单的。
改进的思路:
- 可以使用tf-simulator,这样rddl文件的解析会不会更快一些?
- 实现基于pytorch。我不是很熟悉这块。算法可以改成基于tensorflow的。这样就能和tf-simulator无缝对接了。
- 实现:tf-simulator + a2c planner 可以试一下。优点:针对大规模问题。