Continuous control with Stacked Deep Dynamic Recurrent Reinforcement Learning for portfolio optimization

作者：

Highlights：

• Incorporating portfolio constraints into recurrent reinforcement learning framework.

• Reinforcement learning algorithm with continuous trading actions over multiple assets.

• Simultaneous control of the portfolio constraints and policy network hyperparameters.

• Hourglass shape network architectures emerge as a natural choice for asset management.

摘要

•Incorporating portfolio constraints into recurrent reinforcement learning framework.•Reinforcement learning algorithm with continuous trading actions over multiple assets.•Simultaneous control of the portfolio constraints and policy network hyperparameters.•Hourglass shape network architectures emerge as a natural choice for asset management.

论文关键词：Reinforcement learning,Policy gradient,Deep learning,Sequential model-based optimization,Financial time series,Portfolio management,Trading systems

论文评审过程：Received 29 January 2019, Revised 22 July 2019, Accepted 19 August 2019, Available online 20 August 2019, Version of Record 2 September 2019.

论文官网地址：https://doi.org/10.1016/j.eswa.2019.112891