価値と方針に基づく強化学習の接続

Bridging the Gap Between Value and Policy Based Reinforcement Learning

新しい強化学習アルゴリズムを提案

2017-02-28 被引用 228 中級
強化学習
  • 強化学習には価値ベースと方針ベースがある。
  • 新たにPath Consistency Learning (PCL)を提案する。
  • PCLは両者を統合し、優れた性能を示す。
強化学習アルゴリズム最適化

強化学習の分野では、価値ベースと方針ベースの手法が存在しますが、これらの関係は未解明でした。本論文では、ソフトマックス一貫性とエントロピー正則化の下での方針最適性の関係を明らかにし、新しいアルゴリズムであるPath Consistency Learning (PCL)を提案します。PCLは、従来の手法を一般化し、両者の利点を活かすことができる点が魅力です。強化学習に興味がある研究者や実践者にとって、非常に有益な内容です。

強化学習に興味がある研究者や実務者に向いています。新しいアルゴリズムの理解を深めたい方にもおすすめです。

Bridging the Gap Between Value and Policy Based Reinforcement Learning
Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans