制約付きマルコフ決定過程における安全強化学習

Safe Reinforcement Learning in Constrained Markov Decision Processes

未知の安全制約下での強化学習手法

2020-08-15 被引用 54 中級
強化学習
  • 安全性が重要なアプリケーションでの強化学習が注目されています。
  • 本論文では、未知の安全制約を考慮したSNO-MDPアルゴリズムを提案します。
  • 安全な領域を拡張しながら報酬を最適化する新しいアプローチが特徴です。
強化学習安全性マルコフ決定過程

安全性が求められる状況での強化学習は重要な研究分野です。本論文では、未知の安全制約を考慮した新しいアルゴリズムSNO-MDPを提案し、安全領域を拡張しながら累積報酬を最適化します。理論的な保証も提供され、実験では新しい環境や火星探査のシミュレーションを用いてその有効性を示しています。安全性と報酬の両立に興味がある研究者にとって興味深い内容です。

安全性を重視した強化学習に興味がある研究者や実務者に向いています。

Safe Reinforcement Learning in Constrained Markov Decision Processes
Akifumi Wachi, Yanan Sui