階層的深層強化学習:時間的抽象と内発的動機の統合

Hierarchical deep reinforcement learning: integrating temporal abstraction and intrinsic motivation

内発的動機を活用した強化学習の提案

2016-12-05 被引用 532 中級
強化学習Agent
  • 強化学習はスパースなフィードバック環境での学習が難しい。
  • 階層的DQN(h-DQN)を提案し、内発的目標に基づくポリシーを学習する。
  • 複雑な環境での探索効率を高める新しいアプローチを示す。
強化学習階層的学習内発的動機

強化学習は、フィードバックが少ない環境での目標指向行動の学習が難しい課題を抱えています。本研究では、階層的DQN(h-DQN)を提案し、異なる時間スケールでの階層的行動価値関数を統合することで、内発的動機に基づくポリシー学習を実現します。このアプローチは、複雑な環境での探索を効率化し、特にスパースなフィードバックの問題に対処します。強化学習に興味がある研究者や実務者にとって、注目すべき内容です。

強化学習や機械学習に興味がある研究者や実務者に向いています。

Hierarchical deep reinforcement learning: integrating temporal abstraction and intrinsic motivation
Tejas D. Kulkarni, Karthik Narasimhan, Ardavan Saeedi, Joshua B. Tenenbaum