自己改善する世界モデルの提案

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

世界モデルの精度を向上させる手法

2026-04-02 中級 arXiv
強化学習
  • 一般的な世界モデルはポリシー評価や最適化に役立ちますが、堅牢性の確保が難しいです。
  • 本研究では、World Action Verifier (WAV)を提案し、自己改善を可能にします。
  • アクションの状態予測を分解することで、従来の手法よりも高いサンプル効率を実現しました。
強化学習自己改善世界モデル

世界モデルはポリシー評価や最適化において重要ですが、サブ最適なアクションに対する堅牢性が課題です。本研究では、World Action Verifier (WAV)を提案し、自己改善を促進する新しいフレームワークを紹介します。アクション条件付きの状態予測を分解することで、従来の手法よりも高いサンプル効率を達成しました。この論文は、強化学習やモデルベースのアプローチに興味がある研究者に向いています。

強化学習やモデルベースのアプローチに興味がある研究者に最適です。

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry
Yuejiang Liu, Fan Feng, Lingjing Kong, Weifeng Lu, Jinzhou Tang, Kun Zhang ほか