細粒度指示整合による操縦可能な視覚言語行動ポリシー

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

細かい指示でロボットの行動を最適化

2026-05-26 中級 arXiv
マルチモーダル強化学習Agent
  • ロボットは人間の指示に従ってタスクを実行することが求められています。
  • 本研究では、細粒度の指示を用いた新しいフレームワークFineVLAを提案します。
  • 細かい指示が目標達成率を向上させ、操縦可能な制御を実現する点が新しいです。
視覚言語行動ロボティクス細粒度指示

ロボットは人間の指示に基づいてタスクを実行することが求められていますが、従来のデータセットは粗い目標レベルの言語に依存しています。本研究では、細粒度の指示を用いたFineVLAというフレームワークを提案し、972,247の軌跡を統合した新しいデータセットを構築しました。細かい指示を用いることで、目標達成率が向上し、操縦可能な制御が実現できることが示されています。ロボティクスやAIに興味がある研究者にとって、特に興味深い内容です。

ロボティクスやAIの研究者、特に人間とロボットのインタラクションに興味がある方に向いています。

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies
Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang ほか