細粒度指示整合による操縦可能な視覚言語行動ポリシー

この論文を3行でいうと

ロボットは人間の指示に従ってタスクを実行することが求められています。
本研究では、細粒度の指示を用いた新しいフレームワークFineVLAを提案します。
細かい指示が目標達成率を向上させ、操縦可能な制御を実現する点が新しいです。

キーワード

視覚言語行動ロボティクス細粒度指示

もう少しだけ中身を見る

ロボットは人間の指示に基づいてタスクを実行することが求められていますが、従来のデータセットは粗い目標レベルの言語に依存しています。本研究では、細粒度の指示を用いたFineVLAというフレームワークを提案し、972,247の軌跡を統合した新しいデータセットを構築しました。細かい指示を用いることで、目標達成率が向上し、操縦可能な制御が実現できることが示されています。ロボティクスやAIに興味がある研究者にとって、特に興味深い内容です。

こんな人に向いていそう

ロボティクスやAIの研究者、特に人間とロボットのインタラクションに興味がある方に向いています。

元論文はこちら

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang ほか

arXiv DOI OpenAlex 論文ページ