Vero: 一般的な視覚推論のためのオープンRLレシピ

Vero: An Open RL Recipe for General Visual Reasoning

視覚推論のための新しいオープンモデルを提案

2026-04-06 中級 arXiv
LLM強化学習画像認識
  • 視覚と言語のモデルは多様な推論能力を持つが、実装が不明瞭だった。
  • Veroは600Kサンプルのデータセットを用いて、様々な視覚推論タスクで優れた性能を発揮する。
  • 異なるタスクが異なる推論パターンを引き出すことを示し、データの幅広さが強力なRLスケーリングの鍵である。
視覚推論強化学習オープンデータ

視覚と言語のモデルは多様なタスクに対応する能力を持っていますが、その実装は多くが非公開です。本論文では、Veroという新しいオープンな視覚推論モデルを提案し、600Kサンプルのデータセットを用いて様々なタスクでの性能を向上させました。特に、異なるタスクが異なる推論パターンを引き出すことを明らかにし、データの多様性が重要であることを示しています。機械学習や視覚推論に興味がある研究者や開発者にとって、非常に興味深い内容です。

機械学習や視覚推論に興味がある研究者や開発者に向いています。

Vero: An Open RL Recipe for General Visual Reasoning
Gabriel Sarch, Linrong Cai, Qunzhong Wang, Qi Wu, Danqi Chen, Zhuang Liu