視覚思考を活用した空間推論の新手法

How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning

視覚と思考を融合した推論手法を提案

2026-05-26 中級 arXiv
マルチモーダル画像生成画像認識
  • 視覚と言語の統合モデルは空間推論に課題を抱えています。
  • 本研究では、視覚思考を活用する新たな手法を提案します。
  • 特に、パノラマ視覚思考が最も効果的であることを示しています。
マルチモーダル視覚認識画像生成

視覚と言語を統合したモデルは、空間推論においてしばしば限界があります。本論文では、視覚思考を利用してこの問題に取り組む新しい手法を提案します。特に、パノラマ視覚思考が情報量と学習可能性のバランスを最もよく保つことを示し、実際のデータセットでの評価結果も報告しています。視覚と言語の交差点に興味がある研究者や開発者にとって、非常に興味深い内容です。

視覚と言語の統合に興味がある研究者や実務者に最適です。

How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning
Qian Yang, Ankur Sikarwar, Huy Le, Le Zhang, Zhuan Shi, Perouz Taslakian ほか