LocateAnything: 高速かつ高品質な視覚と言語の結合手法

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

視覚と言語の結合を高速化する手法

2026-05-26 中級 arXiv
マルチモーダル画像認識推論高速化
  • 視覚と言語モデルは、視覚の位置特定をトークン生成問題として扱う。
  • 本論文では、Parallel Box Decodingを用いて、幾何学的要素を一度にデコードする手法を提案。
  • このアプローチにより、処理速度と精度が大幅に向上することが示されている。
視覚認識マルチモーダル推論高速化

視覚と言語モデルは、視覚情報の位置特定をトークン生成として扱うことが一般的ですが、これには処理のボトルネックが存在します。本論文では、Parallel Box Decodingを用いて、幾何学的要素を一度にデコードする新しい手法LocateAnythingを提案します。この手法により、処理速度と精度が大幅に向上し、特に大規模データセットの活用が鍵となっています。視覚と言語の結合に興味がある研究者や開発者にとって、非常に興味深い内容です。

視覚と言語処理に関心のある研究者やエンジニアに向いています。

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li ほか