反事実的チャート生成による視覚と言語モデルの評価

Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

反事実的チャートでモデルの評価を強化

2026-05-26 中級 arXiv
マルチモーダル画像認識ベンチマーク
  • チャートQAベンチマークは視覚的推論を評価するが、モデルはしばしばショートカットを使う。
  • 本論文では、反事実的チャートを用いて視覚的推論を厳密に評価する新しいフレームワークを提案。
  • このアプローチにより、モデルの一般化能力の限界が明らかになる。
視覚認識マルチモーダルベンチマーク

チャートに基づく質問応答は、視覚的推論を必要とするが、モデルはしばしば背景知識に依存してしまいます。本論文では、反事実的チャートを生成する新しいフレームワーク「Chartographer」を提案し、既存のデータセットに適用してモデルの性能を評価します。この手法により、モデルの一般化能力の限界が浮き彫りになり、視覚的推論の新たな道筋が示されます。特に、視覚と言語の交差点に興味がある研究者にとって、有益な知見が得られるでしょう。

視覚と言語モデルに興味がある研究者や開発者に向いています。

Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models
Yifan Jiang, Dae Yon Hwang, Jesse C. Cresswell, Freda Shi