EVIDENT: エンティティに基づく映像時間的位置特定の適応

EVIDENT: Routing MLLM Adaptation through Entity-Grounded Visual Evidence for Cross-Domain Video Temporal Grounding

映像の時間的位置特定を改善する手法

2026-05-25 中級 arXiv
LLMマルチモーダルファインチューニング
  • 映像の時間的位置特定はドメインシフトで性能が低下する。
  • EVIDENTはエンティティに基づく適応フレームワークを提案する。
  • この手法は、エンティティを利用することでロバスト性を向上させる。
映像認識ファインチューニングマルチモーダル

映像の時間的位置特定は、ドメインが変わると性能が大きく低下する問題があります。本論文では、EVIDENTという新しい適応フレームワークを提案し、エンティティに基づく証拠を活用してこの問題を解決します。実験結果から、EVIDENTはドメイン外でのロバスト性を向上させつつ、競争力のある性能を維持できることが示されました。映像処理や機械学習に興味がある研究者にとって、注目すべき内容です。

映像処理や機械学習に関心のある研究者に向いています。特に、ドメイン適応やファインチューニングに興味がある方におすすめです。

EVIDENT: Routing MLLM Adaptation through Entity-Grounded Visual Evidence for Cross-Domain Video Temporal Grounding
Geo Ahn, Jiwook Han, Youngrae Kim, Joonseok Lee, Jinwoo Choi