音声と言語モデルにおける修正可能な裁定逆転

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

音声とテキストの矛盾を分析する研究

2026-06-03 中級 arXiv
LLMマルチモーダル
  • 音声と言語モデルは、音声と矛盾するテキストに従うことが多いです。
  • 本研究では、音声に基づく回答がどのように抑制されるかを調査しました。
  • 新たに提案されたGACLは、モデルの性能を大幅に向上させる可能性があります。
音声モデルマルチモーダルデコーディング

音声と言語モデル(ALM)は、音声と矛盾するテキストに従う傾向がありますが、その理由は明確ではありません。本研究では、音声を固定し、矛盾するテキストを除去することで、モデルの選好の変化を測定しました。興味深いことに、音声に基づく回答が抑制されていることが示され、GACLという新しいデコーディングルールが提案されました。この研究は、音声と言語の相互作用に興味がある研究者に特に有用です。

音声処理やマルチモーダル学習に興味がある研究者に向いています。

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models
Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu ほか