PRISM: マルチモーダル強化学習のための事前整列手法

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

マルチモーダルモデルの性能向上手法

2026-04-30 中級 arXiv
LLMマルチモーダル強化学習
  • 大規模マルチモーダルモデルはファインチューニング後に性能が低下することがある。
  • PRISMは、ファインチューニングと強化学習の間に分布整列を挿入する手法を提案する。
  • この手法は、異なる専門家による補正信号を用いて性能を向上させる。
マルチモーダル強化学習ファインチューニング

大規模マルチモーダルモデルは、ファインチューニング後に性能が低下することがあります。PRISMは、ファインチューニングと強化学習の間に分布整列を行う新しい手法を提案し、異なる専門家による補正信号を活用してモデルの性能を向上させます。このアプローチは、特に難解な問題に対する視覚的な基盤と段階的な推論を強化することが期待されます。マルチモーダル強化学習に興味がある研究者や開発者に向いています。

マルチモーダル強化学習に興味がある研究者や開発者に最適です。

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu ほか