Ω-QVLA: 視覚・言語・行動モデルの堅牢な量子化手法

Ω-QVLA: Robust Quantization for Vision-Language-Action Models via Composite Rotation and Per-step Scaling

VLAモデルの効率的な量子化手法を提案

2026-05-27 中級 arXiv
マルチモーダル強化学習量子化
  • 視覚・言語・行動モデルは高性能だが、デバイス上での展開が難しい。
  • Ω-QVLAは、言語バックボーンと行動ヘッドを均一に量子化する新しい手法を提案。
  • この手法は、従来の方法よりも高い成功率を維持しつつ、メモリ使用量を大幅に削減する。
量子化マルチモーダル強化学習

視覚・言語・行動モデル(VLA)は、複雑なタスクを統合的に処理する能力がありますが、その大規模なパラメータ数がデバイス上での利用を難しくしています。本論文では、Ω-QVLAという新しい量子化手法を提案し、言語バックボーンと行動ヘッドを効率的に圧縮します。この手法は、従来の混合精度方式の必要を排除し、実際の操作実験でも優れた性能を示しています。特に、リソース制約のある環境でのAIモデルの利用を考える研究者や開発者にとって興味深い内容です。

AIや機械学習に興味がある研究者や開発者に向いています。特に、モデルの軽量化や効率化に関心がある方におすすめです。

Ω-QVLA: Robust Quantization for Vision-Language-Action Models via Composite Rotation and Per-step Scaling
Xinyu Wang, Mingze Li, Sicheng Lyu, Dongxiu Liu, Kaicheng Yang, Ziyu Zhao ほか