MoEモデルのための最適ハイパーパラメータ転送手法

Complete-muE: Optimal Hyperparameter Transfer and Scaling for MoE Models

MoEモデル向けのハイパーパラメータ転送法を提案

2026-05-22 中級 arXiv
MoETransformer
  • ハイパーパラメータ調整はモデル性能に大きく影響する。
  • Complete-muEは、Dense FFNとMoE間のハイパーパラメータ転送を最適化するフレームワークを提案。
  • この手法により、MoEモデルは効率的に収束速度を向上させることができる。
ハイパーパラメータMixture-of-ExpertsTransformer

ハイパーパラメータの調整は、機械学習モデルの性能において重要な役割を果たします。本論文では、Dense FFNとMixture-of-Experts (MoE)モデル間でのハイパーパラメータ転送を最適化するComplete-muEというフレームワークを提案します。この手法は、異なるモデルアーキテクチャ間での安定したハイパーパラメータの最適化を実現し、MoEモデルの収束速度を向上させることができます。機械学習や深層学習に関心がある研究者や実務者にとって、特に興味深い内容です。

機械学習や深層学習に関心のある研究者や実務者に向いています。特に、MoEモデルの最適化に興味がある方におすすめです。

Complete-muE: Optimal Hyperparameter Transfer and Scaling for MoE Models
Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang