電力を意識したLLMのMixture-of-Expertsモデル提供

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

LLM推論の電力効率を最適化する手法

2026-05-20 中級 arXiv
LLMMoE
  • 大規模言語モデルの推論はデータセンターでの主要な負荷です。
  • 本論文では、GPUの電力制限を最適化するPALSを提案します。
  • PALSはエネルギー効率を最大26.3%向上させる可能性があります。
大規模言語モデルエネルギー効率Mixture-of-Experts

大規模言語モデル(LLM)の推論は、現代のデータセンターでの重要な作業負荷となっています。そこで本論文では、GPUの電力制限を制御可能なリソースとして扱い、エネルギー効率を最適化する新しい手法PALSを提案します。PALSは、既存のLLM提供フレームワークに実装され、モデルの再訓練なしで効果を発揮します。この研究は、エネルギー効率を重視するAIシステムに関心のある研究者やエンジニアに向いています。

エネルギー効率やLLMの最適化に興味がある研究者やエンジニアに最適です。

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun