電力を意識したLLMのMixture-of-Expertsモデル提供
PALS: Power-Aware LLM Serving for Mixture-of-Experts Models
LLM推論の電力効率を最適化する手法
この論文を3行でいうと
- 大規模言語モデルの推論はデータセンターでの主要な負荷です。
- 本論文では、GPUの電力制限を最適化するPALSを提案します。
- PALSはエネルギー効率を最大26.3%向上させる可能性があります。
キーワード
大規模言語モデルエネルギー効率Mixture-of-Experts
もう少しだけ中身を見る
大規模言語モデル(LLM)の推論は、現代のデータセンターでの重要な作業負荷となっています。そこで本論文では、GPUの電力制限を制御可能なリソースとして扱い、エネルギー効率を最適化する新しい手法PALSを提案します。PALSは、既存のLLM提供フレームワークに実装され、モデルの再訓練なしで効果を発揮します。この研究は、エネルギー効率を重視するAIシステムに関心のある研究者やエンジニアに向いています。
こんな人に向いていそう
エネルギー効率やLLMの最適化に興味がある研究者やエンジニアに最適です。
元論文はこちら
関連論文