電力を意識したLLMのMixture-of-Expertsモデル提供

この論文を3行でいうと

大規模言語モデルの推論はデータセンターでの主要な負荷です。
本論文では、GPUの電力制限を最適化するPALSを提案します。
PALSはエネルギー効率を最大26.3%向上させる可能性があります。

キーワード

大規模言語モデルエネルギー効率Mixture-of-Experts

もう少しだけ中身を見る

大規模言語モデル（LLM）の推論は、現代のデータセンターでの重要な作業負荷となっています。そこで本論文では、GPUの電力制限を制御可能なリソースとして扱い、エネルギー効率を最適化する新しい手法PALSを提案します。PALSは、既存のLLM提供フレームワークに実装され、モデルの再訓練なしで効果を発揮します。この研究は、エネルギー効率を重視するAIシステムに関心のある研究者やエンジニアに向いています。

こんな人に向いていそう

エネルギー効率やLLMの最適化に興味がある研究者やエンジニアに最適です。

元論文はこちら

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

arXiv DOI OpenAlex 論文ページ