言語モデルは睡眠が必要

Language Models Need Sleep

睡眠メカニズムでモデル性能向上

2026-05-25 中級 arXiv
LLMTransformer推論高速化
  • 大規模言語モデルは長期タスクでの性能が課題。
  • 本研究では、モデルがコンテキストを蓄積する睡眠メカニズムを提案。
  • 睡眠時間を増やすことで、深い推論が必要なタスクでの性能が向上。
言語モデル睡眠メカニズム推論性能

大規模な言語モデルは長期的なタスクにおいて注意機構のスケーラビリティが課題です。本論文では、モデルが最近のコンテキストを持続的な重みとして蓄積する睡眠のようなメカニズムを提案します。この手法により、深い推論が必要なタスクでの性能が大幅に向上することが示されています。機械学習や自然言語処理の研究者に特に興味深い内容です。

機械学習や自然言語処理に興味がある研究者や実務者に向いています。

Language Models Need Sleep
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti