協調型マルチLLM推論のためのTRACERフレームワーク

TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning

マルチエージェントの協調推論を強化学習で最適化

2026-05-27 中級 arXiv
LLM強化学習Agent
  • 大規模言語モデルは推論を改善するために強化学習やマルチエージェントプロンプティングに依存しています。
  • TRACERは、協調的な意思決定を回避し、報酬を最適化する新しいフレームワークを提案します。
  • このアプローチは、計算コストを削減しつつ、エージェントの協調能力を向上させる点が新しいです。
強化学習マルチエージェント大規模言語モデル

大規模言語モデルは、推論能力を向上させるために強化学習やマルチエージェントの手法を取り入れていますが、これらを組み合わせるのは難しいです。本論文では、TRACERという新しいフレームワークを提案し、協調的な意思決定を効率的に行う方法を示します。特に、計算コストを抑えつつ、エージェントがどのように発言するかを学ぶ能力を向上させる点が注目されます。機械学習やAIに興味がある研究者や実務者にとって、非常に興味深い内容です。

機械学習やAIの研究者、特に強化学習やマルチエージェントシステムに興味がある方に向いています。

TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning
Chusen Li, Zhou Liu, Shuigeng Zhou, Wentao Zhang