ビジョントランスフォーマーのトークン相互作用の改善

Vision Transformers Need Better Token Interaction

トークンの相互作用を最適化する研究

2026-05-22 中級 arXiv
画像生成TransformerViT
  • ビジョントランスフォーマーは画像認識に強力だが、密な予測には限界がある。
  • 本研究では、トークン間の相互作用を選択的に改善する手法を提案する。
  • 新たなアプローチにより、セマンティックセグメンテーションの性能が大幅に向上する。
ビジョントランスフォーマーセマンティックセグメンテーショントークン相互作用

ビジョントランスフォーマー(ViT)は、強力な画像表現を学習する一方で、密な予測においては効果が薄れることがあります。本研究では、この現象を再考し、トークン間の相互作用を選択的に改善する新しい手法を提案します。具体的には、スパースアテンションを用いることで、セマンティックセグメンテーションの性能を大幅に向上させることに成功しました。この論文は、画像認識や深層学習に興味のある研究者にとって興味深い内容です。

画像認識や深層学習に関心がある研究者やエンジニアに向いています。

Vision Transformers Need Better Token Interaction
Linxiang Su