ガウスボトルネックを超えて: トポロジーに基づく特徴空間のエンコーディング

Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

3Dジオメトリを重視した新しい表現法

2026-04-30 中級 arXiv
画像認識異常検知AutoencoderTransformer
  • 現代の視覚モデルは大規模なデータと高能力アーキテクチャに依存しています。
  • 本研究では、ジオメトリを重視した潜在学習フレームワークS$^2$VAEを提案します。
  • 従来のガウスボトルネックと比較して、圧縮時の性能が向上することを示しています。
視覚認識変分オートエンコーダジオメトリ

視覚モデルは高い能力を持つ一方で、3Dジオメトリの保持が課題です。本論文では、ジオメトリを重視した新しい潜在学習フレームワークS$^2$VAEを提案し、カメラの動きや深度を効果的に表現します。特に、強い圧縮下でも従来手法より優れた性能を示す点が注目されます。視覚モデルや機械学習に興味のある研究者におすすめです。

視覚認識や機械学習に関心がある研究者や技術者に向いています。

Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Andrew Bond, Ilkin Umut Melanlioglu, Erkut Erdem, Aykut Erdem