BERTopic: クラスベースのTF-IDFによるトピックモデリング

BERTopic: Neural topic modeling with a class-based TF-IDF procedure

トピックモデリングの新手法を提案

2022-03-11 被引用 1290 中級
LLMTransformerベンチマーク
  • トピックモデルは文書の隠れたテーマを発見するためのツールです。
  • BERTopicは、クラスベースのTF-IDFを用いて一貫したトピック表現を抽出します。
  • この手法は、従来のモデルと比較しても競争力があります。
トピックモデリングTF-IDFクラスタリング

トピックモデルは文書コレクションから隠れたテーマを発見するために広く利用されています。BERTopicは、事前学習済みのトランスフォーマーモデルを用いて文書の埋め込みを生成し、それをクラスタリングすることで新たなトピック表現を生み出します。この手法は、従来のアプローチと比較しても高い一貫性を持ち、さまざまなベンチマークで競争力を示しています。トピックモデリングに興味がある研究者や実務者にとって、非常に有益な情報を提供します。

トピックモデリングや自然言語処理に興味がある研究者や実務者に向いています。

BERTopic: Neural topic modeling with a class-based TF-IDF procedure
Maarten Grootendorst