コストのかかるデータでの学習: クラス分布の影響

Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction

クラス分布が木構造分類に与える影響を分析

2003-10-01 被引用 923 中級
ベンチマーク
  • 実世界の学習問題では、トレーニングデータのコストが課題となる。
  • 本研究では、限られたトレーニングデータにおけるクラス分布の最適化を提案。
  • ROC曲線に基づく評価でバランスの取れた分布が有効であることを示す。
機械学習クラス分布分類木

トレーニングデータの取得にはコストがかかるため、限られたデータでの学習が求められます。本論文では、トレーニングデータのクラス分布が分類木の性能に与える影響を分析し、最適な分布を見つける手法を提案しています。特に、ROC曲線を用いた評価においてバランスの取れた分布が良好な結果をもたらすことが示されています。機械学習の実務に関心がある研究者やエンジニアにとって興味深い内容です。

機械学習の実務に携わる研究者やエンジニアに向いています。

Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction
Gary M. Weiss, Foster Provost