コストのかかるデータでの学習: クラス分布の影響
Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction
クラス分布が木構造分類に与える影響を分析
この論文を3行でいうと
- 実世界の学習問題では、トレーニングデータのコストが課題となる。
- 本研究では、限られたトレーニングデータにおけるクラス分布の最適化を提案。
- ROC曲線に基づく評価でバランスの取れた分布が有効であることを示す。
キーワード
機械学習クラス分布分類木
もう少しだけ中身を見る
トレーニングデータの取得にはコストがかかるため、限られたデータでの学習が求められます。本論文では、トレーニングデータのクラス分布が分類木の性能に与える影響を分析し、最適な分布を見つける手法を提案しています。特に、ROC曲線を用いた評価においてバランスの取れた分布が良好な結果をもたらすことが示されています。機械学習の実務に関心がある研究者やエンジニアにとって興味深い内容です。
こんな人に向いていそう
機械学習の実務に携わる研究者やエンジニアに向いています。
元論文はこちら
関連論文