データマイニング・WEKA

データマイニング・WEKAについてのメモ

全体表示

[ リスト ]

<目的>
説明変数が量的尺度(数値)で、目的変数が3個以上の名義尺度で構成されるデータセットを分析するとき、精度の良いスキームつまりweka.classifiers(分類機)はどれ?

<探し方>
WEKAで用意されているデータセット・サンプルに対していろいろなスキームで実際に分析し、正解率の高いスキームを選ぶ。

  テスト方法:10 fold cross validation
  WEKA Version 3.5.6

     イメージ 1
  

<スキームを評価する基準>
・正解率が高い
・過学習が無い
・目的変数を一つに特定できないときは複数の候補を出力する
・世間で評価されている = 知名度がある


<結果発表  優秀な分類機 Clasifierはこれだ!>
 ■分類のルールを知りたい場合
      第1位. J48

 ■ルールはわからなくても良いという場合
  ○ meta(集団学習)以外
      第1位. KStar
      第2位. RandomForest
      第3位. Ibk(k=3)

  ○ meta(集団学習)
      第1位. Vote Average of Probabilities
      第2位. MultiBoostAB.J48

<コメント>
キーワードは、情報理論(エントロピー Entropy、情報量、情報利得、情報利得比 Information Gain Ratio)、Bootstrap(ブートストラップ、Resampling、復元抽出)、集団学習(meta、メタ学習、アンサンブル学習)。

★一位を獲得したJ48もKstarも情報理論を利用している。目的変数が名義尺度の分類には情報理論を
 使うスキームが適しているようです。

★Bootstrap法を利用しているスキームは、RamdomForest、Vote Average of Probabilities、
 MultiBoostAB.J48であり、優秀なスキームの半数を占める。

★正解率が高いスキームは集団学習です。

     イメージ 2

     イメージ 3




集団学習(メタ学習機、アンサンブル学習機)の説明
http://blogs.yahoo.co.jp/pironotakarabako/4616234.html
http://blogs.yahoo.co.jp/pironotakarabako/4618248.html



<KStarの説明>
*1 KStar
ttp://www.cs.waikato.ac.nz/~ml/publications/1995/Cleary95-KStar.pdf に詳しく説明されている。
KStarはInstance-based learners(事例を基礎にする機械学習機)です。Instance-based learnersはすでに分類されているインスタンスと比較することにより新しいインスタンスを分類します。 比較の結果類似するインスタンスは類似するクラスに分類されるであろう、という基本的な仮定を立てます。 ここで課題が二つあります。一つ目の課題は"類似するインスタンス"の定義であり、もう一つは"類似する分類方法"です。 Instance-based learnersにおいてこれらに相当する関数は、距離関数です。 これは二つのインスタンスがどれだけ似ているかを決めます。さらに、分類のための関数も決めます。これは、インスタンス同士が類似する程度がいかに分類に影響するか(寄与するか)を決めます。 そして、この距離関数に情報理論を利用しています。


<集団学習のパラメーター>
*2
Scheme: weka.classifiers.meta.AdaBoostM1 -Q -P 100 -S 3 -I 10 -W weka.classifiers.trees.J48 -- -C 0.25 -M 2

*3
Scheme: weka.classifiers.meta.Vote -S 1 -B     -R AVG
Vote combines the probability distributions of these base learners:
  weka.classifiers.functions.RBFNetwork -B 2 -S 1 -R 1.0E-8 -M -1 -W 0.1
  weka.classifiers.lazy.IBk -K 3 -W 0 -A "weka.core.neighboursearch.LinearNNSearch -A weka.core.EuclideanDistance"
  weka.classifiers.trees.J48 -C 0.25 -M 2
  weka.classifiers.bayes.BayesNet -D -Q weka.classifiers.bayes.net.search.local.K2 -- -P 1 -S BAYES -E weka.classifiers.bayes.net.estimate.SimpleEstimator -- -A 0.5
  weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a
  weka.classifiers.trees.RandomForest -I 10 -K 0 -S 1
using the 'Average of Probabilities' combination rule


*4
Scheme: weka.classifiers.meta.Vote -S 1 -B *1と同じ -R MAJ
Vote combines the probability distributions of these base learners:
  *1と同じ
using the 'Majority Voting' combination rule


*5
Scheme:weka.classifiers.meta.Vote -S 3 -B *1と同じ -R MAJ
Vote combines the probability distributions of these base learners:
  *1と同じ
using the 'Majority Voting' combination rule

*6
Scheme: weka.classifiers.meta.Vote -S 3 -B     -R AVG
Vote combines the probability distributions of these base learners:
  weka.classifiers.functions.RBFNetwork -B 2 -S 1 -R 1.0E-8 -M -1 -W 0.1
  weka.classifiers.lazy.IBk -K 3 -W 0 -A "weka.core.neighboursearch.LinearNNSearch -A weka.core.EuclideanDistance"
  weka.classifiers.trees.J48 -C 0.25 -M 2
  weka.classifiers.bayes.BayesNet -D -Q weka.classifiers.bayes.net.search.local.K2 -- -P 1 -S BAYES -E weka.classifiers.bayes.net.estimate.SimpleEstimator -- -A 0.5
  weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a
  weka.classifiers.trees.RandomForest -I 10 -K 0 -S 1
  weka.classifiers.lazy.KStar -B 20 -M a
  weka.classifiers.functions.Logistic -R 1.0E-8 -M -1
using the 'Average of Probabilities' combination rule

*7
Scheme: weka.classifiers.meta.Vote -S 3 -B     -R AVG
Vote combines the probability distributions of these base learners:
  *6から次を削除
  weka.classifiers.functions.RBFNetwork -B 2 -S 1 -R 1.0E-8 -M -1 -W 0.1
  weka.classifiers.bayes.BayesNet -D -Q weka.classifiers.bayes.net.search.local.K2 -- -P 1 -S BAYES -E weka.classifiers.bayes.net.estimate.SimpleEstimator -- -A 0.5
using the 'Average of Probabilities' combination rule

閉じる コメント(0)

コメント投稿

顔アイコン

顔アイコン・表示画像の選択

名前パスワードブログ
絵文字
×
  • オリジナル
  • SoftBank1
  • SoftBank2
  • SoftBank3
  • SoftBank4
  • docomo1
  • docomo2
  • au1
  • au2
  • au3
  • au4
投稿

.


プライバシー -  利用規約 -  メディアステートメント -  ガイドライン -  順守事項 -  ご意見・ご要望 -  ヘルプ・お問い合わせ

Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

みんなの更新記事