「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
CRISP-DM:クリスプ ディー エム的な。
CRISP-DMは、データマイニングのプロセスを6つの主要なフェーズに分割する。
Business Understanding
Data Under Standing
などを確認する。
項目の
Data Preparation
選択データセットの品質向上、データ補完など。
※ ≒ 特徴選択
標準化(Z変換) = (実測値 - 平均値) / 標準偏差
正規化 = (実測値 - 最小値) / (最大値 - 最小値)
Modeling
※ データの準備と被る部分も。
色々な分類方法がある。
Evaluation
ある。
モデルの評価手法は、モデルのアルゴリズムに依存するので、モデルによって異なる。
精度の評価手法は、実行結果から評価するのでモデルに非依存(目的変数の種類によって異なる)。
目的変数が、
※ 回帰問題の評価時には、基本的にRMSEかMAEのどちらかを使う。
指標 | 計算方法 | 説明文 |
accuracy(正解率) | = (TP + TN) / (TP + TN + FP + FN) =(真陽性 + 真陰性)/(真陽性 + 真陰性 + 偽陽性 + 偽陰性) = 正解数 / 検査数 | 検査の正解率 |
precision(感度(再現率)、陽性反応的中率) | = (TP) / (TP + FP) = 真陽性 /(真陽性 + 偽陽性) = 真陽性 / 検査結果が陽性 | 陽性反応(予測)の的中率(正確性) |
(陰性反応的中率) | = (TN) / (TN + FN) = 真陰性 /(真陰性 + 偽陰性) = 真陰性 / 検査結果が陰性 | 陰性反応(予測)の的中率(正確性) |
recall(精度(適合率)) | = (TP) / (TP + FN) = 真陽性 /(真陽性 + 偽陰性) = 真陽性 / 実際に陽性 | 陽性を正しく陽性と予測する(陽性を取りこぼさない)確率 |
specificity(特異度) | = (TN) / (FP + TN) = 真陰性 /(真陰性 + 偽陽性) = 真陰性 / 実際に陰性 | 陰性を正しく陰性と予測する確率 |
f1-score(F値) | = (2 * precision * recall) / (precision + recall) | ハックされ難い指標 |
※ ハックとは実値異常(or 正常)が99%なら、予測値全部異常(or 正常)でaccuracy = 99%的な話。
※ テスト・エンジニア、セキュリエィ・エンジニア的に過検知(specificity)を許容して、誤検知(precision、recall)を減らす方向の努力が多い。
AIC = -2 ln L + 2k
Deployment
開発 / 活用 / 運用の経験の文書化
分析プロセスを今後も繰り返す場合はシステム化を検討する。
MLOpsなど、追加学習などを迅速に行なってデプロイするプラクティスがある。