.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

CRISP-DM:クリスプ ディー エム的な。

詳細

CRISP-DMは、データマイニングのプロセスを6つの主要なフェーズに分割する。

ビジネスの理解

Business Understanding

データの理解

Data Under Standing

などを確認する。

データソース、サイズ、収集方法

項目の情報の確認(名称、意味、型)

項目の

データの調査

データの品質の検証

データの要約

データの準備

Data Preparation

データの選択(データセット化)

データの取得

データのクリーニング

選択データセットの品質向上、データ補完など。

データの構築

データの統合

(PG上ある)

X、Y分割

※ ≒ 特徴選択

標準化・正規化

学習・テストデータの分割

モデリング

Modeling

データの準備と被る部分も。

モデル概要

色々な分類方法がある。

モデル選定

SaaSリファレンスの例

Excelの手順

KNIMEの手順

Pythonの手順

評価

Evaluation

ある。

モデルの評価

モデルの評価手法は、モデルのアルゴリズムに依存するので、モデルによって異なる。

精度の評価

精度の評価手法は、実行結果から評価するのでモデルに非依存(目的変数の種類によって異なる)。

目的変数が、

※ 回帰問題の評価時には、基本的にRMSEかMAEのどちらかを使う。

混同行列
指標計算方法説明文
accuracy(正解率)= (TP + TN) / (TP + TN + FP + FN)
=(真陽性 + 真陰性)/(真陽性 + 真陰性 + 偽陽性 + 偽陰性)
= 正解数 / 検査数
検査の正解率
recall(精度(適合率))
陽性的中率
= (TP) / (TP + FP)
= 真陽性 /(真陽性 + 偽陽性)
= 真陽性 / 検査結果が陽性
陽性反応の正確性
陰性的中率= (TN) / (TN + FN)
= 真陰性 /(真陰性 + 偽陰性)
= 真陰性 / 検査結果が陰性
陰性反応の正確性
precision(感度(再現率))= (TP) / (TP + FN)
= 真陽性 /(真陽性 + 偽陰性)
= 真陽性 / 実際に陽性
陽性を正しく陽性と判定する確率
・問題ありを見逃さない確率
・偽陰性だと問題の大きい健康診断などで有用
・値が高くても問題なしを過度に疑う可能性がある(偽陽性を考慮しない)
specificity(特異度)= (TN) / (FP + TN)
= 真陰性 /(真陰性 + 偽陽性)
= 真陰性 / 実際に陰性
陰性を正しく陰性と判定する確率
・問題なしを過度に疑わない確率
・偽陽性だと問題の大きい精密検査などで有用
・値が高くても問題ありを見逃す可能性がある(偽陰性を考慮しない)
f1-score(F値)= (2 * precision * recall) / (precision + recall)ハックされ難い指標

※ ハックとは実値異常(or 正常)が99%なら、予測値全部異常(or 正常)でaccuracy = 99%的な話。
※ テスト・エンジニア、セキュリエィ・エンジニア的に過検知(specificity)を許容して、誤検知(precision、recall)を減らす方向の努力が多い。

精度と説明力

展開

Deployment

PMPで言う最終プロダクト・サービス・所産の移管で、

報告書

開発 / 活用 / 運用の経験の文書化

システム

分析プロセスを今後も繰り返す場合はシステム化を検討する。

運用の示唆

MLOpsなど、追加学習などを迅速に行なってデプロイするプラクティスがある。

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS