データマイニング（DM）- KNIME のバックアップ(No.6) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- CRISP-DM
- KNIME

目次 †

概要 †

ドイツのコンスタンツ大学で作られたデータ分析用ソフト
GUI、データ分析の一連の流れを実行できる。
日本語版はないため表記は英語。

詳細 †

インストレーション †

ダウンロード †

Downloads | KNIME
https://www.knime.com/downloads

インストール †

インストーラを起動して、
既定値でインストール

基本操作 †

起動 †

インストール後、スタート・メニューから起動。

ワークスペース設定 †

「Select a directory as workspace」ダイアログの「Workspace:」欄に、
任意の作業用フォルダを指定して「Launch」ボタンを押下する。

ワークフロー作成 †

「KNIME Explorer」の「Local (Local Workspace)」を右クリックし「New KNIME Workflow」を選択
「New KNIME Workflow Wizard」ダイアログの「Name of the workflow to create:」欄に、
任意のプロジェクト名を入力して「Finish」ボタンを押下する。

最も基本的な操作として、ファイルの読み込みを行う。
- [Node Repository]の検索窓に[File]と入力し[File Reader]を検索する。
- [File Reader]を[Workflow Editor]に [D & D] する。
- [Workflow Editor]上の[File Reader]をダブルクリックする。
- [File]欄にファイル・パスを指定して[OK]ボタンを押下する。
- [Workflow Editor]上の[File Reader]を右クリックし、
  - 実行ボタンを押下することで、読み込みが完了する。
  - [File Table]ボタンを押下することで、読み込みを確認する。

CRISP-DM上で利用 †

データの理解 †

ワークフロー作成で説明した手順で、
[Workflow Editor]上にNumericとNormalの列を持つ
データを読み込んだ[File Reader]が存在すること。

基本統計量の計算と確認

[Node Repository]の検索窓に[Stat...]と入力し[Statistics]を検索する。
[Statistics]を[Workflow Editor]に [D & D] する。

[Workflow Editor]上の
- [File Reader]と[Statistics]を結線する。
- [Statistics]をダブルクリックする。

（NumericとNormalの）設定を確認して[OK]ボタンを押下する。
メニューの実行ボタンを押下して統計量を計算する。

[Workflow Editor]上の[Statistics]を右クリックし、
[View：Statistics View]ボタンを押下することで、
計算したさまざまな統計量やヒストグラムを確認する。

欠損率の計算と確認

[Node Repository]の検索窓に[Math]と入力し[Math Formula]を検索する。
[Math Formula]を[Workflow Editor]に [D & D] する。

[Workflow Editor]上の

[Statistics]の一番上の出力[▶]
(Statistics Table)と[Math Formula]を結線する。

[Math Formula]をダブルクリックして設定を行う。

以下の設定を行い、

[Expression]に以下を設定して、
```
($No. missings$ / $$ROWCOUNT$$) * 100
```

[Add column]欄にカラム名として「欠損率」を入力する。

[OK]ボタンを押下する。

メニューの実行ボタンを押下して欠損率を計算する。

[Workflow Editor]上の[Math Formula]を右クリックし、
[Output data]ボタンを押下することで、計算した欠損率を確認できる。

可視化

[Node Repository]の検索窓に
- [Color]と入力し[Color Manager]を検索する。
- [Scatter]と入力し[Scatter Plot]を検索する。
- [Pie]と入力し[Pie Chart]を検索する。
- [Conditional]と入力し[Conditional Box Plot]を検索する。
- [Histo]と入力し[Histogram]を検索する。
- [Line]と入力し[Line Plot]を検索する。

上記のノードを其々、[Workflow Editor]に [D & D] する。

[Workflow Editor]上の

ノードを以下のように結線する。
・NumericとNormalの列を持つデータを読み込んだ[File Reader]
```
[File Reader] ┬> [Color Manager] ┬> [Scatter Plot]
              │                  └> [Pie Chart]
              ├> [Conditional Box Plot]
              └> [Histogram]
```
・時系列の列を持つデータを読み込んだ[File Reader]
　（読み込み前に[Has row ID]をチェックしておく）
```
[File Reader] ─> [Line Plot]
```

各ノードをダブルクリック、若しくは右クリックし、
[View：ノード名]ボタンを押下して設定を行う。

其々、以下のように設定を行う。
- [Color Manager]：カテゴリ列の値毎の色を設定
- [Scatter Plot]：[Column Selection]で列を選択
- [Pie Chart]：Pie と Aggregation の Columnを設定
- [Conditional Box Plot]：Numeric と Normal の Columnを設定
- [Histogram]：Binning と Aggregation の Columnを設定
- [Line Plot]：[Column Selection]で列を選択

...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下して計算する。

[Workflow Editor]上の各ノードを右クリックし、
[View：ノード名]ボタンを押下することで、可視化の結果を確認できる。

データの準備 †

データのクリーニング

ワークフロー作成で説明した手順で、
[Workflow Editor]上にNumericとNormalの列を持つ
欠損値を持つデータを読み込んだ[File Reader]が存在すること。

[Node Repository]の検索窓に

[Filter]と入力し
・[Row Filter]を検索する。
・[Rule-based Row Filter]を検索する。
・[Column Filter]を検索する。

[Parti...]と入力し[Partitioning]を検索する。

上記のノードを其々、[Workflow Editor]に [D & D] する。

[Workflow Editor]上の

ノードを以下のように結線する。

[File Reader] ┬> [Row Filter] ─> [Rule-based Row Filter]
              └> [Partitioning] ─> [Column Filter]

各ノードをダブルクリックして設定を行う。

其々、以下のように設定を行う。
- [Row Filter]：行のフィルタ方法を指定
- [Rule-based Row Filter]：行のフィルタ方法を[Expression]で指定
- [Partitioning]：パーティショニング方法を指定
- [Column Filter]：列のフィルタ（射影）を指定

...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してフィルタリング・パーティショニングする。

[Workflow Editor]上の各ノードを右クリックし、
[Filtered ...]や[... partition]ボタンを押下することで、
フィルタリング・パーティショニングの結果を確認できる。

データの構築

前述の手順で、[Workflow Editor]上にNumericとNormalの列を持つ
欠損値を持たないデータを読み込んだ[File Reader]が存在すること。

[Node Repository]の検索窓に

[Binner]と入力し
・[Auto-Binner]を検索する。
・[Numeric Binner]を検索する。

[Norm...]と入力し[Normalizer]を検索する。
[Denorm...]と入力し[Denormalizer]を検索する。

上記のノードを其々、[Workflow Editor]に [D & D] する。

[Workflow Editor]上の

ノードを以下のように結線する。

[File Reader] ┬> [Auto-Binner]
              ├> [Numeric Binner]
              └> [Normalizer] -> [Denormalizer]
※ [Normalizer] ─> [Denormalizer]は、交差するように結線

各ノードをダブルクリックして設定を行う。

其々、以下のように設定を行う。
- [Auto-Binner]：対象列と分割方法を設定
- [Numeric Binner]：対象列と分割の数値範囲を設定
- [Normalizer] ：対象列と値の範囲を設定
- [Denormalizer]：特にナニも指定せず。

...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してデータを構築する。

[Workflow Editor]上の各ノードを右クリックし、
[Binned ...]や[Normalized table] / [Denormalized output]
ボタンを押下することでデータ構築の結果を確認できる。

データの統合

前述の手順で、[Workflow Editor]上にNormalの列を持つ、
結合可能なデータを読み込んだ２つの[File Reader]が存在すること。

[Node Repository]の検索窓に

[Join...]と入力し[Joiner]を検索する。
[One...]と入力し[One to Many]を検索する。

上記のノードを其々、[Workflow Editor]に [D & D] する。

[Workflow Editor]上の

ノードを以下のように結線する。

[File Reader] ┬> [Joiner] ─> [One to Many]
[File Reader] ┘

各ノードをダブルクリックして設定を行う。

其々、以下のように設定を行う。
- [Joiner]：結合のキーを設定
- [One to Many]：フォーマット変換列を設定

...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してデータを統合する。

[Workflow Editor]上の各ノードを右クリックし、
該当ボタンを押下することでデータ統合の結果を確認できる。

モデリング †

回帰分析

ノードを以下のように結線する（１）

[File Reader] ─> [Column Filter] ─> [Linear Regression Learner] ─> [Regression Predictor] ─> [Numeric Scorer]
                             │                                        │
                             └──────────────────────┘

其々、以下のように設定を行う（１）
- [File Reader]：データの読み込み。
- [Column Filter]：列のフィルタリング
- [Linear Regression Learner]：目的変数と説明変数を設定。
- [Regression Predictor]：設定不要
- [Numeric Scorer]：実測値列と予測値列を設定

Workflowを実行して、結果を確認する（１）
- [Linear Regression Learner]：
  [View：Linear Regression Result View]で係数、t、P値などを確認する。
- [Regression Predictor]：[Predicted data]から予測結果を確認する。
- [Numeric Scorer]：[Statistics]から決定係数（R2）を確認する。

ノードを以下のように結線する（２）

[File Reader] ─> [Column Filter] ─> [Normalizer] ─> [Linear Regression Learner] ─> [Regression Predictor] ─> [Numeric Scorer]
                                              │                                        │
                                              └──────────────────────┘

[Normalizer]にZ標準化を設定する（２）

Workflowを実行して、結果を確認する（２）
- [Linear Regression Learner]：
  [View：Linear Regression Result View]で係数、t、P値などを確認する。
  正規化によって、最も、影響の強い説明変数が明らかになる。
- [Regression Predictor]：[Predicted data]から予測結果を確認する。
- [Numeric Scorer]：[Statistics]から決定係数（R2）を確認する。

ロジスティック回帰

ノードを以下のように結線する。

[File Reader] ─> [One to Many] ─> [Column Filter] ─> [Number To String]
    ┌──────────────────┬───────────┘
    │                                 │
[Logistic Regression Learner] ┬> [Logistic Regression Predictor] ─> [Scorer]
                              └> [Math Formula]

其々、以下のように設定を行う。
- [File Reader]：データの読み込み。
- [One to Many]：Normal列のフォーマット変換
- [Column Filter]：説明変数をフィルタリング、展開したNormal列を１つにフィルタリング
- [Number To String]：展開したNormal列の値を列名に変換
- [Logistic Regression Learner]：
- [Logistic Regression Predictor]：
- [Scorer]：
- [Math Formula]：

決定木分析
ニューラルネットワーク
主成分分析
クラスター分析
アソシエーション分析

評価 †

展開 †

Extension †

参考 †

日立産業制御ソリューションズ †

[AI&ビッグデータ]分析モデリングツール「KNIME」
https://info.hitachi-ics.co.jp/product/d_value/knime.html
KNIMEワークフローの作り方　ビギナー向けチートシート
https://info.hitachi-ics.co.jp/product/d_value/images/KNIME_CheatSheet_Beginner_A3_Web_Jap_v3.pdf

日経クロステック（xTECH） †

無料ツールで始めるデータ分析入門
https://info.hitachi-ics.co.jp/product/d_value/knime.html
- 第1回「業務のプロ」がデータ分析をすべき理由
  https://xtech.nikkei.com/atcl/learning/lecture/19/00077/00001/
- 第2回 KNIMEで分析を始めよう
  https://xtech.nikkei.com/atcl/learning/lecture/19/00077/00002/
- 第3回データの傾向を理解する
  https://xtech.nikkei.com/atcl/learning/lecture/19/00077/00003/
- 第4回分析のためにデータを加工する
  https://xtech.nikkei.com/atcl/learning/lecture/19/00077/00004/
- 第5回モデルを作成し、評価する
  https://xtech.nikkei.com/atcl/learning/lecture/19/00077/00005/

KNIME（インフォコム） †

【導入ガイド】 †

ダウンロードする
https://knime-infocom.jp/service/knime-analytics-platform/guide/download/
インストールする
https://knime-infocom.jp/service/knime-analytics-platform/guide/install/
ワークフローをつくる
https://knime-infocom.jp/service/knime-analytics-platform/guide/work-flow/
エクステンションの追加
https://knime-infocom.jp/service/knime-analytics-platform/guide/extension/

日本語化 †

【Ver4.4対応版】
KNIMEのノード名（Node Repository）および、
ノード説明書き（Description）を日本語化する
https://knime-infocom.jp/blog/knime-japanese44/

KNIME †

Downloads
https://www.knime.com/downloads
KNIME Getting Started Guide
https://www.knime.com/getting-started-guide
KNIME Learning
https://www.knime.com/learning
KNIME Hub
https://hub.knime.com/

YouTube? †

KNIMETV †

https://www.youtube.com/user/KNIMETV

KNIME-infocom †

https://www.youtube.com/channel/UCHfsNqOaJ9NYf7zNqxV_b0A

KNIME Analytics Platformのインストール手順
https://www.youtube.com/watch?v=GJSVWzHePxo