「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- ドイツのコンスタンツ大学で作られたデータ分析用ソフト
- GUI、データ分析の一連の流れを実行できる。
- 日本語版はないため表記は英語。
詳細 †
インストレーション †
ダウンロード †
インストール †
インストーラを起動して、
既定値でインストール
基本操作 †
起動 †
インストール後、スタート・メニューから起動。
ワークスペース設定 †
「Select a directory as workspace」ダイアログの「Workspace:」欄に、
任意の作業用フォルダを指定して「Launch」ボタンを押下する。
ワークフロー作成 †
- 「KNIME Explorer」の「Local (Local Workspace)」を右クリックし「New KNIME Workflow」を選択
- 「New KNIME Workflow Wizard」ダイアログの「Name of the workflow to create:」欄に、
任意のプロジェクト名を入力して「Finish」ボタンを押下する。
- 最も基本的な操作として、ファイルの読み込みを行う。
- [Node Repository]の検索窓に[File]と入力し[File Reader]を検索する。
- [File Reader]を[Workflow Editor]に [D & D] する。
- [Workflow Editor]上の[File Reader]をダブルクリックする。
- [File]欄にファイル・パスを指定して[OK]ボタンを押下する。
- [Workflow Editor]上の[File Reader]を右クリックし、
- 実行ボタンを押下することで、読み込みが完了する。
- [File Table]ボタンを押下することで、読み込みを確認する。
データの理解 †
- ワークフロー作成で説明した手順で、
[Workflow Editor]上にNumericとNormalの列を持つ
データを読み込んだ[File Reader]が存在すること。
- [Node Repository]の検索窓に[Stat...]と入力し[Statistics]を検索する。
- [Statistics]を[Workflow Editor]に [D & D] する。
- [Workflow Editor]上の
- [File Reader]と[Statistics]を結線する。
- [Statistics]をダブルクリックする。
- (NumericとNormalの)設定を確認して[OK]ボタンを押下する。
- メニューの実行ボタンを押下して統計量を計算する。
- [Workflow Editor]上の[Statistics]を右クリックし、
[View:Statistics View]ボタンを押下することで、
計算したさまざまな統計量やヒストグラムを確認する。
- [Node Repository]の検索窓に[Math]と入力し[Math Formula]を検索する。
- [Math Formula]を[Workflow Editor]に [D & D] する。
- [Statistics]の一番上の出力[▶]
(Statistics Table)と[Math Formula]を結線する。
- [Math Formula]をダブルクリックして設定を行う。
- [Add column]欄にカラム名として「欠損率」を入力する。
- [Workflow Editor]上の[Math Formula]を右クリックし、
[Output data]ボタンを押下することで、計算した欠損率を確認できる。
- [Node Repository]の検索窓に
- [Color]と入力し[Color Manager]を検索する。
- [Scatter]と入力し[Scatter Plot]を検索する。
- [Pie]と入力し[Pie Chart]を検索する。
- [Conditional]と入力し[Conditional Box Plot]を検索する。
- [Histo]と入力し[Histogram]を検索する。
- [Line]と入力し[Line Plot]を検索する。
- 上記のノードを其々、[Workflow Editor]に [D & D] する。
- 各ノードをダブルクリック、若しくは右クリックし、
[View:ノード名]ボタンを押下して設定を行う。
- 其々、以下のように設定を行う。
- [Color Manager]:カテゴリ列の値毎の色を設定
- [Scatter Plot]:[Column Selection]で列を選択
- [Pie Chart]:Pie と Aggregation の Columnを設定
- [Conditional Box Plot]:Numeric と Normal の Columnを設定
- [Histogram]:Binning と Aggregation の Columnを設定
- [Line Plot]:[Column Selection]で列を選択
- ...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下して計算する。
- [Workflow Editor]上の各ノードを右クリックし、
[View:ノード名]ボタンを押下することで、可視化の結果を確認できる。
データの準備 †
- ワークフロー作成で説明した手順で、
[Workflow Editor]上にNumericとNormalの列を持つ
欠損値を持つデータを読み込んだ[File Reader]が存在すること。
- [Filter]と入力し
・[Row Filter]を検索する。
・[Rule-based Row Filter]を検索する。
・[Column Filter]を検索する。
- [Parti...]と入力し[Partitioning]を検索する。
- 上記のノードを其々、[Workflow Editor]に [D & D] する。
- 其々、以下のように設定を行う。
- [Row Filter]:行のフィルタ方法を指定
- [Rule-based Row Filter]:行のフィルタ方法を[Expression]で指定
- [Partitioning]:パーティショニング方法を指定
- [Column Filter]:列のフィルタ(射影)を指定
- ...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してフィルタリング・パーティショニングする。
- [Workflow Editor]上の各ノードを右クリックし、
[Filtered ...]や[... partition]ボタンを押下することで、
フィルタリング・パーティショニングの結果を確認できる。
- 前述の手順で、[Workflow Editor]上にNumericとNormalの列を持つ
欠損値を持たないデータを読み込んだ[File Reader]が存在すること。
- [Binner]と入力し
・[Auto-Binner]を検索する。
・[Numeric Binner]を検索する。
- [Norm...]と入力し[Normalizer]を検索する。
- [Denorm...]と入力し[Denormalizer]を検索する。
- 上記のノードを其々、[Workflow Editor]に [D & D] する。
- 其々、以下のように設定を行う。
- [Auto-Binner]:対象列と分割方法を設定
- [Numeric Binner]:対象列と分割の数値範囲を設定
- [Normalizer] :対象列と値の範囲を設定
- [Denormalizer]:特にナニも指定せず。
- ...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してデータを構築する。
- [Workflow Editor]上の各ノードを右クリックし、
[Binned ...]や[Normalized table] / [Denormalized output]
ボタンを押下することでデータ構築の結果を確認できる。
- 前述の手順で、[Workflow Editor]上にNormalの列を持つ、
結合可能なデータを読み込んだ2つの[File Reader]が存在すること。
- [Join...]と入力し[Joiner]を検索する。
- [One...]と入力し[One to Many]を検索する。
- 上記のノードを其々、[Workflow Editor]に [D & D] する。
- 其々、以下のように設定を行う。
- [Joiner]:結合のキーを設定
- [One to Many]:フォーマット変換列を設定
- ...し[OK]ボタンを押下し、各ノードの設定画面を閉じ、
メニューの実行ボタンを押下してデータを統合する。
- [Workflow Editor]上の各ノードを右クリックし、
該当ボタンを押下することでデータ統合の結果を確認できる。
モデリング †
- Workflowを実行して、結果を確認する(1)
- [Linear Regression Learner]:
[View:Linear Regression Result View]で係数、t、P値などを確認する。
- [Regression Predictor]:[Predicted data]から予測結果を確認する。
- [Numeric Scorer]:[Statistics]から決定係数(R2)を確認する。
- [Normalizer]にZ標準化を設定する(2)
- Workflowを実行して、結果を確認する(2)
- [Linear Regression Learner]:
[View:Linear Regression Result View]で係数、t、P値などを確認する。
正規化によって、最も、影響の強い説明変数が明らかになる。
- [Regression Predictor]:[Predicted data]から予測結果を確認する。
- [Numeric Scorer]:[Statistics]から決定係数(R2)を確認する。
- 其々、以下のように設定を行う。
- [File Reader]:データの読み込み。
- [One to Many]:Normal列のフォーマット変換
- [Column Filter]:説明変数をフィルタリング、展開したNormal列を1つにフィルタリング
- [Number To String]:展開したNormal列の値を列名に変換
- [Logistic Regression Learner]:
- [Logistic Regression Predictor]:
- [Scorer]:
- [Math Formula]:
- 決定木分析
- ニューラルネットワーク
- 主成分分析
- クラスター分析
- アソシエーション分析
評価 †
展開 †
Extension †
参考 †
日立産業制御ソリューションズ †
日経クロステック(xTECH) †
KNIME(インフォコム) †
【導入ガイド】 †
日本語化 †
【Ver4.4対応版】
KNIMEのノード名(Node Repository)および、
ノード説明書き(Description)を日本語化する
https://knime-infocom.jp/blog/knime-japanese44/
KNIME †
YouTube? †
KNIMETV †
https://www.youtube.com/user/KNIMETV
KNIME-infocom †
https://www.youtube.com/channel/UCHfsNqOaJ9NYf7zNqxV_b0A