「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>要素技術]] *目次 [#l1537ebc] #contents *概要 [#fab74aa5] **確証的データ解析 [#mdebc5a6] 仮説を立てて、それを検証する。 **探索的データ 解析 [#hf37903c] データを見ながら、その意味を読み取ろうとする。 *詳細 [#t9a000a2] **解析方法 [#t25f60b2] ***クロス集計分析 [#hae158f2] 最も基本的なデータ分析方法で[[ビジネス インテリジェンス(BI)]]でも可能。 -集まったデータを年齢、性別、地域、職業などのさまざまな属性別に集計 --2、3種類程度の複数の属性についての相関関係を分析 --属性ごとに大まかなトレンドを把握 -以下で利用される。 --アンケートの集計 --仕入れの計画 --販売予測 --世論調査 -用語 --トランザクション・テーブル → クロス集計 → クロス・テーブル~ トランザクション・テーブルをクロス集計するとクロス・テーブルになる。 --ルックアップテーブル~ SQLで言えばJOINに該当する表計算ソフトの機能。 --ピボット・テーブル、ピボット・グラフ~ トランザクション・テーブルからクロス・テーブル(とグラフ)を~ 生成する表計算ソフト(や、分析ライブラリ)の機能。~ SQLだと、RDBMSによってはPIVOT・UNPIVOT句などが用意されている。 ---ピボット~ 縦持ち → 横持ち。SQLだと、GROUP BYで縦軸を作成し、~ CASEとASを使い、列Xの値を列化し、必用なら列Yの値を集計。 ---アン・ピボット~ 横持ち → 縦持ち。SQLだと、上記のピボットの結果セットの~ 当該列名を射影し、元の列名で値化、其々の列をUNIONする(集計していると戻せなくなる) --[[多次元データベースのオンライン分析処理(OLAP)>ビジネス インテリジェンス(BI)#hd76f1af]] ---上記のピボットと同じクロス集計を行うことが出来る。 ---ファクト・テーブルからクロス・テーブル(とグラフ)を生成 ***ロジスティック回帰分析 [#f8862775] ある事象の発生確率を予測する手法。 -ある質問に対する答えを「はい」または「いいえ」の形で集計 --結果は確率なので、0-1, (0-100%) の間の数値で表わされる。 -以下で利用される。 --病気の発生する確率の予測 --ターゲット顧客の商品購入率の予測 ***アソシエーション分析 [#wec1e143] 相関関係を分析する手法 -一見関連性がなさそうでも、 --共起性(同時に起こる項目)を分析し、隠れた関連性を発見する。 --...。 -以下で利用される。 --マーケットバスケット分析(バスケット分析) ---実店舗とECサイトでの行動の違いを発見する。 ---同時に購入されることが多いものを発見する。~ (レコメンドエンジンシステム) ***クラスター分析 [#w52da0b6] いろいろな性質のものが混じり合って存在しているなかで、~ 対象を類似性によりグループに分類し、その属性を分析する手法。 -作成したグループを「クラスタ」と言う。 --ポイントは、対象をどういう要因でグループに分類するか。 --表面に表れた事象や属性でクラスタに分け、その要因を分析します。 -以下で利用される。 --ユーザーのセグメント分析 --ブランディング(?) ***決定木分析 [#p582241e] ひとつの原因をもとに、仮説を何回も繰り返し、その結果から何通りもの予測を行う手法。 -仮説を繰り返すことで経過が樹木状に枝分かれしたモデル図になる。 --「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。 --複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。 -以下で利用される。 --マーケティング --リスクマネジメント ***主成分分析 [#v062173b] 多次元のデータを次元圧縮(データは減らない)する方法 -座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの -100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。 **アドホック分析、ダッシュボード、モニタリング [#edaac400] ***アドホック分析 [#l43753a6] -アドホック・クエリを投げるパワーユーザ的な人向け -ツール~ [[アドホック分析・ツール>#s006468d]]の利用が適している。 ***ダッシュボード [#xdaf8a56] -定型レポートを参照するエンドユーザ的な人向け -ツール~ [[ダッシュボード・ツール>#s006468d]]の利用が適している。 ***モニタリング [#e02e4838] -以下の様にモニタリングする。 --対象 : KPIなど。 --目的 : データドリブンな意思決定を行う。 --出力 : 月次レポートなど --特徴 : 長期的なデータの推移を可視化、集計の条件の変更。 -ツール~ [[BIツール>#i37df7b9]]の利用が適している。 **ツール [#nf68b131] ***各種、可視化ツール [#s006468d] 以下の様に分類可能 -スプレッドシート~ 大量のデータを扱えない。~ 複雑なダッシュボードを作るのが難しい。 --Googleスプレッドシート --Microsoft Excel -アドホック分析・ツール --Jupyter Notebook ---通常はローカル・ホストで起動するWebアプリケーション ---PythonやRuby、R言語などのスクリプト言語を実行する。 ---pandasでアドホック分析し、matplotlibで可視化する。 -ダッシュボード・ツール~ --Redash ---Python製のダッシュボード・ツール ---多数のデータソースに対応 ---SQLクエリの実行結果を可視化 --Superset ---対話的ダッシュボードを作るためのPython製のWebアプリケーション ---画面上でマウス操作によってグラフを作るのが基本 ---時系列データに対応した列指向ストレージ(Druid)を標準でサポート ---リアルタイムなダッシュボードを作る目的でよく利用される。 --[[Kibana>Elasticsearch#xdb2a250]] ---バックエンドは[[Elasticsearch]]一択になる。 ---同様に、リアルタイムなダッシュボードを作る目的でよく利用される。 --[[BIツール>#i37df7b9]]~ 対話的なダッシュボード ***[[BIツール>ビジネス インテリジェンス(BI)#j255e469]] [#i37df7b9]