「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
時代はビッグデータのハズ?
詳細 †
3V †
以下の増加。
量(Volume) †
- テクノロジー
- 超並列処理(Massively Parallel Processing)
- 分散処理
処理速度(Velocity) †
- テクノロジー
- CEP(Complex Event Processing)
- ストリーム処理
多様性(Variety) †
- テクノロジー
- 現実的な難題の多い分野
- まだテクノロジーが問題を解決していない分野
4V †
Veracity †
- テクノロジー
Varietyと同様に、まだテクノロジーが問題を解決していない分野
解析方法 †
ビッグデータのコンテキストでのデータマイニング(DM)
クロス集計分析 †
最も基本的なデータ分析方法でビジネス インテリジェンス(BI)でも可能。
- 集まったデータを年齢、性別、地域、職業などのさまざまな属性別に集計
- 2、3種類程度の複数の属性についての相関関係を分析
- 属性ごとに大まかなトレンドを把握
- 以下で利用される。
- アンケートの集計
- 仕入れの計画
- 販売予測
- 世論調査
ロジスティック回帰分析 †
ある事象の発生確率を予測する手法。
- ある質問に対する答えを「はい」または「いいえ」の形で集計
- 結果は確率なので、0-1(0-100%)の間の数値で表わされる。
- 以下で利用される。
- 病気の発生する確率の予測
- ターゲット顧客の商品購入率の予測
アソシエーション分析 †
相関関係を分析する手法
- 一見関連性がなさそうでも、
- 共起性(同時に起こる項目)を分析し、隠れた関連性を発見する。
- ...。
- 以下で利用される。
- マーケットバスケット分析(バスケット分析)
- 実店舗とECサイトでの行動の違いを発見する。
- 同時に購入されることが多いものを発見する。
(レコメンドエンジンシステム)
クラスター分析 †
いろいろな性質のものが混じり合って存在しているなかで、
対象を類似性によりグループに分類し、その属性を分析する手法。
- 作成したグループを「クラスタ」と言う。
- ポイントは、対象をどういう要因でグループに分類するか。
- 表面に表れた事象や属性でクラスタに分け、その要因を分析します。
決定木分析 †
ひとつの原因をもとに、仮説を何回も繰り返し、
その結果から何通りもの予測を行う手法。
- 仮説を繰り返すことで経過が樹木状に枝分かれしたモデル図になる。
- 「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。
- 複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。
主成分分析 †
多次元のデータを次元圧縮(データは減らない)する方法
- 座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの
- 100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。
データパイプライン †
データ収集(データ転送) †
データレイク †
参考 †
関連 †
ゼッタテクノロジー株式会社 †
データ活用塾
https://www.zetta.co.jp/bigdata/
ビッグデータ活用講座 †
https://www.zetta.co.jp/bigdata/l_000_top.shtml
- 始めに ビッグデータとは
- 第1回 問題解決方法
- 第2回 データクレンジング
- 第3回 単純集計とカテゴライズ
- 第4回 Excelを使ったクロス集計
- 第5回 多重クロス集計1
- 第6回 多重クロス集計2
- 第7回 アソシエーション分析1
- 第8回 アソシエーション分析2
特別講座 †
https://www.zetta.co.jp/bigdata/sl_101.shtml
- 杉浦先生基調講演:前編
- 杉浦先生基調講演:中編
- 杉浦先生基調講演:後編