「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- 時代はビッグデータのハズ?
- EXCELに入り切るかどうか?(1つの基準)
3V †
以下の増加(量だけではない!)。
量(Volume) †
- テクノロジー
- 超並列処理(Massively Parallel Processing)
- 分散処理
処理速度(Velocity) †
- テクノロジー
- ストリーム処理
- データ収集(DC)系
- シングル・イベント・プロセッサ(SEP)系
- 複雑イベントプロセッサ(CEP)、
イベントストリームプロセッサエンジン(ESP)系
多様性(Variety) †
- テクノロジー
- 現実的な難題の多い分野
- まだテクノロジーが問題を解決していない分野
4V, 5V †
Veracity †
- テクノロジー
Varietyと同様に、まだテクノロジーが問題を解決していない分野
Value †
詳細 †
データの泉源 †
オープンデータ †
公共の公開されたデータ
- 機械判読に適したデータ形式
- 二次利用が可能な利用ルール
企業データ †
企業が蓄積したデータ
データの発生場所 †
SNSデータ †
SNSの情報
Webサイト・データ †
サイト運営中に生成される情報
- ログ・データ
- Webシステムにエントリされたデータ
- マルチメディア(音声・動画)の再生データ
カスタマー・データ †
顧客に関する情報
オフィス・データ †
事務で発生するデータ
センサー・データ †
センサーが生成するデータ
オペレーション・データ †
業務で発生するデータ
データの種類 †
構造化データ †
- テーブル構造
- ネットワーク構造
- 時系列
- , etc.
データからの知識発見 †
データ・パイプライン
データの収集と整形 †
- データの収集の問題
- どこにある?
- 生データのデジタル化
- 業務システム(レガシー)
- 外部システム
- 分析手段が属人的
- 結果が理解されない。
機械学習ツール †
- 学習に必要なデータの量の問題
- 人間:O(1)
- 知識主導型学習:O(10)
- 従来型学習:O(10^2)-O(10^4)
- 深層学習:O(10^6)
データの解釈と評価 †
人間が行う。
基盤部分 †
スタック&コラボレーション †
フロントエンドからバックエンドまでの流れ
突如として人気を博してきた背景には、
ビッグデータを重視するようになった企業の姿勢がある。
参考 †
関連 †
ゼッタテクノロジー株式会社 †
データ活用塾
https://www.zetta.co.jp/bigdata/
ビッグデータ活用講座 †
https://www.zetta.co.jp/bigdata/l_000_top.shtml
- 始めに ビッグデータとは
- 第1回 問題解決方法
- 第2回 データクレンジング
- 第3回 単純集計とカテゴライズ
- 第4回 Excelを使ったクロス集計
- 第5回 多重クロス集計1
- 第6回 多重クロス集計2
- 第7回 アソシエーション分析1
- 第8回 アソシエーション分析2
特別講座 †
https://www.zetta.co.jp/bigdata/sl_101.shtml
- 杉浦先生基調講演:前編
- 杉浦先生基調講演:中編
- 杉浦先生基調講演:後編
ビッグデータ | Coursera †
https://www.coursera.org/specializations/big-data
Introduction to Big Data †
https://www.coursera.org/learn/big-data-introduction?specialization=big-data
Big Data Modeling and Management Systems †
https://www.coursera.org/learn/big-data-management?specialization=big-data
Big Data Integration and Processing †
https://www.coursera.org/learn/big-data-integration-processing?specialization=big-data
Machine Learning With Big Data †
https://www.coursera.org/learn/big-data-machine-learning?specialization=big-data