- 追加された行はこの色です。
- 削除された行はこの色です。
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。
-[[戻る>FrontPage]]
-[[戻る>サービス]]
--[[SaaS設計のポイント]] > [[要素技術]]
--[[DXのポイント]] > [[DX設計のポイント]]、[[ユースケース検証(DX系)]]
---[[IoT]]
---ビッグデータ
---[[BI / AI]]
*目次 [#r80c7cf2]
#contents
*概要 [#m631e009]
時代はビッグデータのハズ?
-時代はビッグデータのハズ?
-EXCELに入り切るかどうか?(1つの基準)
*3V [#wecdc89e]
**3V [#wecdc89e]
以下の増加([[量>#xb79de4b]]だけではない!)。
データの
***量(Volume) [#xb79de4b]
-データ量
-量(Volume)の増加
-処理速度(Velocity)の増加
-多様性(Variety)の増加
-テクノロジー
--超並列処理(Massively Parallel Processing)
--[[分散処理>分散処理#o97a1890]]
への対応がRDBで限界に達した。
***処理速度(Velocity) [#o4888c69]
-データの生成される速度
**Volume & Velocity [#mfacfc80]
RDBで、大量データの高速処理を行う場合の課題として、
-[[スケールアウトが困難>http://techinfoofmicrosofttech.osscons.jp/index.php?%E5%A4%A7%E9%87%8F%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%87%A6%E7%90%86%E6%96%B9%E5%BC%8F3#u1ee768f]]
-スケールアップしか無い
-テクノロジー
--[[ストリーム処理>分散処理#m55c61c3]]
---データ収集(DC)系
---シングル・イベント・プロセッサ(SEP)系
---複雑イベントプロセッサ(CEP)、~
イベントストリームプロセッサエンジン(ESP)系
という点があげられる。
***多様性(Variety) [#nd370c2d]
-扱うデータの多様性
**Variety [#h5276ccd]
-非定型なメタデータの管理が困難
-RDBに格納困難な[[非構造化データ>https://ja.wikipedia.org/wiki/%E9%9D%9E%E6%A7%8B%E9%80%A0%E5%8C%96%E3%83%87%E3%83%BC%E3%82%BF]]が増加しているらしい(主にはJSON)。
-テクノロジー
--現実的な難題の多い分野
--まだテクノロジーが問題を解決していない分野
*関連 [#c93a3ff8]
**4V, 5V [#bb64edc2]
**[[NoSQL]] [#p8268acb]
***[[3V>#wecdc89e]] [#wf048a7e]
**[[EAI/ETL]] [#a9f2c209]
***Veracity [#n2133a56]
-データの正確さ
-テクノロジー~
[[Variety>#nd370c2d]]と同様に、まだテクノロジーが問題を解決していない分野
***Value [#m0deefb5]
*詳細 [#s76f01c6]
**データの泉源 [#gd288f0a]
***オープンデータ [#r64f8383]
公共の公開されたデータ
-機械判読に適したデータ形式
-二次利用が可能な利用ルール
***企業データ [#p6142ad2]
企業が蓄積したデータ
**データの発生場所 [#udce14a4]
***SNSデータ [#d25f867e]
SNSの情報
***Webサイト・データ [#ca9a7818]
サイト運営中に生成される情報
-ログ・データ
-Webシステムにエントリされたデータ
-マルチメディア(音声・動画)の再生データ
***カスタマー・データ [#bd8d2b99]
顧客に関する情報
-CRM、カード
-POSなどのデータ
-[[患者データ>AIの活用例#m0dbf4e0]]
***オフィス・データ [#o5d3f0d2]
事務で発生するデータ
***オペレーション・データ [#of9e7c29]
業務で発生するデータ
-POSなどのデータ
***センサー・データ [#s6760a00]
センサーが生成するデータ
-製造業系
-医療系
-, etc.
のモニタリング・システム。
※ 沢山あって網羅しきれない。
**データの種類 [#qdb84ef3]
***構造化データ [#o5b24639]
-テーブル構造
-ネットワーク構造
-[[時系列>統計解析#yced16e9]]
-, etc.
***[[非構造化データ>データサイエンス力#nfee8484]] [#ib23fb34]
**データからの知識発見 [#h8ee584d]
***データの収集と整形 [#n03995b0]
-全体の80-90%
-データの収集の問題
--どこにある?
--生データのデジタル化
--業務システム(レガシー)
--外部システム
--分析手段が属人的
--結果が理解されない。
-基盤:[[データ・パイプライン>#t482d866]]
***機械学習ツール [#w0a960af]
-[[人工知能(AI)]]
-学習に必要なデータの量の問題
--人間:O(1)
--知識主導型学習:O(10)
--従来型学習:O(10^2)-O(10^4)
--深層学習:O(10^6)
***データの解釈と評価 [#wbeca71f]
人間が行う。
**基盤部分 [#s4293680]
***スタック&コラボレーション [#bf7181f3]
-[[IoT]] → ビッグデータ → [[人工知能(AI)]]
-[[プロダクトの組み合わせ>#t482d866]]
***[[データ・パイプライン]] [#t482d866]
フロントエンドからバックエンドまでの流れ
-Device、Edge([[データの発生場所>#udce14a4]])
-Cloud
--Device、Edgeの管理
--データストア([[ストレージ>#a1e97de1]]、[[NoSQL>#p8268acb]])
--データ処理([[EAI/ETL>#a9f2c209]]、[[分散処理>#v361b883]])
--[[データ解析ツール>データ解析#nf68b131]]
**[[データサイエンティスト]] [#b40c9d90]
突如として人気を博してきた背景には、~
ビッグデータを重視するようになった企業の姿勢がある。
***[[データサイエンス力]] [#l31211c3]
***[[データ分析]] [#x47e0f77]
*参考 [#w2525607]
**関連 [#c93a3ff8]
***[[ストレージ]] [#a1e97de1]
***[[NoSQL]] [#p8268acb]
***[[EAI/ETL]] [#a9f2c209]
***[[分散処理]] [#v361b883]
**ゼッタテクノロジー株式会社 [#a2b10807]
データ活用塾~
https://www.zetta.co.jp/bigdata/
***ビッグデータ活用講座 [#gef858d5]
https://www.zetta.co.jp/bigdata/l_000_top.shtml
-始めに ビッグデータとは
-第1回 問題解決方法
-第2回 データクレンジング
-第3回 単純集計とカテゴライズ
-第4回 Excelを使ったクロス集計
-第5回 多重クロス集計1
-第6回 多重クロス集計2
-第7回 アソシエーション分析1
-第8回 アソシエーション分析2
***特別講座 [#ac6863e0]
https://www.zetta.co.jp/bigdata/sl_101.shtml
-杉浦先生基調講演:前編
-杉浦先生基調講演:中編
-杉浦先生基調講演:後編
**ビッグデータ | Coursera [#y4395c21]
https://www.coursera.org/specializations/big-data
***Introduction to Big Data [#p6c40da5]
https://www.coursera.org/learn/big-data-introduction?specialization=big-data
***Big Data Modeling and Management Systems [#t6195563]
https://www.coursera.org/learn/big-data-management?specialization=big-data
***Big Data Integration and Processing [#ia022ff1]
https://www.coursera.org/learn/big-data-integration-processing?specialization=big-data
***Machine Learning With Big Data [#s4c74453]
https://www.coursera.org/learn/big-data-machine-learning?specialization=big-data