- 追加された行はこの色です。
- 削除された行はこの色です。
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。
-[[戻る>要素技術]]
-[[戻る>サービス]]
--[[SaaS設計のポイント]] > [[要素技術]]
--[[DXのポイント]] > [[DX設計のポイント]]、[[ユースケース検証(DX系)]]
---[[IoT]]
---ビッグデータ
---[[BI / AI]]
*目次 [#r80c7cf2]
#contents
*概要 [#m631e009]
時代はビッグデータのハズ?
-時代はビッグデータのハズ?
-EXCELに入り切るかどうか?(1つの基準)
*詳細 [#s76f01c6]
**3V [#wecdc89e]
以下の増加。
以下の増加([[量>#xb79de4b]]だけではない!)。
***量(Volume) [#xb79de4b]
-データ量
-テクノロジー
--超並列処理(Massively Parallel Processing)
--[[分散処理>分散処理#o97a1890]]
***処理速度(Velocity) [#o4888c69]
-データの生成される速度
-テクノロジー
--CEP(Complex Event Processing)
--[[ストリーム処理>分散処理#m55c61c3]]
---データ収集(DC)系
---シングル・イベント・プロセッサ(SEP)系
---複雑イベントプロセッサ(CEP)、~
イベントストリームプロセッサエンジン(ESP)系
***多様性(Variety) [#nd370c2d]
-扱うデータの多様性
-テクノロジー
--現実的な難題の多い分野
--まだテクノロジーが問題を解決していない分野
**4V [#bb64edc2]
**4V, 5V [#bb64edc2]
***[[3V>#wecdc89e]] [#wf048a7e]
***Veracity [#n2133a56]
-データの正確さ
-テクノロジー~
[[Variety>#nd370c2d]]と同様に、まだテクノロジーが問題を解決していない分野
**解析方法 [#t25f60b2]
ビッグデータのコンテキストでの[[データマイニング(DM)>ビジネス インテリジェンス(BI)#ffd92f5f]]
***Value [#m0deefb5]
***クロス集計分析 [#hae158f2]
最も基本的なデータ分析方法で[[ビジネス インテリジェンス(BI)]]でも可能。
*詳細 [#s76f01c6]
-集まったデータを年齢、性別、地域、職業などのさまざまな属性別に集計
--2、3種類程度の複数の属性についての相関関係を分析
--属性ごとに大まかなトレンドを把握
**データの泉源 [#gd288f0a]
-以下で利用される。
--アンケートの集計
--仕入れの計画
--販売予測
--世論調査
***オープンデータ [#r64f8383]
公共の公開されたデータ
-機械判読に適したデータ形式
-二次利用が可能な利用ルール
***ロジスティック回帰分析 [#f8862775]
ある事象の発生確率を予測する手法。
***企業データ [#p6142ad2]
企業が蓄積したデータ
-ある質問に対する答えを「はい」または「いいえ」の形で集計
--結果は確率なので、0-1(0-100%)の間の数値で表わされる。
**データの発生場所 [#udce14a4]
-以下で利用される。
--病気の発生する確率の予測
--ターゲット顧客の商品購入率の予測
***SNSデータ [#d25f867e]
SNSの情報
***アソシエーション分析 [#wec1e143]
相関関係を分析する手法
***Webサイト・データ [#ca9a7818]
サイト運営中に生成される情報
-ログ・データ
-Webシステムにエントリされたデータ
-マルチメディア(音声・動画)の再生データ
-一見関連性がなさそうでも、
--共起性(同時に起こる項目)を分析し、隠れた関連性を発見する。
--...。
***カスタマー・データ [#bd8d2b99]
顧客に関する情報
-CRM、カード
-POSなどのデータ
-以下で利用される。
--マーケットバスケット分析(バスケット分析)
---実店舗とECサイトでの行動の違いを発見する。
---同時に購入されることが多いものを発見する。~
(レコメンドエンジンシステム)
-[[患者データ>AIの活用例#m0dbf4e0]]
***クラスター分析 [#w52da0b6]
いろいろな性質のものが混じり合って存在しているなかで、~
対象を類似性によりグループに分類し、その属性を分析する手法。
***オフィス・データ [#o5d3f0d2]
事務で発生するデータ
-作成したグループを「クラスタ」と言う。
--ポイントは、対象をどういう要因でグループに分類するか。
--表面に表れた事象や属性でクラスタに分け、その要因を分析します。
***オペレーション・データ [#of9e7c29]
業務で発生するデータ
-POSなどのデータ
-以下で利用される。
--ユーザーのセグメント分析
--ブランディング(?)
***センサー・データ [#s6760a00]
センサーが生成するデータ
***決定木分析 [#p582241e]
ひとつの原因をもとに、仮説を何回も繰り返し、~
その結果から何通りもの予測を行う手法。
-製造業系
-医療系
-, etc.
-仮説を繰り返すことで経過が樹木状に枝分かれしたモデル図になる。
--「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。
--複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。
のモニタリング・システム。
-以下で利用される。
--マーケティング
--リスクマネジメント
※ 沢山あって網羅しきれない。
***主成分分析 [#v062173b]
多次元のデータを次元圧縮(データは減らない)する方法
**データの種類 [#qdb84ef3]
-座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの
-100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。
***構造化データ [#o5b24639]
-テーブル構造
-ネットワーク構造
-[[時系列>統計解析#yced16e9]]
-, etc.
**データパイプライン [#t482d866]
***[[非構造化データ>データサイエンス力#nfee8484]] [#ib23fb34]
***データ収集(データ転送) [#va54b85c]
-バルク型(bulk)
--[[分散(バッチ)処理>分散処理#o97a1890]]
**データからの知識発見 [#h8ee584d]
-ストリーミング型(streaming)
--[[ストリーム処理>分散処理#m55c61c3]]
***データの収集と整形 [#n03995b0]
-全体の80-90%
***データレイク [#o2e72d99]
-複雑化した[[ETLプロセス>EAI/ETL#eed58b6f]]に追加された概念。
-単なるストレージで、[[分散(バッチ)処理>分散処理#o97a1890]]でデータマートに切り出される。
-データの収集の問題
--どこにある?
--生データのデジタル化
--業務システム(レガシー)
--外部システム
--分析手段が属人的
--結果が理解されない。
-基盤:[[データ・パイプライン>#t482d866]]
***機械学習ツール [#w0a960af]
-[[人工知能(AI)]]
-学習に必要なデータの量の問題
--人間:O(1)
--知識主導型学習:O(10)
--従来型学習:O(10^2)-O(10^4)
--深層学習:O(10^6)
***データの解釈と評価 [#wbeca71f]
人間が行う。
**基盤部分 [#s4293680]
***スタック&コラボレーション [#bf7181f3]
-[[IoT]] → ビッグデータ → [[人工知能(AI)]]
-[[プロダクトの組み合わせ>#t482d866]]
***[[データ・パイプライン]] [#t482d866]
フロントエンドからバックエンドまでの流れ
-Device、Edge([[データの発生場所>#udce14a4]])
-Cloud
--Device、Edgeの管理
--データストア([[ストレージ>#a1e97de1]]、[[NoSQL>#p8268acb]])
--データ処理([[EAI/ETL>#a9f2c209]]、[[分散処理>#v361b883]])
--[[データ解析ツール>データ解析#nf68b131]]
**[[データサイエンティスト]] [#b40c9d90]
突如として人気を博してきた背景には、~
ビッグデータを重視するようになった企業の姿勢がある。
***[[データサイエンス力]] [#l31211c3]
***[[データ分析]] [#x47e0f77]
*参考 [#w2525607]
**関連 [#c93a3ff8]
***[[ストレージ]] [#a1e97de1]
***[[NoSQL]] [#p8268acb]
***[[EAI/ETL]] [#a9f2c209]
***[[分散処理]] [#v361b883]
***[[IoT]] [#c0a7abae]
**ゼッタテクノロジー株式会社 [#a2b10807]
データ活用塾~
https://www.zetta.co.jp/bigdata/
***ビッグデータ活用講座 [#gef858d5]
https://www.zetta.co.jp/bigdata/l_000_top.shtml
-始めに ビッグデータとは
-第1回 問題解決方法
-第2回 データクレンジング
-第3回 単純集計とカテゴライズ
-第4回 Excelを使ったクロス集計
-第5回 多重クロス集計1
-第6回 多重クロス集計2
-第7回 アソシエーション分析1
-第8回 アソシエーション分析2
***特別講座 [#ac6863e0]
https://www.zetta.co.jp/bigdata/sl_101.shtml
-杉浦先生基調講演:前編
-杉浦先生基調講演:中編
-杉浦先生基調講演:後編
**ビッグデータ | Coursera [#y4395c21]
https://www.coursera.org/specializations/big-data
***Introduction to Big Data [#p6c40da5]
https://www.coursera.org/learn/big-data-introduction?specialization=big-data
***Big Data Modeling and Management Systems [#t6195563]
https://www.coursera.org/learn/big-data-management?specialization=big-data
***Big Data Integration and Processing [#ia022ff1]
https://www.coursera.org/learn/big-data-integration-processing?specialization=big-data
***Machine Learning With Big Data [#s4c74453]
https://www.coursera.org/learn/big-data-machine-learning?specialization=big-data