「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>要素技術]]
-[[戻る>サービス]]
--[[SaaS設計のポイント]] > [[要素技術]]
--[[DXのポイント]] > [[DX設計のポイント]]、[[ユースケース検証(DX系)]]
---[[IoT]]
---ビッグデータ
---[[BI / AI]]

*目次 [#r80c7cf2]
#contents

*概要 [#m631e009]
時代はビッグデータのハズ?
-時代はビッグデータのハズ?
-EXCELに入り切るかどうか?(1つの基準)

*詳細 [#s76f01c6]

**3V [#wecdc89e]
以下の増加。
以下の増加([[量>#xb79de4b]]だけではない!)。

***量(Volume) [#xb79de4b]
-データ量

-テクノロジー
--超並列処理(Massively Parallel Processing)
--[[分散処理>分散処理#o97a1890]]

***処理速度(Velocity) [#o4888c69]
-データの生成される速度

-テクノロジー
--[[ストリーム処理>分散処理#m55c61c3]]
---データ収集(DC)系
---シングル・イベント・プロセッサ(SEP)系
---複雑イベントプロセッサ(CEP)、~
イベントストリームプロセッサエンジン(ESP)系

***多様性(Variety) [#nd370c2d]
-扱うデータの多様性

**解析方法 [#t25f60b2]
-テクノロジー
--現実的な難題の多い分野
--まだテクノロジーが問題を解決していない分野

***クロス集計分析 [#hae158f2]
***ロジスティック回帰分析 [#f8862775]
***アソシエーション分析 [#wec1e143]
***クラスター分析 [#w52da0b6]
***決定木分析 [#p582241e]
**4V, 5V [#bb64edc2]

***[[3V>#wecdc89e]] [#wf048a7e]

***Veracity [#n2133a56]
-データの正確さ

-テクノロジー~
[[Variety>#nd370c2d]]と同様に、まだテクノロジーが問題を解決していない分野

***Value [#m0deefb5]

*詳細 [#s76f01c6]

**データの泉源 [#gd288f0a]

***オープンデータ [#r64f8383]
公共の公開されたデータ
-機械判読に適したデータ形式
-二次利用が可能な利用ルール

***企業データ [#p6142ad2]
企業が蓄積したデータ

**データの発生場所 [#udce14a4]

***SNSデータ [#d25f867e]
SNSの情報

***Webサイト・データ [#ca9a7818]
サイト運営中に生成される情報
-ログ・データ
-Webシステムにエントリされたデータ
-マルチメディア(音声・動画)の再生データ

***カスタマー・データ [#bd8d2b99]
顧客に関する情報
-CRM、カード
-POSなどのデータ

-[[患者データ>AIの活用例#m0dbf4e0]]

***オフィス・データ [#o5d3f0d2]
事務で発生するデータ

***オペレーション・データ [#of9e7c29]
業務で発生するデータ
-POSなどのデータ

***センサー・データ [#s6760a00]
センサーが生成するデータ

-製造業系
-医療系
-, etc.

のモニタリング・システム。

※ 沢山あって網羅しきれない。

**データの種類 [#qdb84ef3]

***構造化データ [#o5b24639]
-テーブル構造
-ネットワーク構造
-[[時系列>統計解析#yced16e9]]
-, etc.

***[[非構造化データ>データサイエンス力#nfee8484]] [#ib23fb34]

**データからの知識発見 [#h8ee584d]

***データの収集と整形 [#n03995b0]
-全体の80-90%

-データの収集の問題
--どこにある?
--生データのデジタル化
--業務システム(レガシー)
--外部システム
--分析手段が属人的
--結果が理解されない。

-基盤:[[データ・パイプライン>#t482d866]]

***機械学習ツール [#w0a960af]
-[[人工知能(AI)]]

-学習に必要なデータの量の問題
--人間:O(1)
--知識主導型学習:O(10)
--従来型学習:O(10^2)-O(10^4)
--深層学習:O(10^6)

***データの解釈と評価 [#wbeca71f]
人間が行う。

**基盤部分 [#s4293680]

***スタック&コラボレーション [#bf7181f3]
-[[IoT]] → ビッグデータ → [[人工知能(AI)]]

-[[プロダクトの組み合わせ>#t482d866]]

***[[データ・パイプライン]] [#t482d866]
フロントエンドからバックエンドまでの流れ

-Device、Edge([[データの発生場所>#udce14a4]])
-Cloud
--Device、Edgeの管理
--データストア([[ストレージ>#a1e97de1]]、[[NoSQL>#p8268acb]])
--データ処理([[EAI/ETL>#a9f2c209]]、[[分散処理>#v361b883]])
--[[データ解析ツール>データ解析#nf68b131]]

**[[データサイエンティスト]] [#b40c9d90]
突如として人気を博してきた背景には、~
ビッグデータを重視するようになった企業の姿勢がある。

***[[データサイエンス力]] [#l31211c3]
***[[データ分析]] [#x47e0f77]

*参考 [#w2525607]

**関連 [#c93a3ff8]

***[[ストレージ]] [#a1e97de1]

***[[NoSQL]] [#p8268acb]

***[[EAI/ETL]] [#a9f2c209]

***[[分散処理]] [#v361b883]

**ゼッタテクノロジー株式会社 [#a2b10807]
データ活用塾~
https://www.zetta.co.jp/bigdata/

***ビッグデータ活用講座 [#gef858d5]
https://www.zetta.co.jp/bigdata/l_000_top.shtml

-始めに ビッグデータとは
-第1回 問題解決方法
-第2回 データクレンジング
-第3回 単純集計とカテゴライズ
-第4回 Excelを使ったクロス集計
-第5回 多重クロス集計1
-第6回 多重クロス集計2
-第7回 アソシエーション分析1
-第8回 アソシエーション分析2

***特別講座 [#ac6863e0]
https://www.zetta.co.jp/bigdata/sl_101.shtml

-杉浦先生基調講演:前編
-杉浦先生基調講演:中編
-杉浦先生基調講演:後編

**ビッグデータ | Coursera [#y4395c21]
https://www.coursera.org/specializations/big-data

***Introduction to Big Data [#p6c40da5]
https://www.coursera.org/learn/big-data-introduction?specialization=big-data
***Big Data Modeling and Management Systems [#t6195563]
https://www.coursera.org/learn/big-data-management?specialization=big-data
***Big Data Integration and Processing [#ia022ff1]
https://www.coursera.org/learn/big-data-integration-processing?specialization=big-data
***Machine Learning With Big Data [#s4c74453]
https://www.coursera.org/learn/big-data-machine-learning?specialization=big-data


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS