「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
v1 †
取り敢えず書いてみた、最初の版。
v2 †
Databricksのセミナーに影響を受けた結果を反映。
DXは=IoT, ビッグデータ(分散処理), AIじゃねーよ。
みたいな話があったりしましたが、まぁ、ワリと、
=IoT, ビッグデータ(分散処理), AIになってしまってます♨。
まぁ、技術マッピング中に含まれているから良いのでは?と。
v3 †
Path(Hot、Warm、Cold) †
- 認証は
- MQTTブローカ経由で行う。
- 認証方式はコチラを参照。
- Cold
- より長い間隔 (毎時または毎日) のバッチ処理
- デバイス → エッジと、データを集約して、ストレージにアップロード。
- アップロードしたデータを、適宜、バルク型分散処理が取り出して実行する。
- 認証は
- デバイス → エッジ間で認証。
- エッジ → ストレージ間で認証。
監視 → 制御へ。 †
- 効果の段階の監視 → 制御の段階の進化を検討する。
- エッジ(や認証基盤)から、デバイスへの通信方法を検討する。
詳細 †
データ収集(データ転送) †
バルク型(bulk) †
分散(バッチ)処理
ストリーミング型(streaming) †
ストリーム処理
ワークフロー管理ツール †
前述の、データレイク → データマートの処理をワークフロー化する。
データ集約プロセス †
可視化プロセス †
エンジニア、アナリスト †
データ エンジニア †
データの設計や統合、クレンジングの仕組み、カタログの整備。
データベース エンジニア †
データ基盤のインフラ・アーキテクチャを設計し、安定して運用する。
データ アナリスト †
データから価値ある情報を引き出す。
参考 †
Qiita †
ビッグデータ界隈のシステムにおいて、
- 事例の理解には、先ず、ココの理解が重要になりそう。
- 「"こう言う業務"だから、"こう言うプロダクト"が選定されているのか。」的な。
- データの利用目的によってデータストアを使い分けることが多い。
- これは、データベースの種類によって得意不得意があるため。
- RDB:構造化されたデータをビジネス要件に矛盾なく永続化する
- DWH:大規模なデータの蓄積・分析、大規模なユースケースには不向き。
DWHは、業務データを長期的に蓄積し管理したもの(なので、バッチ的アーキテクチャである)。
NoSQLはイベント駆動型である。 †
NoSQLは、業務データではなく、様々なデータソースから発生するデータを対象にする。
- Nifi + Kafka + Strom を用いたデータ処理ハンズオン
Elastic Stackは、1つの完成された事例的。
Apache Sparkを使用し、
までをこなす。