「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
データ・パイプライン...まさに配管。
v1 †
取り敢えず書いてみた、最初の版。
v2 †
Databricksのセミナーに影響を受けた結果を反映。
DXは=IoT, ビッグデータ(分散処理), AIじゃねーよ。
みたいな話があったりしましたが、まぁ、ワリと、
=IoT, ビッグデータ(分散処理), AIになってしまってます♨。
まぁ、技術マッピング中に含まれているから良いのでは?と。
v3 †
Path(Hot、Warm、Cold)によって、構成が変わってくる。
Hot †
- リアルタイム性の高い処理
- デバイスから直接、MQTTブローカに送信
- MQTTブローカ経由で分散処理に繋げる。
Warm †
Cold †
- より長い間隔 (毎時または毎日) のバッチ処理
- デバイス→エッジと、データを集約して、ストレージにアップロード。
- アップロードしたデータを、適宜、分散処理が取り出して実行する。
詳細 †
データ収集(データ転送) †
バルク型(bulk) †
分散(バッチ)処理
ストリーミング型(streaming) †
ストリーム処理
ワークフロー管理ツール †
前述の、データレイク → データマートの処理をワークフロー化する。
データ集約プロセス †
可視化プロセス †
エンジニア、アナリスト †
データ エンジニア †
データの設計や統合、クレンジングの仕組み、カタログの整備。
データベース エンジニア †
データ基盤のインフラ・アーキテクチャを設計し、安定して運用する。
データ アナリスト †
データから価値ある情報を引き出す。
参考 †
Qiita †
- Nifi + Kafka + Strom を用いたデータ処理ハンズオン
Elastic Stackは、1つの完成された事例的。
ビッグデータ界隈のシステムにおいて、
- 事例の理解には、先ず、ココの理解が重要になりそう。
- 「"こう言う業務"だから、"こう言うプロダクト"が選定されているのか。」的な。
- データの利用目的によってデータストアを使い分けることが多い。
- これは、データベースの種類によって得意不得意があるため。
- RDB:構造化されたデータをビジネス要件に矛盾なく永続化する
- DWH:大規模なデータの蓄積・分析、大規模なユースケースには不向き。
業務データを長期的に蓄積し管理したもの(なので、バッチ的アーキテクチャである)。
イベント駆動型である。 †
業務データではなく、様々なデータソースから発生するデータを対象にする。