「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
データ・パイプライン...まさに配管。
詳細 †
データ収集(データ転送) †
バルク型(bulk) †
分散(バッチ)処理
ストリーミング型(streaming) †
ストリーム処理
ワークフロー管理ツール †
前述の、データレイク → データマートの処理をワークフロー化する。
データ集約プロセス †
可視化プロセス †
エンジニア、アナリスト †
データ エンジニア †
データの設計や統合、クレンジングの仕組み、カタログの整備。
データベース エンジニア †
データ基盤のインフラ・アーキテクチャを設計し、安定して運用する。
データ アナリスト †
データから価値ある情報を引き出す。
参考 †
- Nifi + Kafka + Strom を用いたデータ処理ハンズオン
Elastic Stackは、1つの完成された事例的。
ビッグデータ界隈のシステムにおいて、
- 事例の理解には、先ず、ココの理解が重要になりそう。
- 「"こう言う業務"だから、"こう言うプロダクト"が選定されているのか。」的な。
- データの利用目的によってデータストアを使い分けることが多い。
- これは、データベースの種類によって得意不得意があるため。
- RDB:構造化されたデータをビジネス要件に矛盾なく永続化する
- DWH:大規模なデータの蓄積・分析、大規模なユースケースには不向き。
業務データを長期的に蓄積し管理したもの(なので、バッチ的アーキテクチャである)。
イベント駆動型である。 †
業務データではなく、様々なデータソースから発生するデータを対象にする。
Qiita †