「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
ざっくり、
みたいな話。
無共有型のアーキテクチャが主流である。
※ SQL Serverの並列クエリはファイル・グループによるパーティション並列性になる。
パーティション並列性のデータの分割方法には、主に次の3つの方法がある。
並列処理の性能指標
並列処理のオペレータとアルゴリズム
実行プランの列挙・見積・選択は、
「(問い合わせ)最適化」と呼ばれる。
レプリケーションとロギングがある(RDBMSにもある)。
複数のプロセス間において,協調して動作をする,または,同意を取るための技術
本項での処理系は
「分散システム技術を活用した、
データ処理専用の並列システム」
と言うことができる。
データ・ストア、ディスクか?メモリか?
どのような処理を実行できるか?
得意とするストレージによってフレームワークが異なる感じ。
※ Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
Hadoop や Hadoop Distributed File System (HDFS) は進化しつつあるらしい。
※ 複雑な、データ収集(DC)系に、
シングル・イベント・プロセッサ(SEP)系や、
複雑イベントプロセッサ(CEP)系を、使うこともある模様。
ビジネス上の目的の例。
前もって意味付けせずに生のまま蓄積できる。
データアナリストというよりデータサイエンティストに向いたアーキテクチャ
※ ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。
Elasticsearchの推奨構成
HDFSを使ったビッグデータの分散(バッチ)処理のプロダクト。
ビッグデータの分散(バッチ)処理のプロダクト。
ビッグデータのストリーム処理のプロダクト
ビッグデータのストリーム処理のプロダクト
※ Apache Stormとの違いはリンク先参照を。
業務データベースからのデータ
非構造化データ
非構造化データ
EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。
処理性能を重視したメッセージキュー
時系列データ
Hadoopはどのように動くのか