「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
Apache NiFi - Processorで、色々なプロダクトがあったので勉強。
分散処理(分散コンピューティング)とは、
複雑な計算などをネットワークを介して複数のコンピュータを利用して行うことで、
スループットを上げようとする取り組み、またはそれを実現する為の仕組み。
データ・ストア、ディスクか?メモリか?
Hadoop の Hadoop Distributed File System (HDFS)
Apache Spark の Resilient Distributed Dataset (RDD)
どのような処理を実行できるか?
得意とするストレージによってフレームワークが異なる感じ。
※ Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
Hadoop や Hadoop Distributed File System (HDFS) は進化しつつあるらしい。
ビジネス上の目的の例。
ビッグデータの分散処理のプロダクト。
ビッグデータのストリーム処理のプロダクト
ビッグデータのストリーム処理のプロダクト
※ Apache Stormとの違いはリンク先参照を。
EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。
処理性能を重視したメッセージキュー