.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache NiFi - Processorで、色々なプロダクトがあったので勉強。

詳細

分散処理(分散コンピューティング)とは、
複雑な計算などをネットワークを介して複数のコンピュータを利用して行うことで、
スループットを上げようとする取り組み、またはそれを実現する為の仕組み。

ストア

データ・ストア、ディスクか?メモリか?

ディスク

HadoopHadoop Distributed File System (HDFS)

メモリ

Apache SparkResilient Distributed Dataset (RDD)

その他

処理

どのような処理を実行できるか?

分散(バッチ)

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

ストリーム

データ・パイプライン

分散(バッチ) + ストリームみたいな組み合わせ。

本質

可視化

予測

最適化

目的

ビジネス上の目的の例。

...

プロダクト

分散(バッチ)系

Hadoop

HDFSを使ったビッグデータの分散処理のプロダクト。

Apache Spark

ビッグデータの分散処理のプロダクト。

ストリーム系

Apache Storm

ビッグデータのストリーム処理のプロダクト

Hadoop Streaming

Spark Streaming

ビッグデータのストリーム処理のプロダクト
Apache Stormとの違いはリンク先参照を。

Apache NiFi

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。

Apache Kafka

処理性能を重視したメッセージキュー

目的別

Elasticsearch

Asakusa Framework

バッチアプリケーションを開発するための包括的なフレームワーク

参考

@IT

Think IT

Qiita

NTTデータ

システム技術本部

先端技術株式会社


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS