.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache NiFi - Processorで、色々なプロダクトがあったので勉強。

詳細

分散処理(分散コンピューティング)とは、
複雑な計算などをネットワークを介して複数のコンピュータを利用して行うことで、
スループットを上げようとする取り組み、またはそれを実現する為の仕組み。

ストア

データ・ストア、ディスクか?メモリか?

ディスク

HadoopHadoop Distributed File System (HDFS)

メモリ

Apache SparkResilient Distributed Dataset (RDD)

その他

  • NoSQL
    SparkとCassandraなんて組み合わせもある模様。

処理

どのような処理を実行できるか?

分散(バッチ)

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

ストリーム

本質

可視化

  • 以下のようなプロダクトがある。

予測

最適化

目的

ビジネス上の目的の例。

...

プロダクト

分散(バッチ)系

Hadoop

HDFSを使ったビッグデータの分散処理のプロダクト。

Apache Spark

ビッグデータの分散処理のプロダクト。

  • 主にRDDを使用する。
  • オプションでHDFSも利用できる。

ストリーム系

Apache Storm

ビッグデータのストリーム処理のプロダクト

Spark Streaming

ビッグデータのストリーム処理のプロダクト
Apache Stormとの違いはリンク先参照を。

Apache NiFi

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。

Apache Kafka

処理性能を重視したメッセージキュー

  • 複数台のマシンでクラスタを構成
  • 分散処理により高いスループットを発揮

目的別

Elasticsearch

  • ビッグデータの可視化のプロダクト
  • Elastic Stackという推奨構成があるっぽい。

参考

@IT

Think IT

Qiita

NTTデータ

システム技術本部

先端技術株式会社


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-05-15 (水) 16:15:02 (100d)