.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分散処理(分散コンピューティング)とは、

詳細

基礎

アーキテクチャ

無共有型のアーキテクチャが主流である。

並列性

ストア

データ・ストア、ディスクか?メモリか?

ディスク

メモリ

Apache SparkResilient Distributed Dataset (RDD)

その他

処理

どのような処理を実行できるか?

分散(バッチ)

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

ストリーム

データ・パイプライン

分散(バッチ) + ストリームみたいな組み合わせ。

目的

ビジネス上の目的の例。

意味付け

前もって意味付けせずに生のまま蓄積できる。

データアナリストというよりデータサイエンティストに向いたアーキテクチャ

可視化

ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。

データ解析

機械学習

プロダクト

分散(バッチ)系

Hadoop

HDFSを使ったビッグデータの分散(バッチ)処理のプロダクト。

Apache Spark

ビッグデータの分散(バッチ)処理のプロダクト。

ストリーム系

Apache Storm

ビッグデータのストリーム処理のプロダクト

Hadoop Streaming

Spark Streaming

ビッグデータのストリーム処理のプロダクト
Apache Stormとの違いはリンク先参照を。

データ収集・格納

Apache Flume

非構造化データ

Fluentd/Embulk

非構造化データ

Apache Storm

時系列データ

Apache Sqoop

業務データベースからのデータ

Apache NiFi

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。

Apache Kafka

処理性能を重視したメッセージキュー

目的別

分散(バッチ)系

Hadoop

Apache Spark

Asakusa Framework

ストリーム系

Apache Spark

Elasticsearch

参考

@IT

Think IT

Qiita

NTTデータ

システム技術本部

先端技術株式会社

Hadoopの歴史


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS