.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

Hadoop

フレームワーク

ストレージ

Apache Spark

フレームワーク

ストレージ

詳細

目的別

Hadoop

  • 複数台のサーバのディスクを効率よく利用
  • 大規模データの保存と処理を、
    • 適合した並列分散処理で実行
    • 現実的コストで実行
  • 繰返しの多い処理や、複雑な処理が苦手
    • 複雑な処理は、MapReduce?ジョブの組み合わせで実現
    • MapReduce?ジョブの都度、ディスクの読み書きが発生

Apache Spark

  • Hadoop系の弱点を克服したもの。
  • 複数台のサーバのメモリ/CPU/ディスクを効率よく利用
    • データのキャッシュ
    • 実行プランの最適化
  • 複雑な処理を実行できる。
    • SQL(汎用化)
    • 機械学習
    • ストリーム
    • ライブラリ、API
  • ストレージとしては、
    HadoopHDFSを使用。

Asakusa Framework

  • Hadoop系の分散(バッチ)系技術を土台としている。
  • バッチアプリケーションを開発するための包括的なフレームワーク

プロダクト

Hadoop

HDFSを使ったビッグデータの分散(バッチ)処理のプロダクト。

Apache Spark

ビッグデータの分散(バッチ)処理のプロダクト。

  • 主にRDDを使用する。
  • オプションでHDFSも利用できる。

参考


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-11-29 (日) 14:11:20 (1237d)