分散処理のバックアップ(No.16)

参考
- 分散ストリーム処理エンジンあれこれ - Qiita
  https://qiita.com/takanorig/items/aaa4f116d1564ec20dd3
- HortonworksのCTOが語る「Apache NiFi?」--IoT分野で重視される理由 - ZDNet Japan
  https://japan.zdnet.com/article/35070853/

↑

データ・パイプライン †

分散（バッチ） + ストリームみたいな組み合わせ。

↑

目的 †

ビジネス上の目的の例。

↑

意味付け †

前もって意味付けせずに生のまま蓄積できる。

データ分析時にいろいろな意味付けを試してみる探索的なデータマイニングできる。
最新の統計理論をベースにゼロからプログラミングできる自由度をもっている。

データアナリストというよりデータサイエンティストに向いたアーキテクチャ

↑

可視化 †

可視化が目的の場合、以下のような流れで処理を行う。
1. ストリーム
  1. データ収集
  2. エンリッチメント
2. 分散（バッチ）
  1. 蓄積
  2. 可視化

以下のようなプロダクトがある。
- Elasticsearch ( + Kibana)
- BIツール

※ ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。

↑

データ解析 †

↑

機械学習 †

↑

プロダクト †

↑

分散（バッチ）系 †

↑

Hadoop †

HDFSを使ったビッグデータの分散（バッチ）処理のプロダクト。

↑

Apache Spark †

ビッグデータの分散（バッチ）処理のプロダクト。

主にRDDを使用する。
オプションでHDFSも利用できる。

↑

ストリーム系 †

↑

Apache Storm †

ビッグデータのストリーム処理のプロダクト

↑

Hadoop Streaming †

ビッグデータのストリーム処理のプロダクト
標準入出力を使い、好きな言語でMapReduceを実行

↑

Spark Streaming †

ビッグデータのストリーム処理のプロダクト
※ Apache Stormとの違いはリンク先参照を。

↑

データ収集・格納 †

データ生成元 → HadoopのHDFS部の課題
スクラッチ開発が必要なので、OSSのプロダクトが存在する。

↑

Apache Flume †

非構造化データ

↑

Fluentd/Embulk †

非構造化データ

↑

Apache Storm †

時系列データ

↑

Apache Sqoop †

業務データベースからのデータ

↑

Apache NiFi †

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集＋エンリッチメント役割を担う。

↑

Apache Kafka †

処理性能を重視したメッセージキュー

データをロストし難い仕組みを備える。
- 複数台のマシンでクラスタを構成
- 分散処理により高いスループットを発揮

以下のような組み合わせで使用する。
- Apache NiFi → Kafka → Storm
- Fluentd → Kafka → Hadoop/Spark

↑

目的別 †

↑

分散（バッチ）系 †

↑

Hadoop系 †

複数台のサーバのディスクを効率よく利用

大規模データの保存と処理を、
- 適合した並列分散処理で実行
- 現実的コストで実行

繰返しの多い処理や、複雑な処理が苦手
- 複雑な処理は、MapReduce?ジョブの組み合わせで実現
- MapReduce?ジョブの都度、ディスクの読み書きが発生

↑

Apache Spark系 †

Hadoop系の弱点を克服したもの。

複数台のサーバのメモリ/CPU/ディスクを効率よく利用
- データのキャッシュ
- 実行プランの最適化

複雑な処理を実行できる。
- SQL（汎用化）
- 機械学習
- ストリーム
- ライブラリ、API

ストレージとしては、HadoopのHDFSを使用。

↑

Asakusa Framework †

Hadoop系の分散（バッチ）系技術を土台としている。
バッチアプリケーションを開発するための包括的なフレームワーク

↑

ストリーム系 †

↑

Apache Spark系 †

↑

Elasticsearch †

ビッグデータの可視化のプロダクト
データはドキュメントで、全文検索処理を行う。
ストレージにHadoopを使えるので分散処理系に分類
Elastic Stackという推奨構成がある。

↑

参考 †

分散コンピューティング - Wikipedia
https://ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0

分散処理に入門してみた（Hadoop + Spark） | キャスレーコンサルティング株式会社
https://www.casleyconsulting.co.jp/blog/engineer/150/

↑

＠IT †

Database Watch（2016年3月版） Sparkは“誰”に例えられる？
多様化と進化を続ける「Hadoop」、人気急上昇「Spark」
https://www.atmarkit.co.jp/ait/articles/1603/07/news002.html

Amazon EMRで構築するApache Spark超入門
- （1）Apache Sparkとは何か――使い方や基礎知識を徹底解説
  https://www.atmarkit.co.jp/ait/articles/1608/24/news014.html
- （2）Spark 2.0の回帰分析アプリをScalaのSBTで実装し、EMRで実行
  https://www.atmarkit.co.jp/ait/articles/1609/27/news018.html

↑