分散処理のバックアップ(No.19)

Hadoop MapReduce?
- ラウンドロビン分割(HDFS)のパーティション並列性を活用
- Map処理においては，並列スキャンを行う。
- 一種の並列ソートマージ結合処理フレームワーク的。
  ・通常はReduce側で並列ソートマージ結合を行う。
  ・Map側で並列ハッシュ結合を行うことも可能。

Cloudera Impala / Presto
- ラウンドロビン分割(HDFS)でパーティション並列性を活用
- Map処理においては，並列スキャンを行う。
- 結合にハッシュ結合を使用しパイプライン並列性を活用

Spark Hadoopに類したデータ処理系
- ラウンドロビン分割(HDFS)のパーティション並列性を活用
- map()，filter()においては，並列スキャンを行う。
- 結合にハッシュ結合を使用しパイプライン並列性を活用

↑

ストア †

データ・ストア、ディスクか？メモリか？

↑

NoSQL
SparkとCassandraなんて組み合わせもある模様。

↑

処理 †

どのような処理を実行できるか？

↑

分散（バッチ） †

得意とするストレージによってフレームワークが異なる感じ。

Hadoop
- Hadoop MapReduce
- Hadoop Yet Another Resource Negotiator (YARN)

Apache Spark
- RDD
- HDFS

※ Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
　Hadoop や Hadoop Distributed File System (HDFS) は進化しつつあるらしい。

↑

ストリーム †

CEP（complex event processing）とも言う。

データ収集とエンリッチメントなどを行う。
- データ収集
  - fluentd
  - Logsatsh, Beats
  - Apache Kafka, Apache NiFi
- エンリッチメント
  - Apache NiFi
  - 人工知能（AI）

参考
- 分散ストリーム処理エンジンあれこれ - Qiita
  https://qiita.com/takanorig/items/aaa4f116d1564ec20dd3
- HortonworksのCTOが語る「Apache NiFi?」--IoT分野で重視される理由 - ZDNet Japan
  https://japan.zdnet.com/article/35070853/

↑

データ・パイプライン †

分散（バッチ） + ストリームみたいな組み合わせ。

↑

目的 †

ビジネス上の目的の例。

↑

意味付け †

前もって意味付けせずに生のまま蓄積できる。

データ分析時にいろいろな意味付けを試してみる探索的なデータマイニングできる。
最新の統計理論をベースにゼロからプログラミングできる自由度をもっている。

データアナリストというよりデータサイエンティストに向いたアーキテクチャ

↑

可視化 †

可視化が目的の場合、以下のような流れで処理を行う。
1. ストリーム
  1. データ収集
  2. エンリッチメント
2. 分散（バッチ）
  1. 蓄積
  2. 可視化

以下のようなプロダクトがある。
- Elasticsearch ( + Kibana)
- BIツール

※ ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。

↑

データ解析 †

↑

機械学習 †

↑

プロダクト †

↑

分散（バッチ）系 †

↑

Hadoop †

HDFSを使ったビッグデータの分散（バッチ）処理のプロダクト。

↑

Apache Spark †

ビッグデータの分散（バッチ）処理のプロダクト。

主にRDDを使用する。
オプションでHDFSも利用できる。

↑

ストリーム系 †

↑

Apache Storm †

ビッグデータのストリーム処理のプロダクト

↑

Hadoop Streaming †

ビッグデータのストリーム処理のプロダクト
標準入出力を使い、好きな言語でMapReduceを実行

↑

Spark Streaming †

ビッグデータのストリーム処理のプロダクト
※ Apache Stormとの違いはリンク先参照を。

↑

データ収集・格納 †

データ生成元 → HadoopのHDFS部の課題
スクラッチ開発が必要なので、OSSのプロダクトが存在する。

↑

Apache Flume †

非構造化データ

↑

Fluentd/Embulk †

非構造化データ

↑

Apache Storm †

時系列データ

↑

Apache Sqoop †

業務データベースからのデータ

↑

Apache NiFi †

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集＋エンリッチメント役割を担う。

↑

Apache Kafka †

処理性能を重視したメッセージキュー

データをロストし難い仕組みを備える。
- 複数台のマシンでクラスタを構成
- 分散処理により高いスループットを発揮

以下のような組み合わせで使用する。
- Apache NiFi → Kafka → Storm
- Fluentd → Kafka → Hadoop/Spark

↑

目的別 †

↑

分散（バッチ）系 †

↑

Hadoop系 †

複数台のサーバのディスクを効率よく利用

大規模データの保存と処理を、
- 適合した並列分散処理で実行
- 現実的コストで実行

繰返しの多い処理や、複雑な処理が苦手
- 複雑な処理は、MapReduce?ジョブの組み合わせで実現
- MapReduce?ジョブの都度、ディスクの読み書きが発生

↑

Apache Spark系 †

Hadoop系の弱点を克服したもの。

複数台のサーバのメモリ/CPU/ディスクを効率よく利用
- データのキャッシュ
- 実行プランの最適化

複雑な処理を実行できる。
- SQL（汎用化）
- 機械学習
- ストリーム
- ライブラリ、API

ストレージとしては、HadoopのHDFSを使用。

↑

Asakusa Framework †

Hadoop系の分散（バッチ）系技術を土台としている。
バッチアプリケーションを開発するための包括的なフレームワーク

↑

ストリーム系 †

↑

Apache Spark系 †

↑

... †

↑

Elastic Stack †

Elasticsearchの推奨構成

ビッグデータの可視化のプロダクト群
データはドキュメントで、全文検索処理を行う。
ストレージにHadoopを使えるので分散処理系に分類

↑

Elasticsearch †

↑

Kibana †

↑

Logsatsh †

↑

Beats †

↑

参考 †

分散コンピューティング - Wikipedia

分散処理に入門してみた（Hadoop + Spark） | キャスレーコンサルティング株式会社
https://www.casleyconsulting.co.jp/blog/engineer/150/

↑

＠IT †

Database Watch（2016年3月版） Sparkは“誰”に例えられる？
多様化と進化を続ける「Hadoop」、人気急上昇「Spark」
https://www.atmarkit.co.jp/ait/articles/1603/07/news002.html

Amazon EMRで構築するApache Spark超入門
- （1）Apache Sparkとは何か――使い方や基礎知識を徹底解説
  https://www.atmarkit.co.jp/ait/articles/1608/24/news014.html
- （2）Spark 2.0の回帰分析アプリをScalaのSBTで実装し、EMRで実行
  https://www.atmarkit.co.jp/ait/articles/1609/27/news018.html

↑

Think IT †

伊藤雅博
https://thinkit.co.jp/author/10002

↑

Qiita †

分散ストリーム処理エンジンあれこれ
https://qiita.com/takanorig/items/aaa4f116d1564ec20dd3

↑

NTTデータ †

↑

システム技術本部 †

Hadoopエコシステムの最新動向とNTTデータの取り組み（OSC 2016 Tokyo/Spring 講演資料）
https://www.slideshare.net/hadoopxnttdata/hadoop-osc2015spring-nttdata

並列分散処理基盤のいま〜45分で学ぶHadoop/Spark/Kafka/
ストレージレイヤSW入門〜 2020-8-28 A-8 - YouTube?
https://www.youtube.com/watch?v=9NtYlRF5j6A

↑

先端技術株式会社 †

ビッグデータコラム Column on Big Data Analytics and Platform
http://www.intellilink.co.jp/article/column/bigdata/index.html

ビッグデータ分析の意義と、分析のためのシステム基盤
http://www.intellilink.co.jp/plan/corporate/column1.html
ビッグデータ活用から価値を生む仕組みについて
http://www.intellilink.co.jp/article/column/bigdata-ok01.html

↑

分散処理 のバックアップ(No.19)

目次 †

概要 †

詳細 †

基礎 †

アーキテクチャ †

実行プラン †

並列処理 †

データ分割 †

性能指標 †

アルゴリズム †

分散処理 †

ストア †

ディスク †

メモリ †

その他 †

処理 †

分散（バッチ） †

ストリーム †

目的 †

意味付け †

可視化 †

プロダクト †

分散（バッチ）系 †

ストリーム系 †

データ収集・格納 †

目的別 †

分散（バッチ）系 †

Hadoop系 †

Apache Spark系 †

ストリーム系 †

Apache Spark系 †

... †

Kibana †

Logsatsh †

Beats †

参考 †

＠IT †

Think IT †

Qiita †

NTTデータ †

システム技術本部 †

先端技術株式会社 †