Apache Spark のバックアップ(No.16)

RDDに対する数十種類のオペレータを利用可能。
- 多様な並列データ処理をシンプルに記述できる。
- オペレータを組み合わせれば、ジョブを組み合わせる必要がない。
- 複数のオペレータは１つのタスクとしてRDDのパーテョションごとにコピーされる。
- パーティション並列性を活用でき、中間データI/Oを削減できる。

標準で用途向けのライブラリが付属している。

以下のようなビッグデータシナリオに適合する。

↑

欠点 †

苦手な処理。

クラスタ全体のメモリに乗り切らない巨大なデータ処理（TB級以上）
大きなデータセットを少しずつ更新する処理
秒以下の特に短いレスポンスが必要な処理

↑

シナリオ †

適合するビッグデータシナリオ

↑

抽出、変換、読み込み (ETL) †

Filtering
Sorting
Aggregating
Joining
Cleaning
Deduplicating
Validating

↑

詳細 †

アーキテクチャとコンポーネントの関係が謎い（詳細が見えて来たら書き足す予定）。

↑

アーキテクチャ †

↑

ドライバ †

プログラム
コンソールアプリのようなプログラム

Spark セッション
プログラムを受け取り、それを小さなタスクに分割する。
小さくなったタスクはエグゼキュータで処理される。

↑

エグゼキュータ †

各エグゼキュータまたはワーカー・ノード
ドライバからタスクを受け取り、そのタスクを実行。
前述のシャッフル処理は、エグゼキュータの多対多のNW間で実現される。
エグゼキュータは、クラスタと呼ばれるエンティティ上に存在。

↑

クラスタ †

クラスタ
エグゼキュータのホスティング

クラスターマネージャ
次の目的でドライバとエグゼキュータの両方と通信する。
- リソースの割り当てを管理する
- プログラム分割を管理する
- プログラム実行を管理する

↑

コンポーネント †

Java、Scala、Python、R、C#、SQL
↓ ↓ ↓
Spark Streaming	GraphX	MLlib	MLlib	Structured Streaming
			Spark SQL
Spark Core

↑

Resilient Distributed Dataset (RDD) †

Hadoop MapReduceが苦手としていた、
スループットとレイテンシの両立が必要な領域にアプローチ

分散共有メモリを提供する分散プログラムのワーキングセット。

永続化先として、主に、計算機のメモリ（キャッシュ）と二次記憶を利用できる。

メモリと二次記憶を組み合わせることも可能
- メモリに保持しきれないパーティションを一時的に二次記憶に退避
- 当該パーティションを利用する際に再び二次記憶から読み出す。

↑

Spark Core †

プロジェクト全体の基盤

RDD抽象化した各種の実装

API（Java、Python、Scala、R）を介して公開
- 分散タスクディスパッチ
- スケジューリング
- および基本I/O機能

↑

Spark SQL †

DataFrame?というオンメモリのテーブルに対し、LINQ的に処理を行うことが出来る。
裏側では、
クエリ・エンジン経由で実行プラン生成し
- RDDを処理
- 分散処理を隠蔽

↑

Spark Streaming †

↑

その他、用途向けのライブラリ †

グラフ処理（GraphX）

機械学習（MLlib）

機械学習を分散処理するためのライブラリ
- 1台のサーバで処理できない量のデータセットに対して分散処理で機械学習を実現
- バージョンアップのたびに、カバーされるアルゴリズムが増えている。

利用可能な処理
レコメンデーション / 分類 / 予測など
ポピュラーなアルゴリズムがカバーされている
- 二値分類 : 線形サポートベクタマシン、ロジスティック回帰
- 線形回帰：Lasso回帰、Redge回帰
- クラスタリング：k-means （Scalable K-means++）
- 協調フィルタリング：Alternating Least Squares (ALS)
- 勾配降下法 (Gradient Descent)

昨今はML Pipelinesの開発が活発
Scikit-Learnのような機械学習全体のパイプラインをサポートするAPIが提供される。

↑

耐障害性 †

≒ 再実行するタスクの数を最少にする機構。

↑

ジョブ †

物理ロギングに依る。

中間データをシャッフルする際に、
中間データを二時記憶に書き出す。

↑

RDD †

以下の２つの方法に依る。

再計算と呼ばれる論理ロギングの一種
RDDの永続化と同時にレプリケーション

↑

CLI †

↑

spark-submit †

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]

参考
- Submitting Applications - Spark 3.0.1 Documentation
  https://spark.apache.org/docs/latest/submitting-applications.html
- アプリケーションのサブミット - Spark 2.1.0 ドキュメント日本語訳
  http://mogile.web.fc2.com/spark/spark210/submitting-applications.html

↑

, etc. †

↑

参考 †

Apache Spark - Wikipedia
https://ja.wikipedia.org/wiki/Apache_Spark

↑

分散処理 > 目的別 †

↑

分散（バッチ）系 †

↑

ストリーム系 †

↑

NTTデータ †

↑

先端技術株式会社 †

Apache Sparkで始めるお手軽リアルタイムウインドウ集計
http://www.intellilink.co.jp/article/column/bigdata-kk01.html
Apache Sparkで始めるお手軽機械学習(Word2Vec編)
http://www.intellilink.co.jp/article/column/bigdata-kk04.html

↑

技術開発本部 †

https://www2.slideshare.net/nttdata-tech/presentations

Spark Meetup
- Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアップデート（Spark Meetup Tokyo #3 Onl…
  https://www2.slideshare.net/nttdata-tech/spark-meetup3-spark30-update-nttdata-sarutak

Spark + AI Summit
- 2019 セッションハイライト (Spark Meetup Tokyo #1 - Spark+AI Sum…
  https://www2.slideshare.net/nttdata-tech/spark-ai-summit-2019-report-nttdata
- Europe 2019 セッションハイライト（Spark Meetup Tokyo #2 講演資料）
  https://www2.slideshare.net/nttdata-tech/spark-ai-summit-europe-2019-report-nttdata
- 2020セッションのハイライト（Spark Meetup Tokyo #3 Online発表資料）
  https://www2.slideshare.net/nttdata-tech/spark-ai-summit-2020-trend-highlight-nttdata-dobashi

Apache Spark x.x
- Apache spark 2.3 and beyond
  https://www2.slideshare.net/nttdata-tech/apache-spark-23-and-beyond-ntt-data-saruta
- Apache Spark 2.4 and 3.0 What's Next?
  https://www2.slideshare.net/nttdata-tech/apache-spark-24-and-30-whats-next
- Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform（db tech showcase …
  https://www2.slideshare.net/nttdata-tech/spark30-unifiedanalyticsplatform-projecthydrogen-sparkgraph-nttdata-saruta

Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能…
https://www2.slideshare.net/nttdata-tech/project-hydrogen-and-spark-graph-nttdata-saruta

Open Source Conference2020 Online…
- 大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介
  https://www2.slideshare.net/nttdata-tech/apache-spark-introduction-osc2020-online-kyoto-20200828
  - 動画 : https://www.youtube.com/watch?v=294IPdNHbhA
- 大量のデータ処理や分析に使えるOSS Apache Spark入門
  https://www2.slideshare.net/nttdata-tech/spark-introduction-osc-fukuoka-nttdata-saruta
  - 動画 : https://www.youtube.com/watch?v=Kv4x97qFuDw

↑

システム技術本部 †

https://www.slideshare.net/hadoopxnttdata/presentations

Apache Spark の紹介
- （前半：Sparkのキホン）
  https://www.slideshare.net/hadoopxnttdata/apache-spark-spark
- （後半：技術トピック）
  https://www.slideshare.net/hadoopxnttdata/apache-spark

Spark1.0での動作検証
Hadoopユーザ・デベロッパから見たSparkへの期待（Hadoop Conference Japa…
https://www.slideshare.net/hadoopxnttdata/apache-spark-nttdatahcj2014

NTTデータにおける Apache Spark への取り組み
https://www.slideshare.net/hadoopxnttdata/20140802-nttd-sparkosckyoto

Spark MLlibではじめるスケーラブルな機械学習
https://www.slideshare.net/hadoopxnttdata/spark-m-llib-nttdata

Apache Spark 1000 nodes NTT DATA
https://www.slideshare.net/hadoopxnttdata/apache-spark-1000-nodes-ntt-data

Sparkをノートブックにまとめちゃおう。Zeppelinでね！
（Hadoopソースコードリーディング第19回発表資料）
https://www.slideshare.net/hadoopxnttdata/zeppelin-apache-spark-webbased-notebook

メキメキ開発の進む
Apache Sparkのいまとこれから
（Spark Casual Talk #1 発表資料）
https://www.slideshare.net/hadoopxnttdata/nttdata-spark-casual-talk-1

Sparkコミュニティに飛び込もう！
（Spark Meetup Tokyo 2015 講演資料、NTTデータ猿田浩輔）
https://www.slideshare.net/hadoopxnttdata/apache-spark-commnity-nttdata-sarutak

Apache Spark超入門
（Hadoop / Spark Conference Japan 2016 講演資料）
https://www.slideshare.net/hadoopxnttdata/apache-spark-for-beginners-ntt-data-saruta-spark-conference-japan-2016

Apache Sparkに手を出してヤケドしないための基本
～「Apache Spark入門より」～（デブサミ 2016 講演資料）
https://www.slideshare.net/hadoopxnttdata/apache-spark-nttdata-devsummit2016

↑

Qiita †

Apache Spark で分散処理入門
https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc

Sparkの内部処理を理解する
https://qiita.com/uryyyyyyy/items/ba2dceb709f8701715f7

Spark SQLによるビッグデータ集計をチューニング
するために分散処理の基礎から駈けぬける速習ガイド
https://qiita.com/piyo7/items/b2b26ca5a91b813562d4

↑

YARN †

Spark and YARN
https://qiita.com/imaifactory/items/f35ef03bfa4f268b1b83
Spark on YARN のアーキテクチャ
https://qiita.com/kojish/items/c845112265cbb7a5577a
【Sparkクラスタ構築】Yarnクラスタ稼働環境を構築します
https://qiita.com/gakuseikai/items/18f030e18ad0bc0c81d1

↑

gihyo.jp … 技術評論社 †

Hadoopはどのように動くのか
─並列・分散システム技術から読み解くHadoop処理系の設計と実装

Sparkの設計と実装
- 第20回［1］～登場の背景とデータ処理の特徴
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0020
- 第21回［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0021

↑

目次 †

概要 †

背景 †

特徴 †

分散処理 †

SQLライク †

トレードオフ †

利点 †

欠点 †

シナリオ †

抽出、変換、読み込み (ETL) †

バッチ処理 †

詳細 †

アーキテクチャ †

ドライバ †

エグゼキュータ †

クラスタ †

コンポーネント †

Resilient Distributed Dataset (RDD) †

Spark Core †

その他、用途向けのライブラリ †

耐障害性 †

ジョブ †

CLI †

spark-submit †

, etc. †

参考 †

NTTデータ †

先端技術株式会社 †

技術開発本部 †

システム技術本部 †

Qiita †

YARN †

gihyo.jp … 技術評論社 †