Apache Spark のバックアップ(No.7)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- Apache Hadoop
- Apache Spark

目次 †

↑

概要 †

Hadoop MapReduceと同様に

複数の計算機を用いてデータ処理を行う並列データ処理系

クラスタ・コンピューティングのOSSフレームワーク
- 暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。
- Resilient Distributed Dataset (RDD)と呼ばれるデータ構造を処理するAPIを持つ。

↑

背景 †

ディスクベースの代替手法よりもかなり速く、メモリ内の大量のデータが処理されます。

Hadoop MapReduceが適合しない以下のケースをサポートする。
- 複雑なデータ処理を行うために，複数のジョブを連ねて実行する場合
- 同じデータを複数のジョブから利用する場合

↑

利点 †

汎用的な並列データ処理系として利用できる。

RDDに対する数十種類のオペレータを利用可能。
- 多様な並列データ処理をシンプルに記述できる。
- オペレータを組み合わせれば、ジョブを組み合わせる必要がない。
- 複数のオペレータは１つのタスクとしてRDDのパーテョションごとにコピーされる。
- パーティション並列性を活用でき、中間データI/Oを削減できる。

標準で用途向けのライブラリが付属している。

↑

シナリオ †

適合するビッグデータシナリオ

抽出、変換、読み込み (ETL)
- Filtering
- Sorting
- Aggregating
- Joining
- Cleaning
- Deduplicating
- Validating

リアルタイムストリーミング
- リアルタイムウインドウ集計

バッチ処理
機械学習（MLlib）
グラフ処理（GraphX API）
SQL と構造化データの処理（Spark SQL）

↑

詳細 †

↑

アーキテクチャ †

↑

ドライバ †

プログラム
コンソールアプリのようなプログラム

Spark セッション
プログラムを受け取り、それを小さなタスクに分割する。
小さくなったタスクはエグゼキュータで処理される。

↑

エグゼキュータ †

各エグゼキュータまたはワーカー・ノード
ドライバーからタスクを受け取り、そのタスクを実行。
エグゼキュータは、クラスタと呼ばれるエンティティ上に存在。

↑

クラスタ †

クラスタ
エグゼキュータのホスティング

クラスターマネージャ
次の目的でドライバーとエグゼキュータの両方と通信する。
- リソースの割り当てを管理する
- プログラム分割を管理する
- プログラム実行を管理する

↑

コンポーネント †

↑

Resilient Distributed Dataset (RDD) †

分散共有メモリを提供する分散プログラムのワーキングセット。

永続化先として、主に、計算機のメモリ（キャッシュ）と二次記憶を利用できる。

メモリと二次記憶を組み合わせることも可能
- メモリに保持しきれないパーティションを一時的に二次記憶に退避
- 当該パーティションを利用する際に再び二次記憶から読み出す。

↑

Spark Core †

プロジェクト全体の基盤

RDD抽象化した各種の実装

API（Java、Python、Scala、R）を介して公開
- 分散タスクディスパッチ
- スケジューリング
- および基本I/O機能

↑

Spark SQL †

Spark Coreより上位のコンポーネント

提供
- DataFrames?というデータ抽象化
  - テーブルのようなデータ構造をもった分散処理用データセット
  - テーブル構造なのでSQLライクにデータを操作できる。
  - RDDではなくDataFrame?が主流になって行く。

ドメイン固有言語（DSL） > SQL言語
- CLI、JDBC / ODBCサポートを実装している。
- Scala、Java、PythonからDataFrames?を操作できる。

強く型付けされたデータセットも完全にサポート

↑

その他、用途向けのライブラリ †

グラフ処理
GraphX

機械学習
MLlib

ストリーミング処理
Spark Streaming

↑

耐障害性 †

≒ 再実行するタスクの数を最少にする機構。

↑

ジョブ †

物理ロギングに依る。

中間データをシャッフルする際に、
中間データを二時記憶に書き出す。

※ シャッフル：ネットワーク越しのデータ転送を伴うデータの再分散。

↑

RDD †

以下の２つの方法に依る。

再計算と呼ばれる論理ロギングの一種
RDDの永続化と同時にレプリケーション

↑

参考 †

Apache Spark - Wikipedia
https://ja.wikipedia.org/wiki/Apache_Spark

↑

NTTデータ †

NTTデータ先端技術株式会社
- Apache Sparkで始めるお手軽リアルタイムウインドウ集計
  http://www.intellilink.co.jp/article/column/bigdata-kk01.html
- Apache Sparkで始めるお手軽機械学習(Word2Vec編)
  http://www.intellilink.co.jp/article/column/bigdata-kk04.html

slideshare.net

Apache Spark の紹介
- （前半：Sparkのキホン）
  https://www.slideshare.net/hadoopxnttdata/apache-spark-spark
- （後半：技術トピック）
  https://www.slideshare.net/hadoopxnttdata/apache-spark

Spark1.0での動作検証
Hadoopユーザ・デベロッパから見たSparkへの期待（Hadoop Conference Japa…
https://www.slideshare.net/hadoopxnttdata/apache-spark-nttdatahcj2014

NTTデータにおける Apache Spark への取り組み
https://www.slideshare.net/hadoopxnttdata/20140802-nttd-sparkosckyoto

Spark MLlibではじめるスケーラブルな機械学習
https://www.slideshare.net/hadoopxnttdata/spark-m-llib-nttdata

Apache Spark 1000 nodes NTT DATA
https://www.slideshare.net/hadoopxnttdata/apache-spark-1000-nodes-ntt-data

Sparkをノートブックにまとめちゃおう。Zeppelinでね！
（Hadoopソースコードリーディング第19回発表資料）
https://www.slideshare.net/hadoopxnttdata/zeppelin-apache-spark-webbased-notebook

メキメキ開発の進む
Apache Sparkのいまとこれから
（Spark Casual Talk #1 発表資料）
https://www.slideshare.net/hadoopxnttdata/nttdata-spark-casual-talk-1

Sparkコミュニティに飛び込もう！
（Spark Meetup Tokyo 2015 講演資料、NTTデータ猿田浩輔）
https://www.slideshare.net/hadoopxnttdata/apache-spark-commnity-nttdata-sarutak

Apache Spark超入門
（Hadoop / Spark Conference Japan 2016 講演資料）
https://www.slideshare.net/hadoopxnttdata/apache-spark-for-beginners-ntt-data-saruta-spark-conference-japan-2016

Apache Sparkに手を出してヤケドしないための基本
～「Apache Spark入門より」～（デブサミ 2016 講演資料）
https://www.slideshare.net/hadoopxnttdata/apache-spark-nttdata-devsummit2016

↑

gihyo.jp … 技術評論社 †

Hadoopはどのように動くのか
─並列・分散システム技術から読み解くHadoop処理系の設計と実装

Sparkの設計と実装
- 第20回［1］～登場の背景とデータ処理の特徴
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0020
- 第21回［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0021

目次 †

概要 †

背景 †

利点 †

シナリオ †

詳細 †

アーキテクチャ †

ドライバ †

エグゼキュータ †

クラスタ †

コンポーネント †

Resilient Distributed Dataset (RDD) †

Spark Core †

Spark SQL †

その他、用途向けのライブラリ †

耐障害性 †

ジョブ †

RDD †

分散処理 > 目的別 †

分散（バッチ）系 †

ストリーム系 †

参考 †

NTTデータ †

gihyo.jp … 技術評論社 †