Apache Spark のバックアップ(No.5) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る

目次 †

目次
概要
- 背景
- 利点
詳細
- コンポーネント
- 分散処理 > 目的別
  - 分散（バッチ）系
  - ストリーム系
参考
- gihyo.jp … 技術評論社

概要 †

Hadoop MapReduce?と同様に

複数の計算機を用いてデータ処理を行う並列データ処理系

クラスタ・コンピューティングのOSSフレームワーク
- 暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。
- Resilient Distributed Dataset (RDD)と呼ばれるデータ構造を処理するAPIを持つ。

背景 †

Hadoop MapReduce?が適合しない以下のケースをサポートする。

複雑なデータ処理を行うために，複数のジョブを連ねて実行する場合
同じデータを複数のジョブから利用する場合

利点 †

汎用的な並列データ処理系として利用できる。

RDDに対する数十種類のオペレータを利用可能。
- 多様な並列データ処理をシンプルに記述できる。
- オペレータを組み合わせれば、ジョブを組み合わせる必要がない。
- 複数のオペレータは１つのタスクとしてRDDのパーテョションごとにコピーされる。
- パーティション並列性を活用でき、中間データI/Oを削減できる。

標準で用途向けのライブラリが付属している。

詳細 †

コンポーネント †

Resilient Distributed Dataset (RDD) †

分散共有メモリを提供する分散プログラムのワーキングセット。

永続化先として、主に、計算機のメモリ（キャッシュ）と二次記憶を利用できる。

メモリと二次記憶を組み合わせることも可能
- メモリに保持しきれないパーティションを一時的に二次記憶に退避
- 当該パーティションを利用する際に再び二次記憶から読み出す。

Spark Core †

プロジェクト全体の基盤

RDD抽象化した各種の実装

API（Java、Python、Scala、R）を介して公開
- 分散タスクディスパッチ
- スケジューリング
- および基本I/O機能

Spark SQL †

Spark Coreより上位のコンポーネント

提供
- DataFrames?というデータ抽象化
  - テーブルのようなデータ構造をもった分散処理用データセット
  - テーブル構造なのでSQLライクにデータを操作できる。
  - RDDではなくDataFrame?が主流になって行く。

ドメイン固有言語（DSL） > SQL言語
- CLI、JDBC / ODBCサポートを実装している。
- Scala、Java、PythonからDataFrames?を操作できる。

強く型付けされたデータセットも完全にサポート

その他、用途向けのライブラリ †

グラフ処理
GraphX

機械学習
MLlib Machine Learning Library

ストリーミング処理
Spark Streaming

分散処理 > 目的別 †

分散（バッチ）系 †

ストリーム系 †

参考 †

Apache Spark - Wikipedia
https://ja.wikipedia.org/wiki/Apache_Spark

gihyo.jp … 技術評論社 †

Hadoopはどのように動くのか
─並列・分散システム技術から読み解くHadoop処理系の設計と実装

Sparkの設計と実装
- 第20回［1］～登場の背景とデータ処理の特徴
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0020
- 第21回［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法
  https://gihyo.jp/admin/serial/01/how_hadoop_works/0021