.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Hadoop MapReduceと同様に

背景

Apache Hadoop

Apache Spark

特徴

分散処理

以下の順序で、タスクにブレークダウンされる。

SQLライク

Spark SQLによる、SQLライクな分散処理の隠蔽

トレードオフ

利点

欠点

苦手な処理。

シナリオ

適合するビッグデータ シナリオ

抽出、変換、読み込み (ETL)

バッチ処理

Spark Streaming

Spark SQL

用途向けのライブラリ

詳細

アーキテクチャコンポーネントの関係が謎い(詳細が見えて来たら書き足す予定)。

アーキテクチャ

ドライバ

エグゼキュータ

クラスタ

コンポーネント

Java、Scala、Python、R、C#、SQL
↓ ↓ ↓
Spark StreamingGraphXMLlibMLlibStructured Streaming
Spark SQL
Spark Core

Resilient Distributed Dataset (RDD)

Hadoop MapReduceが苦手としていた、
スループットとレイテンシの両立が必要な領域にアプローチ

Spark Core

Spark SQL

Spark Streaming

その他、用途向けのライブラリ

耐障害性

≒ 再実行するタスクの数を最少にする機構。

ジョブ

物理ロギングに依る。

RDD

以下の2つの方法に依る。

CLI

spark-submit

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]

, etc.

参考

分散処理 > 目的別

分散(バッチ)系

ストリーム系

NTTデータ

先端技術株式会社

技術開発本部

https://www2.slideshare.net/nttdata-tech/presentations

システム技術本部

https://www.slideshare.net/hadoopxnttdata/presentations

Qiita

YARN

gihyo.jp … 技術評論社

Hadoopはどのように動くのか
─並列・分散システム技術から読み解くHadoop処理系の設計と実装

.NET for Apache Spark


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS