Apache Spark
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>分散処理]]
--[[Apache Hadoop>Hadoop]]
--Apache Spark
*目次 [#q90cce84]
#contents
*概要 [#o3bc91f1]
[[Hadoop MapReduce>Hadoop#y0681858]]と同様に
-複数の計算機を用いてデータ処理を行う並列データ処理系
-JVM上で動作するOSSの並列分散処理系フレームワーク
--暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプロ...
--[[Resilient Distributed Dataset (RDD)>#f411c5af]]と呼ば...
**背景 [#ydbb2cbe]
***[[Apache Hadoop>Hadoop]] [#g84df289]
-データ処理してHDDに都度書き出す方式
-ディスクIOを並列化してスループット高める。
***[[Apache Spark]] [#k6eb3622]
-大規模データの分散処理をオンメモリで実現する。
-データ処理してHDDに都度書き出す方式よりも高速。
-[[Hadoop MapReduce>Hadoop#y0681858]]が適合しない以下のケ...
--複雑なデータ処理を行うために,複数のジョブを連ねて実行...
--同じデータを複数のジョブから利用する場合
--[[Hadoop Yarn>Hadoop]]クラスタ上で動かすことも出来る。
**特徴 [#ee411713]
***分散処理 [#zf7deb5b]
-以下の順序で、タスクにブレークダウンされる。
--ジョブ
---一連のデータフロー(処理の全体)
---若しくは、[[SQL>#d1b1aeb0]]が生成した実行プラン
--ステージ~
一纏まりの処理。
---パーティション~
・各ステージが処理する分割されたデータ~
・パーティション数はが何か?によって決まる。~
・データソース(例えば、[[HDFS>Hadoop#l2a0cd99]]なら128...
・中間データ(APIのパラメタや設定で決まる)~
・[[Spark SQL>#meeb789d]](既定値200パーティションから...
---シャッフル~
・ネットワーク越しのデータ転送を伴うデータの再分散。~
・当該ステージのパーティションの出力を、~
次のステージのパーティションの入力にマップする。
---タスク~
パーティションのデータをステージで処理する。
-その他、関連する用語。
--スロット~
タスクを割り当てるスロット(≒ CPUということらしい)。
--変換
---ナロー変換~
クラスタネットワーク上でのデータシャッフルやデータ移動が...
---ワイド変換~
クラスタネットワーク上でのデータシャッフルやデータ移動が...
--パイプライン処理~
限り多くの操作をデータの 1 つのパーティションで実行するこ...
---データの 1 つのパーティションが RAM に読み取られると、~
1 つの タスク にできる限り多くのナロー操作が結合される。
---ワイド操作では、シャッフルを強制するため、~
ステージを完了して、パイプラインを終了する。
-処理(ジョブ、ステージ、タスク)とデータ(RDD、パーティ...
#ref(https://camo.qiitausercontent.com/ee2722ac7db681d06c...
--引用:Apache Sparkのデータ処理の流れをなんとなく理解す...
https://qiita.com/sigmalist/items/ea4127332abc12a99a45
***SQLライク [#d1b1aeb0]
[[Spark SQL>#meeb789d]]による、SQLライクな[[分散処理>#zf7...
**トレードオフ [#p0ff7519]
***利点 [#c24441b8]
-汎用的な並列データ処理系として利用できる。
--[[RDD>#f411c5af]]に対する数十種類のオペレータを利用可能。
---多様な並列データ処理をシンプルに記述できる。
---オペレータを組み合わせれば、ジョブを組み合わせる必要が...
---複数のオペレータは1つのタスクとしてRDDのパーテョショ...
---パーティション並列性を活用でき、中間データI/Oを削減で...
--標準で[[用途向けのライブラリ>#v5d93805]]が付属している。
-以下のような[[ビッグデータ シナリオ>#ddafcf61]]に適合す...
***欠点 [#c85b822d]
苦手な処理。
-クラスタ全体のメモリに乗り切らない 巨大なデータ処理(TB...
-大きなデータセットを少しずつ更新する処理
-秒以下の特に短いレスポンスが必要な処理
**シナリオ [#ddafcf61]
適合するビッグデータ シナリオ
***抽出、変換、読み込み (ETL) [#y15f85b9]
-Filtering
-Sorting
-Aggregating
-Joining
-Cleaning
-Deduplicating
-Validating
***バッチ処理 [#h96b87c7]
***[[Spark Streaming>#d6241ffe]] [#v7fcd1da]
***[[Spark SQL>#meeb789d]] [#r0b2cc8c]
***[[用途向けのライブラリ>#v5d93805]] [#z20273d2]
*詳細 [#ada537e3]
[[アーキテクチャ>#w48bc9c9]]と[[コンポーネント>#dff3f3fa]...
**アーキテクチャ [#w48bc9c9]
***ドライバ [#v784d760]
-プログラム~
コンソール アプリのようなプログラム
-Spark セッション~
プログラムを受け取り、それを小さなタスクに分割する。~
小さくなったタスクは[[エグゼキュータ>#g0e4218a]]で処理さ...
***エグゼキュータ [#g0e4218a]
-各エグゼキュータまたはワーカー・ノード
-[[ドライバ>#v784d760]]から[[タスクを受け取り、そのタスク...
-前述の[[シャッフル>#zf7deb5b]]処理は、エグゼキュータの多...
-エグゼキュータは、[[クラスタ>#wa43ce12]]と呼ばれるエンテ...
***クラスタ [#wa43ce12]
-クラスタ~
[[エグゼキュータ>#g0e4218a]]のホスティング
-クラスター マネージャ~
次の目的で[[ドライバ>#v784d760]]と[[エグゼキュータ>#g0e42...
--リソースの割り当てを管理する
--プログラム分割を管理する
--プログラム実行を管理する
**コンポーネント [#dff3f3fa]
|>|>|>|>|CENTER:Java、Scala、Python、R、[[C#>#p4fdae20]]...
|>|>|>|>|CENTER:↓ ↓ ↓|
|[[Spark Streaming>#d6241ffe]]|[[GraphX>#v5d93805]]|[[MLl...
|~|~|~|>|[[Spark SQL>#meeb789d]]|
|>|>|>|>|[[Spark Core>#t805c63c]]|
***Resilient Distributed Dataset (RDD) [#f411c5af]
[[Hadoop MapReduce>Hadoop#y0681858]]が苦手としていた、~
スループットとレイテンシの両立が必要な領域にアプローチ
-分散共有メモリを提供する分散プログラムのワーキングセット。
-永続化先として、主に、計算機のメモリ(キャッシュ)と二次...
-メモリと二次記憶を組み合わせることも可能
--メモリに保持しきれないパーティションを一時的に二次記憶...
--当該パーティションを利用する際に再び二次記憶から読み出...
***Spark Core [#t805c63c]
-プロジェクト全体の基盤
-[[RDD>#f411c5af]]抽象化した各種の実装
-API(Java、Python、Scala、R)を介して公開
--分散タスクディスパッチ
--スケジューリング
--および基本I/O機能
***[[Spark SQL]] [#meeb789d]
-DataFrameというオンメモリのテーブルに対し、~
LINQ的に処理を行うことが出来る。
-裏側では、~
クエリ・エンジン経由で実行プラン生成し
--[[RDD>#f411c5af]]を処理
--[[分散処理>#zf7deb5b]]を隠蔽
***[[Spark Streaming]] [#d6241ffe]
***その他、用途向けのライブラリ [#v5d93805]
-グラフ処理(GraphX)
-機械学習([[MLlib>Spark MLlib]])
-昨今はML Pipelinesの開発が活発~
[[scikit-learn]]のような機械学習全体のパイプラインをサポ...
**耐障害性 [#i49b06cd]
≒ 再実行するタスクの数を最少にする機構。
***ジョブ [#af6586eb]
[[物理ロギング>分散処理#ie9bbdb3]]に依る。
-中間データを[[シャッフル>#zf7deb5b]]する際に、
-中間データを二時記憶に書き出す。
***[[RDD>#f411c5af]] [#ue1a42ac]
以下の2つの方法に依る。
-再計算と呼ばれる[[論理ロギング>分散処理#ie9bbdb3]]の一種
-RDDの永続化と同時に[[レプリケーション>分散処理#ie9bbdb3]]
**CLI [#i0563e4f]
***spark-submit [#qbafa5e9]
Sparkアプリケーションを実行するコマンド
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
-参考
--Submitting Applications - Spark 3.0.1 Documentation~
https://spark.apache.org/docs/latest/submitting-applicati...
--アプリケーションのサブミット - Spark 2.1.0 ドキュメント...
http://mogile.web.fc2.com/spark/spark210/submitting-appli...
***, etc. [#u207c166]
**言語バインディング [#a2ce8cf5]
基本はScalarで実装する。
-Apache Spark: PythonとScalaのどっちを使うべきか比較する ...
https://hktech.hatenablog.com/entry/2019/01/08/194519
***[[PySpark]] [#nf8b7c8c]
***[[.NET for Apache Spark>https://techinfoofmicrosofttec...
**[[チュートリアル>Apache Sparkチュートリアル]] [#p6e2fc56]
*参考 [#vf82bc03]
-Apache Spark - Wikipedia~
https://ja.wikipedia.org/wiki/Apache_Spark
**[[分散処理 > 目的別>分散処理#w454319b]] [#u79fd41a]
***[[分散(バッチ)系>分散処理#jb20d368]] [#y8c91f0b]
***[[ストリーム系>分散処理#ta706e0b]] [#z30417d3]
**NTTデータ [#jae5ffc5]
***先端技術株式会社 [#bfb56996]
-Apache Sparkで始めるお手軽リアルタイムウインドウ集計~
http://www.intellilink.co.jp/article/column/bigdata-kk01....
-Apache Sparkで始めるお手軽機械学習(Word2Vec編)~
http://www.intellilink.co.jp/article/column/bigdata-kk04....
***技術開発本部 [#h2d2611d]
https://www2.slideshare.net/nttdata-tech/presentations
-Spark Meetup
--Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアッ...
https://www2.slideshare.net/nttdata-tech/spark-meetup3-sp...
--Spark + AI Summit
---2019 セッションハイライト (Spark Meetup Tokyo #1 - Spa...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
---Europe 2019 セッションハイライト(Spark Meetup Tokyo #...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
---2020セッションのハイライト(Spark Meetup Tokyo #3 Onli...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
-Apache Spark x.x
--Apache spark 2.3 and beyond~
https://www2.slideshare.net/nttdata-tech/apache-spark-23-...
--Apache Spark 2.4 and 3.0 What's Next?~
https://www2.slideshare.net/nttdata-tech/apache-spark-24-...
--Spark 3.0が目指す、よりインテリジェントなUnified Analyt...
https://www2.slideshare.net/nttdata-tech/spark30-unifieda...
-Project Hydrogen and Spark Graph - 分散処理 × AIをより身...
https://www2.slideshare.net/nttdata-tech/project-hydrogen...
-Open Source Conference2020 Online…
--大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介~
https://www2.slideshare.net/nttdata-tech/apache-spark-int...
---動画 : https://www.youtube.com/watch?v=294IPdNHbhA
--大量のデータ処理や分析に使えるOSS Apache Spark入門~
https://www2.slideshare.net/nttdata-tech/spark-introducti...
---動画 : https://www.youtube.com/watch?v=Kv4x97qFuDw
***システム技術本部 [#z00773f3]
https://www.slideshare.net/hadoopxnttdata/presentations
-Apache Spark の紹介
--(前半:Sparkのキホン)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-sp...
--(後半:技術トピック)~
https://www.slideshare.net/hadoopxnttdata/apache-spark
-Spark1.0での動作検証~
Hadoopユーザ・デベロッパから見たSparkへの期待 (Hadoop Co...
https://www.slideshare.net/hadoopxnttdata/apache-spark-nt...
-NTTデータにおける Apache Spark への取り組み~
https://www.slideshare.net/hadoopxnttdata/20140802-nttd-s...
-Spark MLlibではじめるスケーラブルな機械学習~
https://www.slideshare.net/hadoopxnttdata/spark-m-llib-nt...
-Apache Spark 1000 nodes NTT DATA~
https://www.slideshare.net/hadoopxnttdata/apache-spark-10...
-Sparkをノートブックにまとめちゃおう。Zeppelinでね!~
(Hadoopソースコードリーディング 第19回 発表資料)~
https://www.slideshare.net/hadoopxnttdata/zeppelin-apache...
-メキメキ開発の進む~
Apache Sparkのいまとこれから~
(Spark Casual Talk #1 発表資料)~
https://www.slideshare.net/hadoopxnttdata/nttdata-spark-c...
-Sparkコミュニティに飛び込もう!~
(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-co...
-Apache Spark超入門~
(Hadoop / Spark Conference Japan 2016 講演資料)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-fo...
-Apache Sparkに手を出してヤケドしないための基本~
~「Apache Spark入門より」~ (デブサミ 2016 講演資料)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-nt...
**Qiita [#uf346561]
-Apache Spark で分散処理入門~
https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc
-Sparkの内部処理を理解する~
https://qiita.com/uryyyyyyy/items/ba2dceb709f8701715f7
-Spark SQLによるビッグデータ集計をチューニング~
するために分散処理の基礎から駈けぬける速習ガイド~
https://qiita.com/piyo7/items/b2b26ca5a91b813562d4
***YARN [#be160f72]
-Spark and YARN~
https://qiita.com/imaifactory/items/f35ef03bfa4f268b1b83
-Spark on YARN のアーキテクチャ~
https://qiita.com/kojish/items/c845112265cbb7a5577a
-【Sparkクラスタ構築】Yarnクラスタ稼働環境を構築します~
https://qiita.com/gakuseikai/items/18f030e18ad0bc0c81d1
**gihyo.jp … 技術評論社 [#r1d8a217]
Hadoopはどのように動くのか~
─並列・分散システム技術から読み解くHadoop処理系の設計と実装
-Sparkの設計と実装
--第20回[1]~登場の背景とデータ処理の特徴~
https://gihyo.jp/admin/serial/01/how_hadoop_works/0020
--第21回[2]~Sparkにおけるデータ共有の仕組みと耐障害性...
https://gihyo.jp/admin/serial/01/how_hadoop_works/0021
終了行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>分散処理]]
--[[Apache Hadoop>Hadoop]]
--Apache Spark
*目次 [#q90cce84]
#contents
*概要 [#o3bc91f1]
[[Hadoop MapReduce>Hadoop#y0681858]]と同様に
-複数の計算機を用いてデータ処理を行う並列データ処理系
-JVM上で動作するOSSの並列分散処理系フレームワーク
--暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプロ...
--[[Resilient Distributed Dataset (RDD)>#f411c5af]]と呼ば...
**背景 [#ydbb2cbe]
***[[Apache Hadoop>Hadoop]] [#g84df289]
-データ処理してHDDに都度書き出す方式
-ディスクIOを並列化してスループット高める。
***[[Apache Spark]] [#k6eb3622]
-大規模データの分散処理をオンメモリで実現する。
-データ処理してHDDに都度書き出す方式よりも高速。
-[[Hadoop MapReduce>Hadoop#y0681858]]が適合しない以下のケ...
--複雑なデータ処理を行うために,複数のジョブを連ねて実行...
--同じデータを複数のジョブから利用する場合
--[[Hadoop Yarn>Hadoop]]クラスタ上で動かすことも出来る。
**特徴 [#ee411713]
***分散処理 [#zf7deb5b]
-以下の順序で、タスクにブレークダウンされる。
--ジョブ
---一連のデータフロー(処理の全体)
---若しくは、[[SQL>#d1b1aeb0]]が生成した実行プラン
--ステージ~
一纏まりの処理。
---パーティション~
・各ステージが処理する分割されたデータ~
・パーティション数はが何か?によって決まる。~
・データソース(例えば、[[HDFS>Hadoop#l2a0cd99]]なら128...
・中間データ(APIのパラメタや設定で決まる)~
・[[Spark SQL>#meeb789d]](既定値200パーティションから...
---シャッフル~
・ネットワーク越しのデータ転送を伴うデータの再分散。~
・当該ステージのパーティションの出力を、~
次のステージのパーティションの入力にマップする。
---タスク~
パーティションのデータをステージで処理する。
-その他、関連する用語。
--スロット~
タスクを割り当てるスロット(≒ CPUということらしい)。
--変換
---ナロー変換~
クラスタネットワーク上でのデータシャッフルやデータ移動が...
---ワイド変換~
クラスタネットワーク上でのデータシャッフルやデータ移動が...
--パイプライン処理~
限り多くの操作をデータの 1 つのパーティションで実行するこ...
---データの 1 つのパーティションが RAM に読み取られると、~
1 つの タスク にできる限り多くのナロー操作が結合される。
---ワイド操作では、シャッフルを強制するため、~
ステージを完了して、パイプラインを終了する。
-処理(ジョブ、ステージ、タスク)とデータ(RDD、パーティ...
#ref(https://camo.qiitausercontent.com/ee2722ac7db681d06c...
--引用:Apache Sparkのデータ処理の流れをなんとなく理解す...
https://qiita.com/sigmalist/items/ea4127332abc12a99a45
***SQLライク [#d1b1aeb0]
[[Spark SQL>#meeb789d]]による、SQLライクな[[分散処理>#zf7...
**トレードオフ [#p0ff7519]
***利点 [#c24441b8]
-汎用的な並列データ処理系として利用できる。
--[[RDD>#f411c5af]]に対する数十種類のオペレータを利用可能。
---多様な並列データ処理をシンプルに記述できる。
---オペレータを組み合わせれば、ジョブを組み合わせる必要が...
---複数のオペレータは1つのタスクとしてRDDのパーテョショ...
---パーティション並列性を活用でき、中間データI/Oを削減で...
--標準で[[用途向けのライブラリ>#v5d93805]]が付属している。
-以下のような[[ビッグデータ シナリオ>#ddafcf61]]に適合す...
***欠点 [#c85b822d]
苦手な処理。
-クラスタ全体のメモリに乗り切らない 巨大なデータ処理(TB...
-大きなデータセットを少しずつ更新する処理
-秒以下の特に短いレスポンスが必要な処理
**シナリオ [#ddafcf61]
適合するビッグデータ シナリオ
***抽出、変換、読み込み (ETL) [#y15f85b9]
-Filtering
-Sorting
-Aggregating
-Joining
-Cleaning
-Deduplicating
-Validating
***バッチ処理 [#h96b87c7]
***[[Spark Streaming>#d6241ffe]] [#v7fcd1da]
***[[Spark SQL>#meeb789d]] [#r0b2cc8c]
***[[用途向けのライブラリ>#v5d93805]] [#z20273d2]
*詳細 [#ada537e3]
[[アーキテクチャ>#w48bc9c9]]と[[コンポーネント>#dff3f3fa]...
**アーキテクチャ [#w48bc9c9]
***ドライバ [#v784d760]
-プログラム~
コンソール アプリのようなプログラム
-Spark セッション~
プログラムを受け取り、それを小さなタスクに分割する。~
小さくなったタスクは[[エグゼキュータ>#g0e4218a]]で処理さ...
***エグゼキュータ [#g0e4218a]
-各エグゼキュータまたはワーカー・ノード
-[[ドライバ>#v784d760]]から[[タスクを受け取り、そのタスク...
-前述の[[シャッフル>#zf7deb5b]]処理は、エグゼキュータの多...
-エグゼキュータは、[[クラスタ>#wa43ce12]]と呼ばれるエンテ...
***クラスタ [#wa43ce12]
-クラスタ~
[[エグゼキュータ>#g0e4218a]]のホスティング
-クラスター マネージャ~
次の目的で[[ドライバ>#v784d760]]と[[エグゼキュータ>#g0e42...
--リソースの割り当てを管理する
--プログラム分割を管理する
--プログラム実行を管理する
**コンポーネント [#dff3f3fa]
|>|>|>|>|CENTER:Java、Scala、Python、R、[[C#>#p4fdae20]]...
|>|>|>|>|CENTER:↓ ↓ ↓|
|[[Spark Streaming>#d6241ffe]]|[[GraphX>#v5d93805]]|[[MLl...
|~|~|~|>|[[Spark SQL>#meeb789d]]|
|>|>|>|>|[[Spark Core>#t805c63c]]|
***Resilient Distributed Dataset (RDD) [#f411c5af]
[[Hadoop MapReduce>Hadoop#y0681858]]が苦手としていた、~
スループットとレイテンシの両立が必要な領域にアプローチ
-分散共有メモリを提供する分散プログラムのワーキングセット。
-永続化先として、主に、計算機のメモリ(キャッシュ)と二次...
-メモリと二次記憶を組み合わせることも可能
--メモリに保持しきれないパーティションを一時的に二次記憶...
--当該パーティションを利用する際に再び二次記憶から読み出...
***Spark Core [#t805c63c]
-プロジェクト全体の基盤
-[[RDD>#f411c5af]]抽象化した各種の実装
-API(Java、Python、Scala、R)を介して公開
--分散タスクディスパッチ
--スケジューリング
--および基本I/O機能
***[[Spark SQL]] [#meeb789d]
-DataFrameというオンメモリのテーブルに対し、~
LINQ的に処理を行うことが出来る。
-裏側では、~
クエリ・エンジン経由で実行プラン生成し
--[[RDD>#f411c5af]]を処理
--[[分散処理>#zf7deb5b]]を隠蔽
***[[Spark Streaming]] [#d6241ffe]
***その他、用途向けのライブラリ [#v5d93805]
-グラフ処理(GraphX)
-機械学習([[MLlib>Spark MLlib]])
-昨今はML Pipelinesの開発が活発~
[[scikit-learn]]のような機械学習全体のパイプラインをサポ...
**耐障害性 [#i49b06cd]
≒ 再実行するタスクの数を最少にする機構。
***ジョブ [#af6586eb]
[[物理ロギング>分散処理#ie9bbdb3]]に依る。
-中間データを[[シャッフル>#zf7deb5b]]する際に、
-中間データを二時記憶に書き出す。
***[[RDD>#f411c5af]] [#ue1a42ac]
以下の2つの方法に依る。
-再計算と呼ばれる[[論理ロギング>分散処理#ie9bbdb3]]の一種
-RDDの永続化と同時に[[レプリケーション>分散処理#ie9bbdb3]]
**CLI [#i0563e4f]
***spark-submit [#qbafa5e9]
Sparkアプリケーションを実行するコマンド
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
-参考
--Submitting Applications - Spark 3.0.1 Documentation~
https://spark.apache.org/docs/latest/submitting-applicati...
--アプリケーションのサブミット - Spark 2.1.0 ドキュメント...
http://mogile.web.fc2.com/spark/spark210/submitting-appli...
***, etc. [#u207c166]
**言語バインディング [#a2ce8cf5]
基本はScalarで実装する。
-Apache Spark: PythonとScalaのどっちを使うべきか比較する ...
https://hktech.hatenablog.com/entry/2019/01/08/194519
***[[PySpark]] [#nf8b7c8c]
***[[.NET for Apache Spark>https://techinfoofmicrosofttec...
**[[チュートリアル>Apache Sparkチュートリアル]] [#p6e2fc56]
*参考 [#vf82bc03]
-Apache Spark - Wikipedia~
https://ja.wikipedia.org/wiki/Apache_Spark
**[[分散処理 > 目的別>分散処理#w454319b]] [#u79fd41a]
***[[分散(バッチ)系>分散処理#jb20d368]] [#y8c91f0b]
***[[ストリーム系>分散処理#ta706e0b]] [#z30417d3]
**NTTデータ [#jae5ffc5]
***先端技術株式会社 [#bfb56996]
-Apache Sparkで始めるお手軽リアルタイムウインドウ集計~
http://www.intellilink.co.jp/article/column/bigdata-kk01....
-Apache Sparkで始めるお手軽機械学習(Word2Vec編)~
http://www.intellilink.co.jp/article/column/bigdata-kk04....
***技術開発本部 [#h2d2611d]
https://www2.slideshare.net/nttdata-tech/presentations
-Spark Meetup
--Apache Spark 3.0新機能紹介 - 拡張機能やWebUI関連のアッ...
https://www2.slideshare.net/nttdata-tech/spark-meetup3-sp...
--Spark + AI Summit
---2019 セッションハイライト (Spark Meetup Tokyo #1 - Spa...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
---Europe 2019 セッションハイライト(Spark Meetup Tokyo #...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
---2020セッションのハイライト(Spark Meetup Tokyo #3 Onli...
https://www2.slideshare.net/nttdata-tech/spark-ai-summit-...
-Apache Spark x.x
--Apache spark 2.3 and beyond~
https://www2.slideshare.net/nttdata-tech/apache-spark-23-...
--Apache Spark 2.4 and 3.0 What's Next?~
https://www2.slideshare.net/nttdata-tech/apache-spark-24-...
--Spark 3.0が目指す、よりインテリジェントなUnified Analyt...
https://www2.slideshare.net/nttdata-tech/spark30-unifieda...
-Project Hydrogen and Spark Graph - 分散処理 × AIをより身...
https://www2.slideshare.net/nttdata-tech/project-hydrogen...
-Open Source Conference2020 Online…
--大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介~
https://www2.slideshare.net/nttdata-tech/apache-spark-int...
---動画 : https://www.youtube.com/watch?v=294IPdNHbhA
--大量のデータ処理や分析に使えるOSS Apache Spark入門~
https://www2.slideshare.net/nttdata-tech/spark-introducti...
---動画 : https://www.youtube.com/watch?v=Kv4x97qFuDw
***システム技術本部 [#z00773f3]
https://www.slideshare.net/hadoopxnttdata/presentations
-Apache Spark の紹介
--(前半:Sparkのキホン)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-sp...
--(後半:技術トピック)~
https://www.slideshare.net/hadoopxnttdata/apache-spark
-Spark1.0での動作検証~
Hadoopユーザ・デベロッパから見たSparkへの期待 (Hadoop Co...
https://www.slideshare.net/hadoopxnttdata/apache-spark-nt...
-NTTデータにおける Apache Spark への取り組み~
https://www.slideshare.net/hadoopxnttdata/20140802-nttd-s...
-Spark MLlibではじめるスケーラブルな機械学習~
https://www.slideshare.net/hadoopxnttdata/spark-m-llib-nt...
-Apache Spark 1000 nodes NTT DATA~
https://www.slideshare.net/hadoopxnttdata/apache-spark-10...
-Sparkをノートブックにまとめちゃおう。Zeppelinでね!~
(Hadoopソースコードリーディング 第19回 発表資料)~
https://www.slideshare.net/hadoopxnttdata/zeppelin-apache...
-メキメキ開発の進む~
Apache Sparkのいまとこれから~
(Spark Casual Talk #1 発表資料)~
https://www.slideshare.net/hadoopxnttdata/nttdata-spark-c...
-Sparkコミュニティに飛び込もう!~
(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-co...
-Apache Spark超入門~
(Hadoop / Spark Conference Japan 2016 講演資料)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-fo...
-Apache Sparkに手を出してヤケドしないための基本~
~「Apache Spark入門より」~ (デブサミ 2016 講演資料)~
https://www.slideshare.net/hadoopxnttdata/apache-spark-nt...
**Qiita [#uf346561]
-Apache Spark で分散処理入門~
https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc
-Sparkの内部処理を理解する~
https://qiita.com/uryyyyyyy/items/ba2dceb709f8701715f7
-Spark SQLによるビッグデータ集計をチューニング~
するために分散処理の基礎から駈けぬける速習ガイド~
https://qiita.com/piyo7/items/b2b26ca5a91b813562d4
***YARN [#be160f72]
-Spark and YARN~
https://qiita.com/imaifactory/items/f35ef03bfa4f268b1b83
-Spark on YARN のアーキテクチャ~
https://qiita.com/kojish/items/c845112265cbb7a5577a
-【Sparkクラスタ構築】Yarnクラスタ稼働環境を構築します~
https://qiita.com/gakuseikai/items/18f030e18ad0bc0c81d1
**gihyo.jp … 技術評論社 [#r1d8a217]
Hadoopはどのように動くのか~
─並列・分散システム技術から読み解くHadoop処理系の設計と実装
-Sparkの設計と実装
--第20回[1]~登場の背景とデータ処理の特徴~
https://gihyo.jp/admin/serial/01/how_hadoop_works/0020
--第21回[2]~Sparkにおけるデータ共有の仕組みと耐障害性...
https://gihyo.jp/admin/serial/01/how_hadoop_works/0021
ページ名: