Spark Structured Streaming のバックアップ(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Spark Structured Streaming へ行く。
- 1 (2021-10-14 (木) 16:56:05)
- 2 (2021-10-14 (木) 19:10:43)
- 3 (2021-10-15 (金) 16:38:53)
- 4 (2021-10-15 (金) 19:17:59)
- 5 (2021-10-15 (金) 21:55:24)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る

目次 †

↑

概要 †

構造化ストリーミングとも呼ばれる。

Spark SQLエンジン（DataframeとDatasetのAPI）に基づいて構築
データストリームを連続して追加される無限の入力テーブルとして扱う。
これによりストリーミングをバッチと同じ方法（Spark SQLとDataFrame API）で記述できる（ただし、少数のサポートされない操作がある）。

↑

詳細 †

↑

特徴 †

Spark Streamingと比較した優位性。

↑

よりリアルなストリーミング †

トリガーで受信したデータは、継続的に流れているデータ・ストリームに追加される。

データ・ストリームを深さが無限のテーブルとして表すため、
- 不完全な集計結果を長時間維持でき、
- 遅延したデータを再処理することが可能となり、
- その都度結果を更新できる。

↑

RDD(DStream) vs. DataFrames?/DataSet? †

API
- Spark Streamingは内部でRDDを使用しているDStream APIで動作、
- Spark Structured StreamingはDataFrame?やDataset APIを使用している。

DataFrames?の方が処理が最適化されており、
様々な関数が用意されているため、集約などの処理の選択肢が多い。

↑

イベント・タイムによる遅延データへの対応 †

受信したデータにイベントのタイムスタンプが含まれている場合、
イベントタイムを基準にしてデータを処理する機能がある。

↑

その他 †

端から端まで確実に一回のセマンティクスを保証。
Spark 2.4以降、入出力が柔軟になった。

↑

処理 †

↑

ステートレス・ステートフル †

ステートレスな処理
- 属性の選択(プロジェクション)やフィルタなど
- 他のレコードと独立に処理可能なもの
- マイクロバッチごとに、新規に到着した
  レコードで構成された DataFrame?を処理する

ステートフルな処理

集約処理や、イベント発生回数のカウントなど

新規に到着したレコードに加えて、
直前までのマイクロバッチにより更新された
ステートを加味してDataFrame?を処理する。

６つのフェーズ
- ① 部分集約処理
- ② 部分マージ処理 (1)
- ③ ステート・リストア
- ④ 部分マージ処理 (2)
- ⑤ ステート・セーブ
- ⑥ 最終処理

↑

イベントタイム・ウィンドウ集約処理 †

ステートフル集約処理の一種
- Spark Streamingでは、到着時刻に基づくウィンドウ集約処理のみ実装されていた。
- Spark Structured Streamingでは、到着時刻ではなく、イベントタイムに基づくウィンドウ集約が可能になった。

イベントタイムに基づき、
- スライディングし、
- ウィンドウ幅で集約する。

イベントタイム
- イベントの生起時刻など、
- データ自身の中に埋め込まれている
- レコードに意味付けされた時間。
- （自動付与することも可能）

↑

ウォーターマーク †

イベントタイム・ウィンドウ集約処理で用いられる。

遅れてきたデータをハンドリングする仕組み。
ユーザが遅れたデータの閾値を指定することができる。

↑

入力と出力 †

入力ソース

耐障害性有り
- ファイルソース（CSV, JSON, ORC, Parquet）
- Kafka ソース

耐障害性無し（テスト用）
- ソケットソース
- ソースのレート

出力

出力モード
出力はクエリの特定の型に適用可能なモードで定義できる

完全モード
・更新された結果テーブル全体が外部ストレージに書き込まれる。
・テーブル全体の書き込みをどう扱うかはストレージのコネクタによる。

追加モード
・追加された新しい行だけが外部ストレージに書き込まれる。
・結果テーブルの既存行が変更されないクエリ上でのみ適用可能。

更新モード
Spark 2.1.1から利用可能
・更新された行だけが外部ストレージに書き込まれる。
・クエリが集約を含まない場合、追加モードと同じ。

出力シンク

ファイル sink

writeStream
    .format("parquet") // can be "orc", "json", "csv", etc.
    .option("path", "path/to/destination/dir")
    .start()

Kafka sink

writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
    .option("topic", "updates")
    .start()

Foreach sink

writeStream
    .foreach(...)
    .start()

コンソール sink (デバッグのため)

writeStream
    .format("console")
    .start()

メモリ sink (デバッグのため)

writeStream
    .format("memory")
    .queryName("tableName")
    .start()

↑

サンプル †

PySparkの例

↑

その他 †

↑

join オペレーション †

主に、エンリッチメントを行う目的か。

Stream-static Joins
Spark 2.0でサポートを。
Stream-stream Joins
Spark 2.3でサポートを。

↑

サポートされないオペレーション †

↑

参考 †

Structured Streaming - The Internal -
https://www.slideshare.net/hadoopxnttdata/structured-streaming-the-internal

Spark Structured Streaming で遅延データを処理する方法 - MicroAd? Developers Blog
https://developers.microad.co.jp/entry/2019/07/12/063000

↑

Azure Stream Analytics †

↑

Programming Guide †

Spark 2.2.0 Documentation
https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html

Spark 3.0.0 Documentation
https://spark.apache.org/docs/3.0.0/structured-streaming-programming-guide.html

Spark latest Documentation
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html

日本語訳 3.0.0
http://mogile.web.fc2.com/spark/structured-streaming-programming-guide.html

↑

Microsoft Docs †

Azure HDInsight資産が多い感。

Azure HDInsight

Azure HDInsight での Spark Structured Streaming
https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-structured-streaming-overview

チュートリアル:Apache Spark ストリーミング & Apache Kafka
https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-apache-kafka-spark-structured-streaming

Cosmos DB を使用した Apache Spark と Apache Kafka
https://docs.microsoft.com/ja-jp/azure/hdinsight/apache-kafka-spark-structured-streaming-cosmosdb

Hive Warehouse Connector
- Azure HDInsight の Hive Warehouse Connector でサポートされる Apache Spark の操作
  https://docs.microsoft.com/ja-jp/azure/hdinsight/interactive-query/apache-hive-warehouse-connector-operations
- Azure HDInsight で Hive Warehouse Connector を使用して Apache Spark と Apache Hive を統合する
  https://docs.microsoft.com/ja-jp/azure/hdinsight/interactive-query/apache-hive-warehouse-connector

↑

Qiita †

DatabricksでSpark Structured Streamingをやってみる
https://qiita.com/yabooun/items/f7f649a457fdbd2952b2
KafkaからのデータをStructured Streamingで処理してElasticsearchに流す
https://qiita.com/whata/items/4c9c15164e0bd87bc5cb