Apache NiFi のバックアップ(No.9)

SOA、APIベースのシステム結合、IoT、BigData?、あとはMicroServices?
(These include things like; Service Oriented Architecture [soa],
the rise of the API [api][api2], Internet of Things [iot], and Big Data [bigdata].)

と書かれている。

↑

EAI/ETL †

ツールの仕様としては、どちらにも適合する可能性がある。

↑

ETL †

バッチ指向なので適合しない可能性がある（性能検証などが必要）。

↑

EAI †

イベント指向なのでこちらのほうが適合し易い。

↑

WebAPI †

Remote Process GroupでHTTPなどのEndpointを定義してS2Sが可能。

↑

MiNiFi †

以下での利用が想定されている。

IoTデバイス
エッジ・コンピューティング

↑

用語 †

↑

FlowFile? †

ユーザデータ

ユーザが処理および配信のためにもたらすデータ
ContentとAttributesからなる。

↑

Content †

扱うデータの本体（バイナリ形式）

↑

Attirbutes †

ユーザーデータに関連付けられたKeyValue?のメタ情報。
以下の、3つの主要な利点がある。
1. Processor毎に独自のAttirbutesを持つ。
  例えば、PutFile? Processorであれば、ディレクトリとファイル名の属性を持つ。
2. 起源・出所など、データに関する非常に貴重なcontextを提供する。
3. 属性に基づいてフロー内でFlowFile?のルーティングを決定できる。

共通の属性

#	属性名	説明	変更可否
1	filename	ファイル名
2	path	ディレクトリ名
3	fileSize	ファイルのバイト数	不可
4	uuid	他のFlowFiles?とFlowFile?を区別する汎用一意識別子	不可
5	entryDate	FlowFile?が作成された日時（UTC）	不可
6	lineageStartDate?	先祖の連鎖の最古の日時（UTC）	不可

属性の設定
- 属性を抽出するProcessorがある。
  - 特定のデータフォーマットを理解し、
  - FlowFile?のコンテンツから適切な情報を抽出し、
  - その情報を保持する属性を作成し、
  - データのルーティングや処理方法の決定を行う。

ユーザー定義属性をするProcessorがある。
- フロー内の特定の場所にある各FlowFile?に
  独自のユーザー定義属性を追加することも一般的。
- これには、UpdateAttribute? Processorを使用する。

属性の利用

属性を使用した分岐
- NiFi?の最も強力な機能の1つに、属性に基づいてFlowFiles?を分岐させる機能がある。
- これには、RouteOnAttribute? Processorに、Expression Languageの式を設定する。
- Processorは構成によって、一致と不一致のRelationshipを公開する。

Expression Language/プロパティ値での利用

属性値の参照：${ tag and the closing }（${uudi}など）
次のケースでは、属性名を引用符で囲む必要がある。
・必要属性名が文字以外の文字で始まる場合
・または数字、文字、ピリオド、アンダースコア以外の文字が含まれている場合

属性に対して多くの機能と比較を実行
・ファイル名に大小を区別しない「r」が含まれる。：
```
${filename:toLower():contains('r')}
```
・属性１と２が一致している。：
```
${attr1:equals(${attr2})}
```

参考
- Apache NiFi? Expression Language Guide
  https://nifi.apache.org/docs/nifi-docs/html/expression-language-guide.html

↑

Processor †

データフローを記述したグラフ（DAG）におけるノード（節点・頂点）に相当する。
「FlowFileにどんな処理を施すか」を表す、最も重要なビルディングブロック。

FlowFiles?の作成、送信、受信、変換、ルーティング、分割、マージ、および処理を担当する。

組込Processorに加え、カスタムProcessorを開発して組込むことも可能。

↑

利用可能なProcessor †

色々なProcessorが用意されており、様々なシステムのデータを

取込
分岐、分割・集約
変換・処理
配信

する機能を提供する。

なお、Webサービスを作成する場合は、
HandleHttpRequest?/HandleHttpResponse?

を使用することができる。

↑

Processorのタイプ †

以下は、Processorのタイプ。
具体的なProcessorは下記「参考」のURLを参照。

データの取込
Data Ingestion

接続
- Routing and Mediation（分岐と速度調整）
- Splitting and Aggregation（分割・集約）

変換・処理
- Attribute Extraction（属性の抽出・付与）
- Data Transformation（フォーマットの変換）

データの配信
Data Egress / Sending Data

取込・配信
- System Interaction（OSコマンドの実行）
- Database Access（SQLの実行）
- HTTP（HTTSクライアント or サーバの実行）
- Amazon Web Services（サービスへのI/Oの実行）

参考
- Getting Started with Apache NiFi? >What Processors are Available
  https://nifi.apache.org/docs/nifi-docs/html/getting-started.html#what-processors-are-available

↑

Connection †

データフローを記述したグラフ（DAG）におけるエッジ（枝・辺）の属性に相当する。

↑

Relationship †

「Processorが行った処理に応じて，どのProcessorにどのFlowFileを届けるか」を表す。

各Processorごとにあらかじめ定義されている。
- original
- failure
- , etc.

RouteOnAttribute? Processorに、Expression Languageの式を設定すると公開される。
- 一致
- 不一致

↑

アーキテクチャ †

ホストOS上のJVM内で実行される。

↑

図 †

引用：nifi.apache.org/docs/nifi-docs/html/images/zero-master-node.png

↑

主要コンポーネント †

以下は、JVM上の主なコンポーネント。

↑

Web Server †

HTTPベースのコマンドと制御APIをホストする。

↑

Flow Controller †

操作の頭脳

Extensionsの
- スレッド実行
- リソース受け取りのスケジューリング

↑

Extensions †

様々なタイプの拡張がある。
JVM内で動作して実行される。

↑

FlowFile Repository †

現在アクティブなFlowFileの状態を追跡する場所。
リポジトリの実装はプラガブル。
- デフォルトの場所は・・・

↑

Content Repository †

FlowFileの実際のコンテンツバイトが存在する場所。
リポジトリの実装はプラガブル。
- ファイルシステムにデータのブロックを格納する。
- デフォルトの場所は・・・
- 複数のファイルシステム格納場所を指定するできる。

↑

Provenance Repository †

すべてのProvenance イベント・データが格納される場所。
リポジトリの構成はプラガブル。
- デフォルトの構成では、1つ以上の物理ディスク・ボリュームを使用
- 各ロケーション内でイベントデータが索引付けされ、検索可能。

↑

クラスタリング †

1.0以降、Apache ZooKeeper?のクラスタ内で動作できる。
各ノードは、データに対して同じタスクを実行する。
しかし、それぞれ異なるデータセットで動作する。

↑

ZooKeeper? †

コーディネータとして単一のノードを選択
プライマリノードとして単一のノードを選択

↑

コーディネータ †

フェイルオーバーはZooKeeper?によって自動的に処理される。
すべてのノードは、ハートビートとステータス情報をコーディネータに報告。
コーディネータはノードの切断と接続を行う。

↑

プライマリノード †

DataFlow?マネージャとして、UIを介してクラスタとやりとりできる。
変更は、クラスタ内のすべてのノードに複製され、複数のエントリポイントが可能になる。

↑

その他 †

↑

カスタム・プロパティ †

属性の使用に加えて、
nifi.propertiesファイルのnifi.variable.registry.propertiesフィールドで
Expression Languageで使用するカスタムプロパティを定義することもできる。
- 接続プロパティ
- サーバープロパティ
- およびサービスプロパティ

データフローの処理と構成の柔軟性が向上する。

↑

Template †

Processorを組み合わせをフローのビルディング・ブロックとして再利用できる。
作成には、複数のコンポーネントを選択し、Operatorから[Create Template]ボタンを選択。

↑

step by step的な †

↑

ファースト・ステップ †

↑

セカンド・ステップ †

↑

参考 †

↑

nifi.apache.org †

Apache NiFi? Overview
https://nifi.apache.org/docs/nifi-docs/html/overview.html

Getting Started with Apache NiFi?
https://nifi.apache.org/docs/nifi-docs/html/getting-started.html

Apache NiFi? User Guide
https://nifi.apache.org/docs/nifi-docs/html/user-guide.html

↑

hortonworks.com †

Hortonworks DataFlow?
https://docs.hortonworks.com/HDPDocuments/HDF3/HDF-3.1.1/bk_getting-started-with-apache-nifi/content/index.html

↑

ijokarumawak/hdf-tutorials-ja †

Learning the Ropes of Apache NiFi?
https://github.com/ijokarumawak/hdf-tutorials-ja/wiki/Learning-the-Ropes-of-Apache-NiFi

チュートリアル 0
https://github.com/ijokarumawak/hdf-tutorials-ja/wiki/Ropes-of-Apache-NiFi%3A-Tutorial-0

チュートリアル 1
https://github.com/ijokarumawak/hdf-tutorials-ja/wiki/Ropes-of-Apache-NiFi%3A-Tutorial-1

チュートリアル 2
https://github.com/ijokarumawak/hdf-tutorials-ja/wiki/Ropes-of-Apache-NiFi%3A-Tutorial-2

チュートリアル 3
https://github.com/ijokarumawak/hdf-tutorials-ja/wiki/Ropes-of-Apache-NiFi%3A-Tutorial-3

↑

Qiita †

kimutansk
https://qiita.com/kimutansk
- データフローオーケストレーションツールApache NiFi?とは？
  https://qiita.com/kimutansk/items/a083fc963fbe31068cf8
- Apache NiFi?で基本のデータフローを作成するには？
  https://qiita.com/kimutansk/items/b235fe6cdd0c04ab7e10

lethe2211
https://qiita.com/lethe2211
- Apache NiFi?について調べてみた
  https://qiita.com/lethe2211/items/a180373c5c25839bb470
- Apache NiFi?のCustom Processorを作ってみた
  https://qiita.com/lethe2211/items/ed2c97070b229fdca447

↑

参考 †

Apache NiFi?
https://nifi.apache.org

Apache NiFi?のコミッターに聞く「OSSコミッター」になる秘訣 | Think IT（シンクイット）
https://thinkit.co.jp/article/12605

↑

設計コンセプト †

↑

FBP †

基本的な設計コンセプトはFlow Based Programming(FBP)と関連が強い。
Flow Based Programming(FBP)の用語とのマッピングは下表のようになっている。

#	NiFi? 用語	FBP 用語	Description
1	FlowFile?	Information Packet	システム間を移動する各オブジェクトのことを示している。バイナリ形式でKeyValue?の属性文字列を保持している。
2	Processor	Information Packet	Enterprise Integration Patterns(EIP)においてルーティング、変換、システム仲介を行うもの。与えられたFlowFile?の属性、およびFlowFile?の流れるストリームにアクセスする。 0から任意の数のFlowFile?群を処理単位として認識し、その単位で処理やコミット、ロールバックを可能とする。
3	Connection	Bounded Buffer	Processor間の実接続を示す。キューとして動作し、様々な処理を異なるタイミングで差し込むことが可能。これらのキューは動的な優先度付け機構、バックプレッシャー機構を有する。
4	Controller	Scheduler	プロセス、スレッドの配置や接続関係について統括している。 Processor間のFlowFile?のやり取りを容易にするBrokerとして動作する。
5	Process Group	subnet	プロセスとConnectionの一群を指し、外部からメッセージを受け取るInputPort?や出力するOutputPort?を有する。これらの組み合わせによってProcess Groupは新たなコンポーネントの生成も可能になっている。

↑

SEDA †

この設計コンセプトはstaged event-driven architecture(SEDA)とも似ている。
staged event-driven architecture(SEDA)から様々な設計アイディアをえている。

参考
- SEDA: An Architecture for Well-Conditioned, Scalable Internet Services
  http://www.mdw.la/papers/seda-sosp01.pdf

↑

SlideShare? †

↑

KojiKawamura? †

https://www.slideshare.net/KojiKawamura/presentations

そのデータフロー NiFi?で楽にしてあげましょう
https://www.slideshare.net/KojiKawamura/nifi
Apache NiFi? 1.0 in Nutshell
https://www.slideshare.net/KojiKawamura/apache-nifi-10-in-nutshell

Kafka含むデータ処理フローを NiFi?で構築するさまを実演する5分間
https://www.slideshare.net/KojiKawamura/kafka-nifi5
Apache NiFi?で、楽して、つながる、広がる IoTプロジェクト
https://www.slideshare.net/KojiKawamura/apache-nifi-iot
What will be new in Apache NiFi? 1.2.0
https://www.slideshare.net/KojiKawamura/whats-newnifi120
Apache NiFi? 流れるデータにもスキーマを
https://www.slideshare.net/KojiKawamura/apache-nifi-78564874

↑

Qiita †

↑

kimutansk †

https://qiita.com/kimutansk

Apache NiFi?のそもそものコンセプトは？
https://qiita.com/kimutansk/items/59c9dacf01bd342295c3

ストリーム処理とは何か？＋2016年の出来事
https://qiita.com/kimutansk/items/60e48ec15e954fa95e1c

目次 †

概要 †

特徴 †

関連プロジェクト †

Registry †

MiNiFi †

Apache Atlas †

ユースケース †

EAI/ETL †

ETL †

EAI †

WebAPI †

MiNiFi †

用語 †

FlowFile? †

Content †

Attirbutes †

Processor †

利用可能なProcessor †

Processorのタイプ †

Connection †

Relationship †

アーキテクチャ †

図 †

主要コンポーネント †

Web Server †

Flow Controller †

Extensions †

FlowFile Repository †

Content Repository †

Provenance Repository †

クラスタリング †

ZooKeeper? †

コーディネータ †

プライマリノード †

その他 †

カスタム・プロパティ †

Template †

監視 †

Status Bar †

Component Statistics †

Bulletins †

データの起源・出所 †

イベントの詳細 †

リネージュ・グラフ †

step by step的な †

ファースト・ステップ †

セカンド・ステップ †

参考 †

nifi.apache.org †

hortonworks.com †

ijokarumawak/hdf-tutorials-ja †

Qiita †

参考 †

設計コンセプト †

FBP †

SEDA †

SlideShare? †

KojiKawamura? †

Qiita †

kimutansk †