「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>分散処理]]
--[[分散(バッチ)系>分散処理:分散(バッチ)系]]
--[[ストリーム系>分散処理:ストリーム系]]
--データ収集・格納系

*目次 [#a652fec3]
#contents

*概要 [#f13eaa3f]
(ストリーム系の)データ収集・格納系の処理には、

-[[データ収集(DC)系>#j1442d7c]]、
-[[シングル・イベント・プロセッサ(SEP)系>#nbf7f4c7]]

のプロダクトを使用する。

※ 複雑な、[[データ収集(DC)系>#j1442d7c]]には、~
 [[シングル・イベント・プロセッサ(SEP)系>#nbf7f4c7]]や、~
 [[複雑イベントプロセッサ(CEP)系>#lc05ffae]]を、使うこともある模様。

**[[データ収集(DC)系>#hcbec1ea]] [#j1442d7c]
**[[シングル・イベント・プロセッサ(SEP)系>#hb25c736]] [#nbf7f4c7]
**[[複雑イベントプロセッサ(CEP)>分散処理:ストリーム系#s028d77f]] [#lc05ffae]

*詳細 [#e85b60f7]

**目的別 [#p2196c83]

***データ収集(DC)系 [#hcbec1ea]
-[[Apache Sqoop>#l8c21e93]]
-[[Fluentd/Embulk>#z9ca1b75]]
-[[Logsatsh, Beats>#h5e8c64f]]
-[[Apache Flume>#vc907efb]]
-[[Apache NiFi>#t257dfc8]]
-[[Apache Kafka>#i5bd4db3]](保存)

***シングル・イベント・プロセッサ(SEP)系 [#hb25c736]
データフロー・ETL(Extract/Transform/Load)のエンリッチメント。

-[[Apache Flume>#vc907efb]]
-[[Apache NiFi>#t257dfc8]]

**プロダクト [#d0265fa7]

-データ生成元 → [[HadoopのHDFS>Hadoop#l2a0cd99]], etc. 部の課題~
-スクラッチ開発が必要なので、OSSのプロダクトが存在する。

***[[Apache Sqoop]] [#l8c21e93]
業務データベースからのデータ

***[[Fluentd/Embulk]] [#z9ca1b75]
非構造化データ

***Logsatsh, Beats [#h5e8c64f]
[[Elastic Stack>Elasticsearch#r521f91b]]
-[[Logsatsh>Elasticsearch#h0b258a7]]
-[[Beats>Elasticsearch#h15c1264]]

***[[Apache Flume]] [#vc907efb]
非構造化データ

***[[Apache NiFi]] [#t257dfc8]
[[EAI/ETL]]系のデータフロー・オーケストレーション・ツールだが、~
[[ビッグデータ]]のコンテキストでデータ収集+エンリッチメント役割を担う。

***[[Apache Kafka]] [#i5bd4db3]
処理性能を重視したメッセージキュー

-データをロストし難い仕組みを備える。
--複数台のマシンでクラスタを構成
--分散処理により高いスループットを発揮

-以下のような組み合わせで使用する。
--[[Apache NiFi>#t257dfc8]] → Kafka → Storm
--[[Fluentd>#z9ca1b75]] → Kafka → Hadoop/Spark

***[[Apache Storm]] [#lea7d86a]
時系列データ

*[[参考>分散処理#d32f224d]] [#c13b4a61]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS