「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>分散処理]] --[[分散(バッチ)系>分散処理:分散(バッチ)系]] --[[ストリーム系>分散処理:ストリーム系]] --データ収集・格納系 *目次 [#a652fec3] #contents *概要 [#f13eaa3f] (ストリーム系の)データ収集・格納系の処理には、 -[[データ収集(DC)系>#j1442d7c]]、 -[[シングル・イベント・プロセッサ(SEP)系>#nbf7f4c7]] のプロダクトを使用する。 ※ 複雑な、[[データ収集(DC)系>#j1442d7c]]には、~ [[シングル・イベント・プロセッサ(SEP)系>#nbf7f4c7]]や、~ [[複雑イベントプロセッサ(CEP)系>#lc05ffae]]を、使うこともある模様。 **[[データ収集(DC)系>#hcbec1ea]] [#j1442d7c] **[[シングル・イベント・プロセッサ(SEP)系>#hb25c736]] [#nbf7f4c7] **[[複雑イベントプロセッサ(CEP)>分散処理:ストリーム系#s028d77f]] [#lc05ffae] *詳細 [#e85b60f7] **目的別 [#p2196c83] ***データ収集(DC)系 [#hcbec1ea] -[[Apache Sqoop>#l8c21e93]] -[[Fluentd/Embulk>#z9ca1b75]] -[[Logsatsh, Beats>#h5e8c64f]] -[[Apache Flume>#vc907efb]] -[[Apache NiFi>#t257dfc8]] -[[Apache Kafka>#i5bd4db3]](保存) ***シングル・イベント・プロセッサ(SEP)系 [#hb25c736] データフロー・ETL(Extract/Transform/Load)のエンリッチメント。 -[[Apache Flume>#vc907efb]] -[[Apache NiFi>#t257dfc8]] **プロダクト [#d0265fa7] -データ生成元 → [[HadoopのHDFS>Hadoop#l2a0cd99]], etc. 部の課題~ -スクラッチ開発が必要なので、OSSのプロダクトが存在する。 ***[[Apache Sqoop]] [#l8c21e93] 業務データベースからのデータ ***[[Fluentd/Embulk]] [#z9ca1b75] 非構造化データ ***Logsatsh, Beats [#h5e8c64f] [[Elastic Stack>Elasticsearch#r521f91b]] -[[Logsatsh>Elasticsearch#h0b258a7]] -[[Beats>Elasticsearch#h15c1264]] ***[[Apache Flume]] [#vc907efb] 非構造化データ ***[[Apache NiFi]] [#t257dfc8] [[EAI/ETL]]系のデータフロー・オーケストレーション・ツールだが、~ [[ビッグデータ]]のコンテキストでデータ収集+エンリッチメント役割を担う。 ***[[Apache Kafka]] [#i5bd4db3] 処理性能を重視したメッセージキュー -データをロストし難い仕組みを備える。 --複数台のマシンでクラスタを構成 --分散処理により高いスループットを発揮 -以下のような組み合わせで使用する。 --[[Apache NiFi>#t257dfc8]] → Kafka → Storm --[[Fluentd>#z9ca1b75]] → Kafka → Hadoop/Spark ***[[Apache Storm]] [#lea7d86a] 時系列データ *[[参考>分散処理#d32f224d]] [#c13b4a61]