「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>分散処理:データ収集・格納系#e85b60f7]] --[[Apache Sqoop]] --Fluentd/Embulk --[[Logsatsh, Beats>Elasticsearch#r521f91b]] --[[Apache Flume]] --[[Apache NiFi]] --[[Apache Kafka]] *目次 [#rd8c0f47] #contents *概要 [#u6742d0f] トレジャーデータが開発するオープンソースのデータ収集ツール *詳細 [#o5028b63] **Fluentd [#k3a10ec5] -Webサーバのアクセスログやセンサーデータなどのリアルタイムに生成されるデータに対応 -Webサーバのアクセスログやセンサー・データなどのリアルタイムに生成されるデータに対応 -特徴 --スキーマレス --データ入出力加工がプラグインで実装可能 --バッファリング機構による信頼性の高いログ転送 **Embulk [#f1eee20d] -[[Fluentd>#k3a10ec5]]のバッチ版のようなツール -RDBや外部サービスから定期的に数GB生成されるようなデータに対応 -入力、出力、データ加工などのプラグインを書くことができる。 *参考 [#q44e9f58] -Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita~ https://qiita.com/hiroysato/items/397f36c4838a0a93e352 -ビッグデータの収集基盤「Fluentd」と「Embulk」の~ サポートサービス、NTTデータが提供 | IT Leaders~ https://it.impress.co.jp/articles/-/13656 -これなら使える!ビッグデータ分析基盤のエコシステム|gihyo.jp … 技術評論社 --第1回 ビッグデータ分析を始めよう~ https://gihyo.jp/dev/serial/01/bigdata-analysis/0001 --第2回 ストリーミング処理とバッチ処理によるデータ収集 ~ Fluentd編 ~~ https://gihyo.jp/dev/serial/01/bigdata-analysis/0002 --第3回 ストリーミング処理とバッチ処理によるデータ収集 ~ Embulk編 ~~ https://gihyo.jp/dev/serial/01/bigdata-analysis/0003