「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>分散処理:データ収集・格納系#e85b60f7]]
--[[Apache Sqoop]]
--Fluentd/Embulk
--[[Logsatsh, Beats>Elasticsearch#r521f91b]]
--[[Apache Flume]]
--[[Apache NiFi]]
--[[Apache Kafka]]

*目次 [#rd8c0f47]
#contents

*概要 [#u6742d0f]
トレジャーデータが開発するオープンソースのデータ収集ツール

*詳細 [#o5028b63]

**Fluentd [#k3a10ec5]
-Webサーバのアクセスログやセンサーデータなどのリアルタイムに生成されるデータに対応
-Webサーバのアクセスログやセンサー・データなどのリアルタイムに生成されるデータに対応

-特徴
--スキーマレス
--データ入出力加工がプラグインで実装可能
--バッファリング機構による信頼性の高いログ転送


**Embulk [#f1eee20d]
-[[Fluentd>#k3a10ec5]]のバッチ版のようなツール
-RDBや外部サービスから定期的に数GB生成されるようなデータに対応
-入力、出力、データ加工などのプラグインを書くことができる。

*参考 [#q44e9f58]
-Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita~
https://qiita.com/hiroysato/items/397f36c4838a0a93e352
-ビッグデータの収集基盤「Fluentd」と「Embulk」の~
サポートサービス、NTTデータが提供 | IT Leaders~
https://it.impress.co.jp/articles/-/13656

-これなら使える!ビッグデータ分析基盤のエコシステム|gihyo.jp … 技術評論社
--第1回 ビッグデータ分析を始めよう~
https://gihyo.jp/dev/serial/01/bigdata-analysis/0001
--第2回 ストリーミング処理とバッチ処理によるデータ収集 ~ Fluentd編 ~~
https://gihyo.jp/dev/serial/01/bigdata-analysis/0002
--第3回 ストリーミング処理とバッチ処理によるデータ収集 ~ Embulk編 ~~
https://gihyo.jp/dev/serial/01/bigdata-analysis/0003

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS