.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分散処理(分散コンピューティング)とは、

詳細

基礎

ざっくり、

みたいな話。

アーキテクチャ

無共有型のアーキテクチャが主流である。

並列処理

SQL Serverの並列クエリはファイル・グループによるパーティション並列性になる。

データ分割

パーティション並列性のデータの分割方法には、主に次の3つの方法がある。

性能指標

並列処理の性能指標

アルゴリズム

並列処理の⁠オペレータとアルゴリズム

実行プランの選択

実行プランの列挙・見積・選択は、
「⁠(⁠問い合わせ)最適化」と呼ばれる。

永続性と一貫性

レプリケーションとロギングがある(RDBMSにもある)。

コーディネーション

複数のプロセス間において,協調して動作をする,または,同意を取るための技術

分散処理

本項での処理系は

「⁠分散システム技術を活用した、
データ処理専用の並列システム」

と言うことができる。

ストア

データ・ストア、ディスクか?メモリか?

ディスク

メモリ

その他

処理

どのような処理を実行できるか?

分散(バッチ)

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

ストリーム

データ・パイプライン

分散(バッチ) + ストリームみたいな組み合わせ。

目的

ビジネス上の目的の例。

意味付け

前もって意味付けせずに生のまま蓄積できる。

データアナリストというよりデータサイエンティストに向いたアーキテクチャ

可視化

ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。

データ解析

機械学習

プロダクト

分散(バッチ)系

Hadoop

HDFSを使ったビッグデータの分散(バッチ)処理のプロダクト。

Apache Spark

ビッグデータの分散(バッチ)処理のプロダクト。

ストリーム系

Apache Storm

ビッグデータのストリーム処理のプロダクト

Hadoop Streaming

Spark Streaming

ビッグデータのストリーム処理のプロダクト
Apache Stormとの違いはリンク先参照を。

データ収集・格納

Apache Flume

非構造化データ

Fluentd/Embulk

非構造化データ

Apache Storm

時系列データ

Apache Sqoop

業務データベースからのデータ

Apache NiFi

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。

Apache Kafka

処理性能を重視したメッセージキュー

目的別

分散(バッチ)系

Hadoop

Apache Spark

Asakusa Framework

ストリーム系

Apache Spark

...

Elastic Stack

Elasticsearchの推奨構成

Elasticsearch

Kibana

Logsatsh

Beats

参考

@IT

Think IT

Qiita

NTTデータ

システム技術本部

先端技術株式会社

Hadoopの歴史

gihyo.jp … 技術評論社

Hadoopはどのように動くのか


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS