.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分散処理(分散コンピューティング)とは、

詳細

基礎

ざっくり、

みたいな話。

アーキテクチャ

無共有型のアーキテクチャが主流である。

並列処理

SQL Serverの並列クエリはファイル・グループによるパーティション並列性になる。

データ分割

パーティション並列性のデータの分割方法には、主に次の3つの方法がある。

性能指標

並列処理の性能指標

アルゴリズム

並列処理の⁠オペレータとアルゴリズム

実行プランの選択

実行プランの列挙・見積・選択は、
「⁠(⁠問い合わせ)最適化」と呼ばれる。

永続性と一貫性

レプリケーションとロギングがある(RDBMSにもある)。

コーディネーション

複数のプロセス間において,協調して動作をする,または,同意を取るための技術

分散処理

本項での処理系は

「⁠分散システム技術を活用した、
データ処理専用の並列システム」

と言うことができる。

ストア

データ・ストア、ディスクか?メモリか?

ディスク

メモリ

その他

処理

どのような処理を実行できるか?

分散(バッチ)

得意とするストレージによってフレームワークが異なる感じ。

Hadoop MapReduceは他の分散エンジンの隆盛によってフェードアウト気味らしいが、
 HadoopHadoop Distributed File System (HDFS) は進化しつつあるらしい。

ストリーム

※ 複雑な、データ収集(DC)系に、
  シングル・イベント・プロセッサ(SEP)系や、
  複雑イベントプロセッサ(CEP)系を、使うこともある模様

データ・パイプライン

分散(バッチ) + ストリームみたいな組み合わせ。

目的

ビジネス上の目的の例。

意味付け

前もって意味付けせずに生のまま蓄積できる。

データアナリストというよりデータサイエンティストに向いたアーキテクチャ

可視化

ディスクのデータをDWHにロードし、従来タイプのBIツール群を使うこともできる。

データ解析

機械学習

目的別

分散(バッチ)系

Hadoop

Apache Spark

Asakusa Framework

ストリーム系

Hadoop

Apache Spark

Elastic Stack

Elasticsearchの推奨構成

Elasticsearch

Kibana

Logsatsh

Beats

プロダクト

分散(バッチ)系

Hadoop

HDFSを使ったビッグデータの分散(バッチ)処理のプロダクト。

Apache Spark

ビッグデータの分散(バッチ)処理のプロダクト。

ストリーム系

Apache Storm

ビッグデータのストリーム処理のプロダクト

Hadoop Streaming

Spark Streaming

ビッグデータのストリーム処理のプロダクト
Apache Stormとの違いはリンク先参照を。

データ収集・格納

Apache Sqoop

業務データベースからのデータ

Fluentd/Embulk

非構造化データ

Apache Flume

非構造化データ

Apache NiFi

EAI/ETL系のデータフロー・オーケストレーション・ツールだが、
ビッグデータのコンテキストでデータ収集+エンリッチメント役割を担う。

Apache Kafka

処理性能を重視したメッセージキュー

Apache Storm

時系列データ

参考

@IT

Think IT

Qiita

NTTデータ

システム技術本部

先端技術株式会社

Hadoopの歴史

gihyo.jp … 技術評論社

Hadoopはどのように動くのか


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS