Hadoop のバックアップ(No.14)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る

目次 †

目次
概要
- Hadoop MapReduce
  - 特性
  - 構成
  - 処理系
- Hadoop YARN
  - 特性
  - 構成
  - 処理系
詳細
- Hadoop MapReduce
- Hadoop YARN
アーキテクチャ
エコシステム
参考

↑

概要 †

Apache Hadoopは
- Javaで書かれている。
- 数千ノードおよびペタバイト級の分散処理を支えるOSSフレームワーク。
- Google MapReduce?およびGoogle File System(GFS)論文に触発されたもの。
- 実行プラン作成の観点において、手続き型言語と宣言型言語の中間的なもの。

※ 参考：

↑

Hadoop MapReduce? †

↑

特性 †

ワークロード
- 非構造化データを対象としたETL（Extract-Transform-Load）処理を想定。
- 並列データベースの構造化データに対する分析クエリような処理は想定していない。

高い
- 耐障害性
- スケーラビリティ

抽象化インターフェース

↑

構成 †

MapReduce?処理系
高速なファイルの読み書きが可能な分散ファイルシステム
- HDFS
- ソレ以外

↑

処理系 †

複数の計算機上で効率的に処理を行う、
データ処理用のプログラミング・モデル

プログラミング・モデルが動作する処理系

↑

Hadoop YARN †

Hadoop YARN（Yet Another Resource Negotiator）
Hadoop 2.2から利用可能なリソース管理コンポーネント

↑

特性 †

旧管理コンポーネントとの違い

分散リソース制御機構
- MapReduce? V2
- Hadoop YARN（とApplicationMaster）

課題の解決
- クラスタ規模の拡大: JobTrackerの改善
- リソース管理の効率化: TaskTrackerの改善
- MapReduce?以外の分散処理の実行:

↑

構成 †

マスタ・スレーブ型の構成

マスタの役割を担当するのがResourceManager
スレーブの役割を担当するのがNodeManager

↑

処理系 †

マスタも高可用（HA）構成を取ることができる。
マスタが任意のタイミングで切り替わっても動作が停止しない
- マスタが保持している管理情報は投入されるジョブ数に比例して増加はするが、
- 管理情報（ジョブの投入状況および進捗状況の変更）をApache ZooKeeperに保持して捌く。

↑

詳細 †

↑

Hadoop MapReduce? †

↑

耐障害性設計 †

分散ファイルシステムのレプリケーションによりブロックの高い可用性を実現。
中間データを二次記憶に適宜書き出すことにより、ジョブのリランが可能。

↑

スケーラビリティ設計 †

ディスク入出力性能を最大限に活用する。

大きなブロック単位の入出力
従来のNFSなどの分散ファイルシステムと比較し、
高いシーケンシャルアクセス性能を活用できる。

無共有型のアーキテクチャ
- 並列ディスク走査
- 高いスケーラビリティを実現可能

ネットワーク入出力を最小限に抑える。

近年におけるコモディティサーバはでは、
ネットワークスイッチのI/O性能が各計算機のI/O性能よりも低い。

従って、種々の効率化技法が用いられる。

転送データ圧縮

集約処理
・通常の処理
　Map側で集約キーによって出力データを分割、
　ネットワークを介して分配し、Reduce側でキー毎の集約を行う。

・可換則と結合則を満たす集約処理
　Map側で集約処理（部分集約）を行い、
　ネットワークへのデータ転送量の削減を試みる。

↑

抽象化インターフェース設計 †

map()とreduce()なる2つの関数だけをプログラマに定義させる。
その他の処理はすべて処理系で行う。

↑

Hadoop YARN †

↑

アーキテクチャ †

Hadoopは、以下のモジュールによって構成されている。

Hadoop Common
Hadoop MapReduce
Hadoop Distributed File System (HDFS)
管理コンポーネント
- 旧管理コンポーネント
- Hadoop Yet Another Resource Negotiator (YARN)

↑

Hadoop Common †

他のモジュールから共通して利用されるライブラリ群。

↑

Hadoop MapReduce? †

MapReduceの実装。
- 可能な限り入力データを保持するDataNodeと同一ノードでMapタスクが実行されるようにスケジューリングされる。
- これにより、大規模データ処理においてもネットワークの負荷を抑えることが可能である。

JobTracker、TaskTrackerによるMapReduceはMRv1と呼ばれる。

Hadoop 2系以降は、MRv1をサポートしていない。
YARN上でMapReduce上が動作し、MRv2と呼ばれる。

↑

ファイル・システム †

HDFS以外のファイル・システムもサポートしている。

Amazon Simple Storage Service (S3)
OpenStack? Swift
Microsoft Azure
FTP、HTTP、およびHTTPS経由で
アクセス可能なファイル・システム

↑

MRv1 †

MapReduceエンジンはひとつのJobTrackerを持ち、
クライアントはこのJobTrackerに向けてMapReduceジョブを投入する。

↑

MRv2 †

クライアントがYARN上でMapReduceを実行する場合、ResourceManagerにMapReduceジョブを投入する。
MapReduceジョブが停止した場合、JobTrackerを再起動してMapReduceジョブを再実行する必要がある。

↑

Hadoop Distributed File System (HDFS) †

HDFS：Hadoop独自の分散ファイル・システム。

Googleの分散ファイルシステム、Google File System(GFS)のクローン

大きなファイルを複数のブロック単位(デフォルトで128MB)に分割して、それらを複数のノードにまたがり格納する。

そのブロックの複製(レプリカ)を複数の異なるノードに格納することで信頼性を確保している。そのため、各ホストはRAIDを必要としない。

通常のOSにマウントできないことは制限のひとつであったが、Hadoop 2.2以降のバージョンではNFSv3マウントに対応している。

HDFSはマスタ・スレーブ型の構成

↑

NameNode? †

マスタの役割を担当する。

HDFSに関するメタ情報(ファイルとブロックの対応関係など)を保持し、各DataNodeが実データをブロック単位で保持する。

任意のDataNodeが故障した場合は、自動でそれを検知し、故障したDataNodeの保持ブロックを別のDataNodeから参照するよう命令する。

このようにしてDataNodeが故障した場合も自動的にレプリケーション数が維持されるため、DataNodeが故障してもサービスに影響は発生しない。

単一障害点であったが、Hadoop 2.2でHA機能が実装されたため単一障害点ではなくなった。

状態変更は既存のApache ZooKeeperを用いずMulti Paxosを実装して用いる。
ことにより，メッセージ数の削減による高性能化を実現する。

↑

DataNode? †

スレーブの役割を担当する。

実データをブロック単位で保持する。

レプリケーション数のデフォルトは3で、この場合、
- 2つのデータを同じラック内のノードに、
- 残り1つを異なるラック内のノードに

保存する。

数1000台規模までスケールアウト可能。
その場合、数10PB規模のデータを格納できる。

↑

旧管理コンポーネント †

Hadoopクラスタの

リソース管理
ジョブ・スケジューリングを担当。

↑

JobTracker? †

旧マスタ（リソース管理、ジョブ・スケジューリング）ノード

MapReduceジョブが投入されると、JobTrackerはクラスタ中の利用可能なTaskTrackerに仕事を依頼する。
何らかの異常によってJobTrackerが停止すると、実行中のMapReduceジョブも停止する。

↑

TaskTracker? †

旧スレーブ（割り当てられた処理の実行）ノード

１筐体上でDataNodeとTaskTrackerが動く。
TaskTrackerが停止するか、実行中のタスクがタイムアウトすると、その部分のタスクは再スケジュールされる。

↑

Hadoop Yet Another Resource Negotiator (YARN) †

旧管理コンポーネントの後継
Hadoop 2.2から利用可能。

↑

課題 †

クラスタ規模の拡大
Hadoop 1系までのMapReduceエンジンにおけるマスタ(JobTracker)が
以下の3つを担当する必要があったため、JobTrackerの負荷が大きく、
Hadoopクラスタの台数は1000台程度が限界であった。
- クラスタのリソース管理
- クラスタ内で実行されるMapReduceジョブのスケジューリング
- MapReduceジョブ自体のスケジューリング(各タスクに対する入力データの割り当てや進捗管理)

リソース管理の効率化
- Hadoop 1系までのMapReduceエンジンにおけるスレーブ(TaskTracker)ではMapタスク用、
  Reduceタスク用にそれぞれスロットが用意されており、そこにMapReduceの各タスクが割り当てられる。
- ここで、Mapタスク用のスロットに空きがない場合は、Reduceタスク用のスロットに空きがあったとしても
  Mapタスクをこれ以上割り当てることができず、TaskTrackerのリソース使用率が低下する問題があった。

MapReduce以外の分散処理の実行
Hadoopで分散処理するためには、必ずMapReduceの仕組みに当てはめる必要があった。
- MapReduceが2回以上連続するような処理を実行する場合、
  - 前段のMapReduceジョブの処理結果をHDFSに書き込み、
  - それを後続のMapReduceで読み込む、という流れになる。
- ここでHDFSに中間データを書き込むため、処理が非効率である。
  多段のMapReduceとなるような処理を高速化するために、
  MapReduceフレームワークとは異なる分散処理が必要であった。