.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

  • Apache Hadoopベース
  • 大規模並列処理(MPP)SQLクエリエンジン
  • 低レイテンシのSQLクエリを発行できる
  • Apache HiveのHive Query Language(HiveQL)との対比
    • Hiveの特性に合わないアドホックなSQL処理の要望に応える。
    • Hiveより高速な、新規に開発された並列データ処理系エンジン。
    • バッチ処理としての高スループットを目指す用途ではHiveを用い,
      分析などのアドホッククエリに対して高速に応答を返す用途ではImpalaを用いる。
      • 耐障害性を多少犠牲にしてメモリ上で処理を完結することにより高速化を実現する。
      • 事前に取得された統計情報を元にメモリの使用量なども推測し、当該処理の並列化方法を決定する。

詳細

機能

基本機能

  • Hadoopファイル形式を読み込み。
  • Apache Hive
    • メタデータ
    • ODBCドライバ
    • SQL構文

を使用。

認証機能

  • Hadoopセキュリティ(Kerberos認証)をサポート
  • Apache Sentryでのきめ細かなロールベースのアクセス制御。

コンポーネント

Impala クライアント

ユーザーのアプリケーションからクエリを実行する。

  • JDBC / ODBC
  • impala-shell(CUI)

Catalog Server(catalogd)

  • Hadoopクラスタ上のDataNode?で起動される。
  • ImpalaにおけるSQL処理の中核を担うデーモン

Impala Daemon(impalad)

  • Hadoopクラスタ上で1つだけ起動される。
  • Impalaが使用するメタデータを管理するデーモン

StateStore?

  • Hadoopクラスタ上で1つだけ起動される。
  • impaladの状態を監視するデーモン

Hive Metastore Server(HMS)

Hiveのメタデータを管理するデーモン

HDFS NameNode?(NN)

HDFSが管理するブロックのメタデータを管理するデーモン

HDFS DataNode?(DN)

HDFSが管理するブロック自体を管理するデーモン

参考

gihyo.jp … 技術評論社

Hadoopはどのように動くのか
─並列・分散システム技術から読み解くHadoop処理系の設計と実装


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-10-27 (火) 13:48:08 (2d)