「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>分散処理]] --分散処理:分散(バッチ)系 --[[分散処理:ストリーム系]] --[[分散処理:データ収集・格納系]] --分散(バッチ)系 --[[ストリーム系>分散処理:ストリーム系]] --[[データ収集・格納系>分散処理:データ収集・格納系]] *目次 [#yaac67f4] #contents *概要 [#i6d81dee] 得意とするストレージによってフレームワークが異なる感じ。 ※ [[Hadoop MapReduce>Hadoop#b9ef92ab]]は他の分散エンジンの隆盛によってフェードアウト気味らしいが、~ [[Hadoop>#rd5a9fcb]] や [[Hadoop Distributed File System (HDFS)>Hadoop#l2a0cd99]] は進化しつつあるらしい。 **[[Hadoop>#rd5a9fcb]] [#k2d9afd4] ***フレームワーク [#sdb66fb1] -[[Hadoop MapReduce>Hadoop#b9ef92ab]] -[[Hadoop Yet Another Resource Negotiator (YARN)>Hadoop#kbbf8cab]] ***ストレージ [#g89578eb] -[[HDFS>Hadoop#l2a0cd99]] **[[Apache Spark>#rec0eb89]] [#a57dcfcd] ***フレームワーク [#b225ee7c] -[[Spark Core>Apache Spark#t805c63c]] -[[Spark SQL>Apache Spark#meeb789d]] ***ストレージ [#mf44154c] -[[RDD>Apache Spark#f411c5af]] -[[HDFS>Hadoop#l2a0cd99]] *詳細 [#l21b4b6d] **目的別 [#jb20d368] ***[[Hadoop>#rd5a9fcb]]系 [#oe1cb576] -複数台のサーバのディスクを効率よく利用 -大規模データの保存と処理を、 --適合した並列分散処理で実行 --現実的コストで実行 -繰返しの多い処理や、複雑な処理が苦手 --複雑な処理は、MapReduceジョブの組み合わせで実現 --MapReduceジョブの都度、ディスクの読み書きが発生 -[[Apache Spark>#e1bc4862]]と比べ、スループット重視 ***[[Apache Spark>#rec0eb89]]系 [#e1bc4862] -[[Hadoop>#rd5a9fcb]]系の弱点を克服したもの。 -複数台のサーバのメモリ/CPU/ディスクを効率よく利用 --データのキャッシュ --実行プランの最適化 -複雑な処理を実行できる。 --SQL(汎用化) --機械学習 --ストリーム --ライブラリ、API --ストレージとしては、~ [[Hadoop>#rd5a9fcb]]の[[HDFS>Hadoop#l2a0cd99]]を使用。 -[[Apache Hadoop>#oe1cb576]]と比べ、レスポンス重視 ***[[Asakusa Framework]] [#m24d213b] -[[Hadoop>#rd5a9fcb]]系の[[分散(バッチ)系>#jb20d368]]技術を土台としている。 -バッチアプリケーションを開発するための包括的なフレームワーク **プロダクト [#nb6b6319] ***[[Hadoop]] [#rd5a9fcb] [[HDFS>Hadoop#l2a0cd99]]を使った[[ビッグデータ]]の分散(バッチ)処理のプロダクト。 ***[[Apache Spark]] [#rec0eb89] [[ビッグデータ]]の分散(バッチ)処理のプロダクト。 -主に[[RDD>Apache Spark#f411c5af]]を使用する。 -オプションで[[HDFS>Hadoop#l2a0cd99]]も利用できる。 *[[参考>分散処理#d32f224d]] [#c2ac87b9]