これは本格的にやられてしまったという感じ。
Amazon EC2+S3上でHadoopベースのMapReduceアプリを動作させるサービス。
これまでもEC2上でHadoopを動かすこと自体はいろいろな人がやっていましたが、このサービスを使うと、EC2インスタンスを自分で設定・起動することなく、S3上に格納したデータとプログラムを用いてMapReduce操作を実行してもらうことができます。計算結果もS3上に格納されます。
で、実はこれ、単純にクラウド上のMapReduceサービスの実現というだけではなく、より包括的なアプリケーション実行フレームワークの実現だとも言えると思うんです。別にMapReduceしてもらう必要はないんです。例えば、シングルプロセスで実行できるプログラム(つまり何らかのデータをプログラムに食わせて結果を出力する)を考えてみれば明らかなように、このフレームワークは一般的なジョブサブミッションエンジンとして使えます。しかも、このプログラムの実行時間+αしかEC2のCPU時間を消費しないわけですから非常に経済的です。
HPC分野でもEmbarrassingly Parallel (EP)タイプのアプリを実行している人たちには直接的な恩恵があるでしょう。parameter sweepをする場合でも、parameter setだけ(とは限りませんが)をdistributeしてMapフェーズで計算してもらい、Reduceフェーズで回収すればいいわけですし。
では、MPIのようなSPMDなプログラミングモデルで書かれた一般的な並列プログラムはどうかというとちょっと話は厄介になります。この話はそのうちもう少し突っ込んで書くかもしれません。
別の興味としては、Hadoopを使って本当に課金に値するようなロバストなサービスを提供できるのかという疑問もあります。あっちこちでストールしたEC2インスタンスができてしまったりはしないのか、とかですね。





0 コメント:
コメントを投稿