Map & Reduce

こんにちは。
AMDLabの松原です。

今日は分散処理技術のお話をします。

Hadoopはご存知でしょうか?

2003年、グーグルからとある論文が発表されました。
Google File System、通称GFSの論文です。

GFSはGoogleが開発した、「クラスターを用いることでデータに効率的にアクセスできる分散処理システム」です。

さらに翌年、GoogleはMapReduceの論文を発表するのですが、
これらの論文に触発されまくったのが、Hadoopの生みの親であるタグ・カッティング氏です。

タグ・カッティング氏は当時Apache Lucene(全文検索ライブラリ)と、そのサブプロジェクトであるApache Solr(LuceneのHttpラッパー+拡張機能)、Apache Nutch(Webサイトのクローラー)を実装していましたが、論文を読み、急ぎこのApache NutchにMapReduceの仕組みを取り入れたのです。

分散処理実装部分のみ、Nutchから独立し、Yahooの出資の元「Apache Hadoop」として開発が進められ、2006年にはオープンソースとして公開されました。

現在は、Facebookを始め、さまざまなWebサービスの裏側でHadoopでの情報処理が行われています。
最近は、Sparkにその処理を置き換えているケースも多いですが、どちらにも得意不得意があり、うまい使い分けが必要です。

次回、MapReduceの仕組みを詳しく説明します。

ARTICLES