こんにちは。
AMDLabの松原です。
今日は分散処理技術のお話をします。
Hadoopはご存知でしょうか?
2003年、グーグルからとある論文が発表されました。
Google File System、通称GFSの論文です。
GFSはGoogleが開発した、「クラスターを用いることでデータに効率的にアクセスできる分散処理システム」です。
さらに翌年、GoogleはMapReduceの論文を発表するのですが、
これらの論文に触発されまくったのが、Hadoopの生みの親であるタグ・カッティング氏です。
タグ・カッティング氏は当時Apache Lucene(全文検索ライブラリ)と、そのサブプロジェクトであるApache Solr(LuceneのHttpラッパー+拡張機能)、Apache Nutch(Webサイトのクローラー)を実装していましたが、論文を読み、急ぎこのApache NutchにMapReduceの仕組みを取り入れたのです。
分散処理実装部分のみ、Nutchから独立し、Yahooの出資の元「Apache Hadoop」として開発が進められ、2006年にはオープンソースとして公開されました。
現在は、Facebookを始め、さまざまなWebサービスの裏側でHadoopでの情報処理が行われています。
最近は、Sparkにその処理を置き換えているケースも多いですが、どちらにも得意不得意があり、うまい使い分けが必要です。
次回、MapReduceの仕組みを詳しく説明します。
COMMENTS