Hadoop Conference Japan 2009に行ってきました

午前中にお役所手続きをしていて開始時間に間に合わず、オープニングと楽天市場の発表に間に合わず。。残念でした。

途中からですが、聞いた事まとめ

ダイアリー 7G
ブックマーク 5G
うごめも 3G

HadoopMapReduceにジョブ投入

Java以外での利用可
もっぱらperlのため。

HadoopStreamingの限界
⇒遅い(perlの問題？)
ジョブをkillしても残る場合がある
HDFS操作が遅い

コード量が少なくてすむ

JavaとScalaを接続するライブラリ
SHadoop

生アクセスログから収集
7GBだと10分で可能

日本語Wikipedia90満期時ぐらい

Amazonの一連のCloudComputingサービスの一つ
Step0:ツールの準備
AWSへの登録
Elastic MapReduce登録
s3sync
elastic-mapreduce

Step1:入力データの準備
Wikipediaデータダウンロード
データを複数のファイルに分割
たぐ20000 記事ごとに異なるファイルに分割
S3にアップロード

Step2:各ページの被リンク数
Mapper
Reducer
aggregate(Hadoop組み込みのReducer)

Step3:最終稿信念の分布をとってみる

Step4 PageRank計算してみる
アルゴリズム
・初期値を1に設定
・リンク先ページに、自分の重み/リンク数を与える
・自分のページにあたえられた重みを合計
・この2sテップを10回くらい繰り返す
いいところ・わるいところ(elastic-mapreduce)

かんたん
・小規模なジョブならMasterの値段分安い

多数のジョブを走らせる事は考えるともったいない
1分マシンを使っても1時間分とられる
ログが見にくい
独自のディスクイメージが使えない
1時間1台0.1ドル=1時間100台1000円←安いのでいいところ

このあとまた仕事でトラブル発生で断片的にしか聞けませんでした・・・
でも、非常に触ってみたいと思いました。とくにはてなのScala on Hadoop。
来週時間つくってやってみよう。