Hadoop Conference Japan 2009に行ってきました

午前中にお役所手続きをしていて開始時間に間に合わず、オープニングと楽天市場の発表に間に合わず。。残念でした。

途中からですが、聞いた事まとめ

はてな

ダイアリー 7G
ブックマーク 5G
うごめも 3G

  • 1時間毎にHDFSにログを送る

HadoopMapReduceにジョブ投入

  • HadoopStreamingを使用

Java以外での利用可
もっぱらperlのため。

  • ジョブの定義はYAMLで設定
  • 速度の問題がでてきた

HadoopStreamingの限界
⇒遅い(perlの問題?)
ジョブをkillしても残る場合がある
HDFS操作が遅い

コード量が少なくてすむ

JavaScalaを接続するライブラリ
SHadoop

  • レスポンス時間の計測

アクセスログから収集
7GBだと10分で可能

Elastic MapReduceでお手軽Wikipedia マイニング

  • 大倉務さん
  • 数行〜数百行のPythonスクリプトを書くだけで大規模データを操作する

日本語Wikipedia90満期時ぐらい

Amazonの一連のCloudComputingサービスの一つ
Step0:ツールの準備
AWSへの登録
Elastic MapReduce登録
s3sync
elastic-mapreduce

Step1:入力データの準備
Wikipediaデータダウンロード
データを複数のファイルに分割
たぐ20000 記事ごとに異なるファイルに分割
S3にアップロード

Step2:各ページの被リンク数
Mapper
Reducer
aggregate(Hadoop組み込みのReducer)

Step3:最終稿信念の分布をとってみる

Step4 PageRank計算してみる
アルゴリズム
・初期値を1に設定
・リンク先ページに、自分の重み/リンク数を与える
・自分のページにあたえられた重みを合計
・この2sテップを10回くらい繰り返す
いいところ・わるいところ(elastic-mapreduce)

  • いいところ

かんたん
・小規模なジョブならMasterの値段分安い

  • 悪いところ

多数のジョブを走らせる事は考えるともったいない
1分マシンを使っても1時間分とられる
ログが見にくい
独自のディスクイメージが使えない
1時間1台0.1ドル=1時間100台1000円←安いのでいいところ

このあとまた仕事でトラブル発生で断片的にしか聞けませんでした・・・
でも、非常に触ってみたいと思いました。とくにはてなScala on Hadoop
来週時間つくってやってみよう。