Hadoop Conference Japan 2009に行ってきました
午前中にお役所手続きをしていて開始時間に間に合わず、オープニングと楽天市場の発表に間に合わず。。残念でした。
途中からですが、聞いた事まとめ
はてな
ダイアリー 7G
ブックマーク 5G
うごめも 3G
- 1時間毎にHDFSにログを送る
HadoopMapReduceにジョブ投入
- HadoopStreamingを使用
- ジョブの定義はYAMLで設定
- 速度の問題がでてきた
HadoopStreamingの限界
⇒遅い(perlの問題?)
ジョブをkillしても残る場合がある
HDFS操作が遅い
コード量が少なくてすむ
- レスポンス時間の計測
生アクセスログから収集
7GBだと10分で可能
Elastic MapReduceでお手軽Wikipedia マイニング
日本語Wikipedia90満期時ぐらい
- Elastic MapReduce
Amazonの一連のCloudComputingサービスの一つ
Step0:ツールの準備
AWSへの登録
Elastic MapReduce登録
s3sync
elastic-mapreduce
Step1:入力データの準備
Wikipediaデータダウンロード
データを複数のファイルに分割
S3にアップロード
Step2:各ページの被リンク数
Mapper
Reducer
aggregate(Hadoop組み込みのReducer)
Step3:最終稿信念の分布をとってみる
Step4 PageRank計算してみる
アルゴリズム
・初期値を1に設定
・リンク先ページに、自分の重み/リンク数を与える
・自分のページにあたえられた重みを合計
・この2sテップを10回くらい繰り返す
いいところ・わるいところ(elastic-mapreduce)
- いいところ
かんたん
・小規模なジョブならMasterの値段分安い
- 悪いところ
多数のジョブを走らせる事は考えるともったいない
1分マシンを使っても1時間分とられる
ログが見にくい
独自のディスクイメージが使えない
1時間1台0.1ドル=1時間100台1000円←安いのでいいところ
このあとまた仕事でトラブル発生で断片的にしか聞けませんでした・・・
でも、非常に触ってみたいと思いました。とくにはてなのScala on Hadoop。
来週時間つくってやってみよう。