GREE Labs 第16回 オープンソーステクノロジー勉強会 にいって来ました
http://labs.gree.jp/Top/Study/20081125.htmlにいってきました
メモ書きです、ほとんど資料の板書に近いです。。。
Hadoopの概要と最新の動向
自己紹介
- 太田一樹さん
- http://kzk9.net
- PFI
- http://prferred.jp
- Sedueの開発
- はてぶ検索
Hadoop MapReduce
- Master/Slave
- JobTracker
- Master
- Jobをtakに分割し、MapとReduceのタスクに分割
- tasktruckerにpingをうって監視
HadoopStreaming
- いくつもの言語でmap,reduceプログラムを走らせることができる
国内
その他
- hBaseの位置づけ
- Hadoopで動かない
- 開発は進んでない
- 素のテキストデータで使われる事例が多い
- hive facebookがSQLのようにHadoopを触れるものをリリース
- データ量
- 10Gから20Gを検索したり
- 40Gのindexをlucineだと数十時間
- GFSはfileの追加ができるが、Hadoopは対応してない
- ログは追記では?
- 1G,2Gでログロテート
- v1.9でファイル追記がサポートされた
- MapReduceの事例が多いのでは?
- ストレージの可溶性よりは計算目的?
- 目的としては両方ある
- 現状データ処理目的で使ってる
- ストレージの可溶性よりは計算目的?
- データのリフレッシュタイムはどれくらいが適切?
- 数時間に一回DBからdumpする位の頻度
- 100kbくらいのテキスト処理とかだとオーバーヘッド
- 一台で処理できないデータ量、サイズに有効
HadoopとEC2による、『安くて簡単』大規模データ処理
自己紹介
blogeye
- 日本中にのblogを収集
- 書いている人の年齢、性別、都道府県を推定
- 各属性のキーワードランキングを出す
- http://blogeye.jp/
作ったきっかけ
- DMのアルゴリズムを研究
- 適応対象が必要
- せっかく作ったので公開
データ状況
- blogは500万サイト
- 2億記事
- 60万記事/day
- 200-300GB
AmazonEC2
- 大量のデータを処理するときはおおくのinstanceを借りる
- HadoopからS3を読み書きライブラリあり
- 通常4台 最大80台
著者属性推定
複数jobの扱い
その他
- Amazonnの中でもS3ではなくSipleDB等でもよいかも(10GB制限あり)
質問
- 記事のまとまりを入れる際に
- ファイルはキーと値が羅列された形なので大丈夫?(。。理解できませんでした)
- なぜReduceフェーズを?
- 日付毎のファイルからサイト毎の形式に変換するため
- Reduceを一度にできる
- Reducerは必要なふぁいるがあるかmapper(masterに問い合わせて)HTTPで引っ張ってくる
- 秘密の機械学習
- 単語の頻度で分類
- この単語ああればこの属性というのをReducerで判断
- 文体で判断してる?
- 形容詞の使い方等
- 論文は
- 単語の頻度で分類
- 80台のノードでEC2とS3のバランス
- 300GくらいだったらEC2だけでよくない?
- EC2だとinstanceを落としたらデータが消えてしまうためS3
- 300GくらいだったらEC2だけでよくない?
- いままでAmazonに払った金額
- 40万円/年
- 現在はEC2ではなくて企業からサーバを借りてる
- 環境
- Amazonのinstanceは何を選びました?
- 1年前は一種類しかなかった
- EC2を80台に増やすのは簡単?
- Javaのコマンドで簡単に増やせる
- Hadoopのネガティブな点
- Hadoopのrebootは2回
- クロール処理を1台で行っていた
- 以前は優先度設定ができなかった(
- Reducerの開始をMapperの終了まで待たせるオプションがないこと
- 実用上これがあるといい
- ログが巨大になる
- localdiskを圧迫
- logには重要な情報はない(debug情報とかはあり)
- Hadoopのrebootは2回
- Hadoop,EC2を採択した理由
- 必要な計算力パワーに差があるためEC2
- プログラムを書くのが便利だったのでHadoop