RubyKaigi 2日目[ruby][rubykaigi]

Ruby会議2日目に行ってきました

スピーカー
- 増田創さん
What's fairy?
- 分散処理を簡単にするミドルウェア
- ネットワーク環境を意識しない
- 複数サーバーに散らばったデータを高速処理
- Ruby実装
- 汎用性が高いMap/Reduce以上の柔軟にプログラムが書ける
- Rubyならではの生産性の高さ
なぜ分散処理?
- 大規模なデータを効率的に処理、分析できる企業が勝ち組となる
MapReduceとは？
- オリジナルはグーグル
- Map
  - 入力データ->キーと値に分ける
- Reduce
  - 同じキーで値をまとめたり?
- 上記を複数サーバで
fairy同様な他の実装
- starfish
- hadoop
現状ステータス
- 楽天社内ではα版
- 本番投入はしてない
- バッチ処理に試験投入
- パフォーマンスに課題
fairy詳細
- Filter I/F
  - inputでデータを読み出し
  - filterで数珠繋ぎ
- fairyのノードホストのローカルディスクに分散配置.vfファイル
build in filter
- zip
- shuffle
- join
  - SQLのjoin風
- ROMA(楽天が作っているkey-value strage)連携機能
生産性
- 13倍高速化
- 1ヶ月つくっていたのが2.5日で実装できた
- サーバ6台
パフォーマンス
- filterが数珠繋ぎなのでそこでコストが高くなっている
- filterを追加すると想定以上に遅くなっている

スピーカー
- 石塚圭樹さん
  - Ruby名づけ親
  - Ruby開発のきっかけを作った人
  - irb作者
DeepConnectとは
- 分散オブジェクトシステムを実現するためのフレームワーク
- fairyで採用
DeepConnectってなにしてくれるの？
- ネットワーク越し、または、別プロセス空間上のオブジェクトに対して、
  - メッセージを送ったりその結果を得ることが出来る
  - drbの親戚
DeepConnect server

dc = DeepConnect::start(port)
dc.export("name",obj)

dc = DeepConnect::start(port)
ds = dc.open_deepspace
obj = deepspace.import("name")

def basic_seach(&block)
	@map_proc =  BBlock.new
	#inputの実態がどこにあるか意識しない?
	@input.each do |e|
		block.call @map_proc.yield(e)
	end
end

Future型
分散GC
- 参照されているものはGC対象外
- GCはリファレンスカウント方式
- 全てRubyで実装
ShallowConnectモード
- DeepConnectは、接続先にたいしてどんなメソッドも呼び出せてしまう
- CORBA IDL的に指定可能
  - I/F宣言されたメソッドだけを利用可能
実績
- fairyで採用
- fairyローカル版->fairy分散版への実装修正は5%くらい
  - ローカルで動いていようがネットワーク分散環境で動いていようが関係ない！
注意事項
- あまりにも分散を無意識に出来てしまう
  - 構文上ローカルで動いているものと同じでもネットワークコストを意識しないといけない
- Arrayも参照渡し
- パフォーマンス
予定
- 使ってみたい方は石塚さんにメールを
- fairyがopensource化されるころには。。。

my.cnf

[mysqld]
log-slow-queries
long_query_time=1