Solr勉強会に行ってきました[solr][ecnavi][mapion][recruit]
Solr勉強会に行ってきました。
ECナビさんの事例の最後の質問付近から参加させていただきました。
Solr(ソーラー)
各事例紹介
ECNavi
- parasearch商用サーチエンジンを使っている
- ECTokenizerという独自Tokenizerで型番等のゆれを吸収している
- WebServer pound
リクルート
- スピーカー
- 某サイト (新作hotpepper?がSolrつかってる?)
- 25-280QPS
- ドキュメント150万
- 10分間隔で差分更新
- Fastじゃなくて大丈夫?
- Solrは5台,LBで負荷分散
- 更新は全台
- 大規模サイトの場合は5台+スタンバイ5台
- 開発どうするのか?
- Solrをどう使っているか?
- Solrの売り込み
- フリーワード検索
- ファセット
- 今後展開
- Solr UIレベルの研究開発
- ほぼ、リアルタイム検索
- 質問
マピオン
- スピーカー
- つかっているところ
- 緯度経度周辺検索
- フリーワード検索
- Solr導入の理由
- Spec
- 1MQuery/day
- 30% 地図名
- 70% フリーワード
- 電話帳
- 9M
- ランドマーク、住所
- 0.4M
- 1MQuery/day
- データ更新
- 電話帳は差分更新
- 一日2回
- 20時間かかる
- 他のデータと結びつける
- それ以外は更新頻度に応じて
- 電話帳は差分更新
- 構成図
- index x 1
- search x 8
- shards x 3
- Mapion 拡張
- Tokenizer
- 形態素解析とのハイブリッド方式で精度を上げたい
- 質問
- 1box検索で地名みたいなキーワードがあったらどうする?(店名に場所とか駅名があったら)
- 位置的なクエリかどうかを判定している
- 駅とか、住所とか、スポットとか
- ひとつを住所として判断することもできるが、大手町とカフェだったら"大手町"を住所として周辺検索することも可能
- 東京の大手町と判断しちゃって良い?
- Tokenizerハイブリッドのアイデア
- まだありません
ジオコーダーの話(LT)
EC2+OpenSocial+Android(LT)
Solr@twitter検索(LT)
- スピーカー
- 兼山さん
- http://pcod.noip.or/yats/
- 3億のつぶやきを収集
- 日本語ユーザの5500万つぶやきを検索
- 60秒でindex
- 50万pv/月
- 250万query
- 日付でソート
- 更新頻度たかい
- インデックス更新にかかる時間を得荒らす
- 同じquery
- キャッシュ
- queryの重さが均一じゃない
- 重いクエリをはじく
- linkedin ゾーイを使う
- 更新専用のSolrを作る
一日分 | 40万 | 100秒 | 数秒 |
一ヶ月 | 1000万 | 12時間 | 数十秒 |
Solr+SSD(LT)
- スピーカー
- 春山さん