- eBay、毎日1000エクサバイトの情報を処理している。だから、リーマンショックでも売上が落ちなかった。
- 企業のシステム投資でもサーバーとストレージの割合が変化しており、年々ストレージの割合が高くなっている。
- TSUBAKI++は、検索に時間が掛かるが、WHYサーチとしては世界初なのではないか。このようなレスポンスの遅いサービスでもマネタイズの仕組みが必要。
松本先生のお話(領域2)
- 手間を考えれば、クラスターは共通で作るべきだった。
- 現在、inTriggerでは、2200CPU
- inTriggerでTsubameとの連携が可能。
TSUBAMEについて
- 以前は、 HDDアクセス<<<ネットワークアクセスだったが、SSDなどの登場によりそうでもない状況になってきた。
- Metaデータサーバーのアクセスの局所性を利用して早くしていくしかない。
TSUBAKI, TSUBAKI++について
- 日本語の文書1億件が検索対象
- InTriggerにこれから載せる。
- MS Azureの上にCygwinを載せて、その上で動かしている。
- 形態素解析→構造解析→同義語解析→上下関係のフレームワーク などが実装されている。
- 隠語を探す研究
- 根拠を探す研究
- 以外でありながら重要なことを探す研究
パネルディスカッション
- データが主役というプロジェクトのテーマの選び方は、5年前に考え出されたテーマとしては素晴らしかった。まさに時代を先どっていた。
- 学者立ちはどうしても、個々でシステムを組みたがる。それを、防ぐために支援班を作ったこともよく考えられていた。
- if else で書けないもののに対する研究が欠けていたのではないか?スパコンを使っても、ショウジョウバエの脳のシミュレーションすらできない。