2011年4月30日土曜日

情報爆発 成果報告会 2日目 2011/3/10

喜連川先生のお話(領域1)
  • eBay、毎日1000エクサバイトの情報を処理している。だから、リーマンショックでも売上が落ちなかった。
  • 企業のシステム投資でもサーバーとストレージの割合が変化しており、年々ストレージの割合が高くなっている。
  •  TSUBAKI++は、検索に時間が掛かるが、WHYサーチとしては世界初なのではないか。このようなレスポンスの遅いサービスでもマネタイズの仕組みが必要。

松本先生のお話(領域2)
  •  手間を考えれば、クラスターは共通で作るべきだった。
  • 現在、inTriggerでは、2200CPU
  • inTriggerでTsubameとの連携が可能。

TSUBAMEについて
  • 以前は、 HDDアクセス<<<ネットワークアクセスだったが、SSDなどの登場によりそうでもない状況になってきた。
  • Metaデータサーバーのアクセスの局所性を利用して早くしていくしかない。

TSUBAKI, TSUBAKI++について
  • 日本語の文書1億件が検索対象
  •  InTriggerにこれから載せる。
  • MS Azureの上にCygwinを載せて、その上で動かしている。
  • 形態素解析→構造解析→同義語解析→上下関係のフレームワーク などが実装されている。
その他、言語処理関係
  • 隠語を探す研究
  • 根拠を探す研究
  • 以外でありながら重要なことを探す研究


パネルディスカッション 
  • データが主役というプロジェクトのテーマの選び方は、5年前に考え出されたテーマとしては素晴らしかった。まさに時代を先どっていた。
  •  学者立ちはどうしても、個々でシステムを組みたがる。それを、防ぐために支援班を作ったこともよく考えられていた。
  • if else で書けないもののに対する研究が欠けていたのではないか?スパコンを使っても、ショウジョウバエの脳のシミュレーションすらできない。 

0 件のコメント: