さらに、日経新聞7年分のインデックスを作成開始。 21時間かかる予定。 最終的には7年分のテキスト+インデックスで、5.6ギガバイトになる。 数年前には考えられない贅沢。 ちなみに、ギガとは10億のこと。 5.6ギガバイトはアルファベットが56億個ならんでいるのと同じだけのデータ量。 5.6ギガ秒は約177年。こりゃまいった。
自然言語処理に関する文献の検索
& でAND検索、^ でNOT検索ができるよ。
検索キーの例: 日本語&検索 ^茶筌&形態素&システム 1998&Japanese&^Matsumoto |
隣人のNT氏にたかりに行ったが、既に一杯やった後で酒は無かった。ちっ。もうねる