たつをの日記 - 1998年5月8日

ビデオの修理
一月前から調子の悪かったビデオデッキだが(4/15を参照)、今日やっとこさニノミヤに修理に持って行った。

今日の作業
百舌 --- 低レベルな自然言語処理のためのライブラリ
形態素解析システム「茶筌」のフォーマットの辞書を百舌で使いやすい形式に変換する作業。 百舌では活用語尾処理の規格化はあとまわし(またはやらない)なので、 現段階では活用語を全て展開して登録することにする。 まず S式を解釈するPerlプログラム(971006作成)と文法/活用ファイル読み込みプログラム(ViCha用)を引っ張り出してきて整備する。 NT氏が perl-lisp なるモジュールを見つけてきたが、たかが「茶筌」のS式を扱うにはオーバースペックなので今回は採用せず。(at ~nltools/lib/perl/...)
品詞タグ付きコーパスからパラメータを学習するためのツールを 百舌に合わせるために書き直す(確率計算と出力)。
ううむ、疲れた。今日はこれまで(AM 3:05)。
Namazu
全文検索システム Namazu をコンパイルして使ってみる。 kakasiか「茶筌」を使ってインデキシングができるんだけど、ここは当然「茶筌」。 むむむ、単語分割情報しか利用していないので「茶筌」ではオーバースペックだな。 ここはやっぱり軽い「百舌」か。
こういう転置インデックスな検索システムは用途を考えたら SUFARY とは競合しないな。
  • 転置インデックスな検索システム → ファイル(URL)を探すことに特化
  • Suffix array (SUFARY) → ファイル内の任意の文字列を探すことに特化