たつをの日記 - 1998年5月8日
- ビデオの修理
- 一月前から調子の悪かったビデオデッキだが(4/15を参照)、今日やっとこさニノミヤに修理に持って行った。
- 今日の作業
-
- 百舌 --- 低レベルな自然言語処理のためのライブラリ
- 形態素解析システム「茶筌」のフォーマットの辞書を百舌で使いやすい形式に変換する作業。
百舌では活用語尾処理の規格化はあとまわし(またはやらない)なので、
現段階では活用語を全て展開して登録することにする。
まず
S式を解釈するPerlプログラム(971006作成)と文法/活用ファイル読み込みプログラム(ViCha用)を引っ張り出してきて整備する。
NT氏が perl-lisp なるモジュールを見つけてきたが、たかが「茶筌」のS式を扱うにはオーバースペックなので今回は採用せず。(at ~nltools/lib/perl/...)
品詞タグ付きコーパスからパラメータを学習するためのツールを
百舌に合わせるために書き直す(確率計算と出力)。
ううむ、疲れた。今日はこれまで(AM 3:05)。
- Namazu
- 全文検索システム Namazu をコンパイルして使ってみる。
kakasiか「茶筌」を使ってインデキシングができるんだけど、ここは当然「茶筌」。
むむむ、単語分割情報しか利用していないので「茶筌」ではオーバースペックだな。
ここはやっぱり軽い「百舌」か。
こういう転置インデックスな検索システムは用途を考えたら
SUFARY とは競合しないな。
- 転置インデックスな検索システム → ファイル(URL)を探すことに特化
- Suffix array (SUFARY) → ファイル内の任意の文字列を探すことに特化