01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
Macintosh(Power Mac 7600/200)で茶筌 version 1.51 (chasen-sys1.51-dic1.5.tar.gz)をダウンロードして解凍したのですがうまく立ち上げることができません。残念ながらマックでは動きません。
技術的には、suffix array で複数ファイルを検索することは可能です(複数ファイルに対して、一つの array ファイルを作成する)。しかし、array ファイルにファイル識別のための付加情報を加える必要があることと複数の検索対象ファイルを同時にオープンをする必要があるので、処理効率があまり期待できないかもしれません。複数ファイルを仮想的な一つのファイルとして扱える機構があれば楽なのですが...
問題: 外部形態素辞書の各語にどのような方針で単語コストを与えたらよいのか?品詞タグ付きコーパスから 品詞連接コストと単語コストを統計的に学習して、 それを使ってコスト最小法の形態素解析をすることを考える。 そのとき、学習に用いた品詞タグ付きコーパスに現れなかった単語で、 外部辞書には存在する単語にどういう単語コストを与えたら良いのだろうか。 一般的には、そのような単語に一様なコスト(つまり同じ値)を与える。 現段階の茶筌IPA文法もそう。
まあ、それはそれでいいんだけど、 実際に形態素解析を行なうと困ったことが起こることがある。 例えば、 「六日市 / 固有名詞」という学習に用いたコーパスには現れていないが外部辞書には存在する単語がある。 ところが、「私は六日市に行く。」という文を形態素解析を行なうと、 第一解では「六日市」が「六 / 数」「日 / 助数詞」「市 / 接尾」に分かれてしまう。 これは学習に用いた品詞タグ付きコーパスで「六 / 数」「日 / 助数詞」「市 / 接尾」 の出現頻度がかなり高かったため、 それらの単語コスト(と品詞連接コスト)の合計が 「六日市」の単語コスト(一様に与えられたコスト)より低くなるためである。
確率モデル的には何の問題もない。 むしろ正常に動作していると言える。 しかし、人間にとっては気に食わない。 「『六日市 / 固有名詞』があるんだからそれを出せ!」と言いたくなる。 新たに単語を登録した場合にも困ることがある。 「なんで俺が登録した単語が解析結果に出てこないんだ!」などなど。
その場しのぎの簡単な解決法: 「六日市」のように外部辞書に登録されていても分割されてしまう語を 見つけてきて(※)、その単語コストをすご〜く下げてしまう。
※外部辞書の単語を形態素解析して分割されてしまうかどうかで調べる。
たつを |