たつをの日記 - 1998年5月5日

サンフレッチェ広島

中国新聞のサンフレッチェ情報。

採算ラインは一試合1万5千人とのこと。
最近ビッグアーチでなく広島スタジアムで試合をしている。広くてがらがらより狭くて満員の方が雰囲気良いからかなとか思ってたんだけど(4/25)、どうやらビッグアーチが改修中だかららしい。

今日はぼろ負け...

今日のお出かけ

若草山に登りました(写真：若草山からの展望)。雨に降られました。ちぇっ

今日の作業

DIDプロジェクト

問題：外部形態素辞書の各語にどのような方針で単語コストを与えたらよいのか？

品詞タグ付きコーパスから品詞連接コストと単語コストを統計的に学習して、それを使ってコスト最小法の形態素解析をすることを考える。そのとき、学習に用いた品詞タグ付きコーパスに現れなかった単語で、外部辞書には存在する単語にどういう単語コストを与えたら良いのだろうか。一般的には、そのような単語に一様なコスト(つまり同じ値)を与える。現段階の茶筌IPA文法もそう。

まあ、それはそれでいいんだけど、実際に形態素解析を行なうと困ったことが起こることがある。例えば、「六日市 / 固有名詞」という学習に用いたコーパスには現れていないが外部辞書には存在する単語がある。ところが、「私は六日市に行く。」という文を形態素解析を行なうと、第一解では「六日市」が「六 / 数」「日 / 助数詞」「市 / 接尾」に分かれてしまう。これは学習に用いた品詞タグ付きコーパスで「六 / 数」「日 / 助数詞」「市 / 接尾」の出現頻度がかなり高かったため、それらの単語コスト(と品詞連接コスト)の合計が「六日市」の単語コスト(一様に与えられたコスト)より低くなるためである。

確率モデル的には何の問題もない。むしろ正常に動作していると言える。しかし、人間にとっては気に食わない。「『六日市 / 固有名詞』があるんだからそれを出せ！」と言いたくなる。新たに単語を登録した場合にも困ることがある。「なんで俺が登録した単語が解析結果に出てこないんだ！」などなど。

その場しのぎの簡単な解決法：「六日市」のように外部辞書に登録されていても分割されてしまう語を見つけてきて(※)、その単語コストをすご～く下げてしまう。
※外部辞書の単語を形態素解析して分割されてしまうかどうかで調べる。

たつをの日記 > 1998年5月 > 5日 [前の記事] [次の記事]