たつをの日記 - 1998年11月25日

紅葉を見に行く
MM,TK,私の三人で談山神社に行きました。 10:30頃出発。車はみつたカー。 ちょっと緑が多めの紅葉でした。 おみくじ引いたら大吉。「天の御助けを受け諸々の災去りて喜びあり」 ありがたや、ありがたや。 どうも石垣がお城っぽいと思ったら、昔は3000人も僧兵がいた一大要塞だったらしい。 裏山に登るとTK氏へろへろ。

今日の写真 鳥居 集合 紅葉 達雄

なんとホームページまであるぞ。

今日の作業
(警告:関係者以外意味不明です) 英語の形態素解析なんだけどね、 アウトサイドのデータで学習すると解析結果に未定義語がたくさん出てきて 精度が悪くなるわけだ。当り前のことだけど。 そこでこのインチキフィルター(仮名)が登場するのだ。
#!/usr/local/bin/perl
while(<>){
    s/^([0-9\.\,]+)\tUndefined/$1\tCD/;
    s/^([A-Z].*s)\tUndefined/$1\tNNPS/;
    s/^([A-Z].*[^s])\tUndefined/$1\tNNP/;
    print;
}
結局、表層文字列から未定義語の品詞を推定しているだけ。 数字が連続しているやつは数詞(CD)、 大文字で始まるやつは固有名詞(NNP)か固有名詞複数形(NNPS)。

これで解析精度が 2% up! だんだんあほらしくなってきたぞ・・・

でも、百舌はフィルター主義だから、このような、 普通の英語形態素解析器では内部でやってる言語に特化した作業は フィルターで実現するのが正しいのだ。 今回のは後処理フィルターだけど、こういうことを前処理で行える枠組を整備する予定。 ←これが言いたかっただけ
#なぜか、Perlの先読みアサーションが機能しないよお