今日の写真 | 鳥居 | 集合 | 紅葉 | 達雄 |
結局、表層文字列から未定義語の品詞を推定しているだけ。 数字が連続しているやつは数詞(CD)、 大文字で始まるやつは固有名詞(NNP)か固有名詞複数形(NNPS)。
#!/usr/local/bin/perl while(<>){ s/^([0-9\.\,]+)\tUndefined/$1\tCD/; s/^([A-Z].*s)\tUndefined/$1\tNNPS/; s/^([A-Z].*[^s])\tUndefined/$1\tNNP/; print; }
これで解析精度が 2% up! だんだんあほらしくなってきたぞ・・・
でも、百舌はフィルター主義だから、このような、
普通の英語形態素解析器では内部でやってる言語に特化した作業は
フィルターで実現するのが正しいのだ。
今回のは後処理フィルターだけど、こういうことを前処理で行える枠組を整備する予定。
←これが言いたかっただけ
#なぜか、Perlの先読みアサーションが機能しないよお