TK氏と秋合宿に向けての作業。
電子辞書から語彙補充と原形情報抽出(stemmingに使用)を行う。
WWWから不規則活用表を入手し、情報を補完。
コーパスからの学習部分はもうできているので、
これで英語形態素解析はほぼ完成。
あとは文書化と解析精度を調べる作業が残っている。
それとデバグね。
[stemming] 単語の語幹を取り出す処理。
まあ、元の形に戻す処理です。
例えば、
"paging"→"page", "wrote"→"write", "wishes"→"wish", "best"→"good" など。