たつをの日記 - 1998年9月7日

学校に来るとき、そこの丘で、たくさんのトンボを見た。もう秋か。

捨て身のステミング
TK氏と秋合宿に向けての作業。 電子辞書から語彙補充と原形情報抽出(stemmingに使用)を行う。 WWWから不規則活用表を入手し、情報を補完。 コーパスからの学習部分はもうできているので、 これで英語形態素解析はほぼ完成。 あとは文書化と解析精度を調べる作業が残っている。 それとデバグね。

[stemming] 単語の語幹を取り出す処理。 まあ、元の形に戻す処理です。 例えば、 "paging"→"page", "wrote"→"write", "wishes"→"wish", "best"→"good" など。