昨日のつづき。
英語形態素解析システムの解析精度の評価。
「品詞タグ付きコーパス」と「元の英文」を使いやすいフォーマットに変換するツールの作成から始める。
そしてとりあえずインサイドデータで評価すると<極秘事項ゆえ削除>。
特に処理をしていないので isn't, doesn't, hasn't 系のエラーと固有名詞のエラーが目立つ。
まあ手を入れればなんとかなるでしょう。
n't 問題は Apple Pie Parser みたいに辞書エントリに isn't とかそのまま入れちゃえばOK。
固有名詞問題に関しては大文字小文字処理を付け加えてみようかなってとこ。
それにしても毎度のことながら不条理エラーにはまいるなあ。
PENN TREE BANK は本当に正しいのか?
解析例:
He 2500 31 31 [PRP]
had 2371 33 33 [VBD BF:have]
been 2093 42 42 [VBN BF:be]
a 1207 44 44 [DT]
sales 3466 27 27 [NNS BF:sale]
and 330 21 21 [CC]
...