たつをの日記 - 1998年4月7日
- 今日のお出かけ
- 市役所に軽自動車の納税証明書を取りにいく。
証明書って言っても学校のプリンターで打ち出したみたいな感じで、印鑑があるだけ。
無料だった。
和食「さと」で日替り定食(580円,平日3時まで)。
帰りに四季の森公園に余ったら桜が満開だった。でも散り始めてるのもあった。
カメラ持ってきゃよかった。
親知らずを抜いたあとに飲んでいた薬も終わったので、禁酒終了。サカエでビールを買う。
夕食はマクド。
- 今日の作業
- [茶漉] chakosi.perlで、
複合名詞にマッチする正規表現をオートマトンに変換して照合に使おうと思ったが、
アルゴリズムの本など見てみるとちょっと面倒そう。
でも、そもそもPerlでプログラム組んでるんだから、Perlの正規表現機能を使ってしまえばいいんだよね。
やってみたら、非常に簡単に実装できた。すごいぞPerl。
- 接尾問題について
- 接尾問題とは、簡単に言うと、形態素辞書に含まれている単語で、
名詞だか接尾辞だか良く分からないやつをどうしたらいいのかなという問題。
接尾辞は接辞の一種で、
接辞とは「単独で用いられることがなく、他の語に付いて、その語の意味または用法を加えたり変えたりするもの。(広辞苑)」とのこと。
例えば、「部(ぶ)」について考えてみると、
「報道部」「帰宅部」とかみると接尾辞かなと思えるんだけど、
「その部では朝から...」「部の内部に...」など単独でも使うから名詞かなとも思えたりして、もうなんだか良く分かんない。
でも、
名詞の「部(ぶ)」、接尾辞の「部(ぶ)」をそれぞれ辞書に登録しとけば問題ないように思える。
実際、今公開されている茶筌の辞書に登録されているんだけどね。
しかし、形態素解析の曖昧性が増すので嬉しくない。
「報道部」の「部」を接尾辞じゃなくて名詞に間違えたり、
「その部では」の「部」を名詞じゃなくて接尾辞に間違えたりする可能性がでてくるんだよね。
いや、ちょっと待った。
そもそも定義に「単独で用いられることがなく」ってあるんだから、
「部(ぶ)」は名詞に決ってらあ。接尾辞なわけないやい。うん、そうそう。
という方針で、
1997年の秋に名詞と接尾辞の両方に登録されている語の整理をやったんだよね。
(名詞の「部(ぶ)」と接尾辞の「部(ぶ)」を全く別の語とみなす考え方とは一線を画す。)
で、この「接尾問題」に関して、EDRから資料が来たので読んでみた。
コーパスの事例をもとに、接辞の整理をやっている。
ちゃんと資料にまとめてるもんな。うーん、さすがプロ。
でも分類結果は同じような感じだった。
この結果を参考にこっちの結果を見直すかな。
異なるのは連濁に関する方針。
EDRでは「者(シャ)」と「者(ジャ)」を別々のものとみなしているが、
こっちでは「者(シャ)」に統一しちゃおうかなって感じ。
だって曖昧性ふえるだけだもん。連濁は後処理でやって欲しいところ。