今日は久しぶりに長引いた。PM 1:30-5:30。 でも長いからってその分内容が濃くなるってことはないんだよね。 だらだらとやるよりか、きちっと短い時間でやるほうが絶対いい。 でも、世の中、そう思っていない人もいるわけで。
質問することはいいことなんだけど、 それでも他人の時間を食っているわけなんだから、 「これは研究の根本にかかわる問題だから質問せねば」 「この質問は後で個人的にした方がいいな」というように きちんと判断して欲しい。
まあ、 何だか偉そうなことを言ってるけど、 私はだらだら状態になったらとっとと脱出することにしてるからどうでもいいんだけどね。
(この段落は関係者以外には意味不明と思われます)
百舌ユーザーのTK氏により、3-gram がどうもおかしいと指摘され続けてきたので、
デバグせねばと思い立ち、自分でも 3-gram 学習ツールを作りました。
最初は、文脈木で実装していたんだけど、
(1)直観的に分かりにくい(だって順番が逆なんだもん)、
(2)未定義 3-gram へ 2-gram の確率をコピーするという作業が非常に面倒、
という二つの理由によりやめました。
文脈木だとやりやすいなという処理(KL法を使った枝切りとか)は今回はしない。
で、結局サフィックスツリーで実装しました。
実験してみるとどうも結果がおかしい。精度が低すぎる。
そこで、百舌のソースを見てみると、変更作業がやりかけだった。
そこを直すと良い感じの精度。TK氏も 15% 精度が上がったとのこと。
いやあ、無茶苦茶な話ですなあ。
百舌レビュー直後のバージョンがちょっとおかしいだけなので、AM氏の実験は大丈夫だよ、たぶん。
なぜか、アウトサイドの精度が悪いので、学習プログラムの見直しの必要有り。
今日はここまで。
(作業時間:PM 5:30-AM 2:00 途中夕食に1時間弱)
・・・
明日はお出かけです。紅葉を見に行きます。起きれるかなあ。