01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
研 究 室 公 開 |
定 例 研 |
N L 研 |
停 電 |
定 例 研 |
3 学 合 同 研 |
定 例 研 |
定 例 研 |
紅 葉 |
モ ノ ポ |
ドカポン | SUFARY | 松本研モノポリー(by KK)
18日未明の流れ星観察を境に、 前半と後半で研究に関する態度がまったく変わってしまいました。 前半は、NL研、合同研、SUFARYリリース、形態素解析関連作業等で、 我ながらかなり働きました。 働きすぎが響いたのか、流れ星観察で体調をくずし、 後半は、一気にペースダウン。 ゲームに熱中したり、一日中コタツでぬくぬくしたりと怠惰な生活でした。 外から見える研究成果は、
大きなお出かけは、NL研@九州と紅葉狩り@談山神社。 20日にゲノム関連で実家に帰る予定だったんだけど、風邪でしんどいのでキャンセル。
普段会わない人に会うというイベントが集中した11月でした。
木曜日から毎日「ポポローグ」。計30時間くらいやってるかな。まだ終わらない。 金曜は松本研定例モノポリー。 5人ゲームを3回やって、1位、3位、2位 と良い成績。 土曜日は月一度の大阪モノポリークラブの例会。 KK,NTと参加。2回やってトップとビリ。 そうそう、モノポリー日本大会に申し込んだよ。1月10日に大阪で予選。
30日、出張で大阪に来た良葉君に会う(彼のホームページ)。 最近はフットサルをやっているそうだ。
今日の写真 | 鳥居 | 集合 | 紅葉 | 達雄 |
結局、表層文字列から未定義語の品詞を推定しているだけ。 数字が連続しているやつは数詞(CD)、 大文字で始まるやつは固有名詞(NNP)か固有名詞複数形(NNPS)。
#!/usr/local/bin/perl while(<>){ s/^([0-9\.\,]+)\tUndefined/$1\tCD/; s/^([A-Z].*s)\tUndefined/$1\tNNPS/; s/^([A-Z].*[^s])\tUndefined/$1\tNNP/; print; }
これで解析精度が 2% up! だんだんあほらしくなってきたぞ・・・
でも、百舌はフィルター主義だから、このような、
普通の英語形態素解析器では内部でやってる言語に特化した作業は
フィルターで実現するのが正しいのだ。
今回のは後処理フィルターだけど、こういうことを前処理で行える枠組を整備する予定。
←これが言いたかっただけ
#なぜか、Perlの先読みアサーションが機能しないよお
今日は久しぶりに長引いた。PM 1:30-5:30。 でも長いからってその分内容が濃くなるってことはないんだよね。 だらだらとやるよりか、きちっと短い時間でやるほうが絶対いい。 でも、世の中、そう思っていない人もいるわけで。
質問することはいいことなんだけど、 それでも他人の時間を食っているわけなんだから、 「これは研究の根本にかかわる問題だから質問せねば」 「この質問は後で個人的にした方がいいな」というように きちんと判断して欲しい。
まあ、 何だか偉そうなことを言ってるけど、 私はだらだら状態になったらとっとと脱出することにしてるからどうでもいいんだけどね。
(この段落は関係者以外には意味不明と思われます)
百舌ユーザーのTK氏により、3-gram がどうもおかしいと指摘され続けてきたので、
デバグせねばと思い立ち、自分でも 3-gram 学習ツールを作りました。
最初は、文脈木で実装していたんだけど、
(1)直観的に分かりにくい(だって順番が逆なんだもん)、
(2)未定義 3-gram へ 2-gram の確率をコピーするという作業が非常に面倒、
という二つの理由によりやめました。
文脈木だとやりやすいなという処理(KL法を使った枝切りとか)は今回はしない。
で、結局サフィックスツリーで実装しました。
実験してみるとどうも結果がおかしい。精度が低すぎる。
そこで、百舌のソースを見てみると、変更作業がやりかけだった。
そこを直すと良い感じの精度。TK氏も 15% 精度が上がったとのこと。
いやあ、無茶苦茶な話ですなあ。
百舌レビュー直後のバージョンがちょっとおかしいだけなので、AM氏の実験は大丈夫だよ、たぶん。
なぜか、アウトサイドの精度が悪いので、学習プログラムの見直しの必要有り。
今日はここまで。
(作業時間:PM 5:30-AM 2:00 途中夕食に1時間弱)
・・・
明日はお出かけです。紅葉を見に行きます。起きれるかなあ。
ここ一二週間働き過ぎたな。来週は作業を縮小しよっと。
夜中研究室に行ったとき、TK氏からバファリンを貰って、頭痛も治りました。
13-14は年に一度の3学合同研究会である。 東工大、JAIST、NAIST の自然言語処理関連の研究室が合同で発表会を 行うという企画で、今年で5年目だったかな。 場所は持ち回りで、私が M1 のときはここ、その次は JAIST、去年が東工大。で今年はひとまわりしてまたここ。 東工大のI助手(我らがU助手と同い年)が九工大に助教授となって移ったので、九工大の若い学生も参加。 実は私も発表者に入っているんだけど、先週のNL研の発表資料をリサイクル。
13日は深夜にモノポリーを一回やったんだけど、懇親会で酔ってたので 全然ダメだった。 14日もモノポリーを一回やったんだけど、酔ってなくても全然ダメ。
今日、やっとこさ、 高速文字列検索ライブラリSUAFRYの最新版(2.1β1)をリリースしました。 いろいろな障害を乗り越えてここまで来れただけに感無量です。 しかし、まだ先は長い。
おお、今日は七五三か。ニュース見るまで全然気が付かなかった。 そう言えば、13日の金曜日も全然気が付かなかった。 まあいいや、どうでも。
非常に作業がやりにくいので、 今週中にSUFARYをリリースするつもりだったけど、来週以降に延期します。 とかいいつつ、こっそり付属アプリ作っている私。
検索ソフト OpenText 5 が来る。ネットワークが元に戻ったら本格的に動かすぞ。 覚悟しとけ!
まあ、停電後には、よくあることなんだけどね。 とか言って済ませられる問題じゃないんだけど。毎度毎度のことでもううんざり。 やっぱ、メールは研究室ローカルマシン宛にしたほうが信頼できるな。 しばらくは、tatuo-y@cl.aist-nara.ac.jpに出してね。
というわけで、環境がいかれているときはゲームに限る。 夕食後は MM氏も参加で「ドカポン」。AM 1時からは TK氏と対決。 「ドカポン」は「ドカっとイッパツ勇者でポン」の略らしい。
・・・現在、AM 3時だけど、いまだに復旧せず( /usr/local/bin/ 見えず)。 もう今日はだめだね。
そんなわけで、 今年から WWWページ に概要がのるようになった。 世の中進歩するもんだ。
なんで突然こんな話をするかというと、 ちょっとした事情で最近のゼミナールの概要が見たかったんだけど、 そのWWWページがどこにあるのかよくわからなかったのだ (昔来たお知らせメールに書いてあったんだけどね)。 なんとか見つけたけど、また探すの面倒なので、ここにメモったというだけのこと。
大学及び寮の停電は日曜日の日中だけなんだけど、 停電に向けてのコンピュータ止め作業が金曜日から行われたため、 週末はコンピュータに向かうことができず、ちょっと手持ちぶさただった。 停電の間、大阪にでも出ようかと計画してたけど、 結局めんどくさくなって断念。相変わらず腰が重い私であった。
NL研発表のため九州に出張。 4日は午後3時に大学を出発して、着いたのは9時頃。 5日は午前中に発表を終えて、午後はお気楽。夜は広島時代の友人に会う。 6日もまじめに発表を聞いて、午後3時頃に向こうを出て、ここに着いたのは9時頃。 新大阪からここまでが遠すぎる! 二時間近くかかるぞ。やっぱバスに頼ってちゃだめなのか・・・。
6日は金曜日だったので、九州から帰って来たその足で研究室によってみると既にモノポリーが始まっていた。 この日は一回だけ参加。7人ゲームで4位。もうちょっとで3位だったのに。
7日、たつをカーに20リットル給油。9月6日以来。 夜はNT宅で、プレステ版「ドカポン」に燃える。
8日、ふとんを冬用(羽毛)に替える。すっかり寒くなったもんね。 前日にひきつづき、「ドカポン」。
(授業科目名) 学際領域特論E(標準化)学際領域特論って講義でゲストを向かえて文字コードの話をするというので、聞きに行った。 文字コードは「固定長 → 可変長 → 破綻」という歴史の繰り返しという話。 非常に興味深く聞かせて頂いた。 自分の興味のある話を聞くのって非常に楽しいね。 それにしても、規格に係わっている人って大変だなあ。
(内容の紹介) 11月9日(月)3、4限には、文字符号の標準化について、(財)国際情 報化協力センター(CICC)主任研究員 佐藤敬幸が講義されます。佐藤さんは、 世界中の文字の標準化、ISO10646, ユニコードなどの最新情報について、わが 国で一番詳しい専門家の一人です。
全文検索システムの評価実験のためのデータの準備。 新聞一年分データ(200M)を分割して、18万個のファイルを作成中。 なかなか終わらない。さすがにちょっと無茶かなあ。
というわけで、すっかり余裕かまして、酒なぞ飲む。 やっぱビールはエビス。 それにしても何だこの梅酒は。弱すぎ。 解説を読むと「梅酒のおいしさをそのままに甘さとアルコール分を控え、カロリーを30%カットし飲みやすく仕上げました」とのこと。 何日かかけて、ちびちび飲もむという当初の目論見ははずれ、簡単になくなる。
九州に行くのはいいけど、戻った後に控える作業が何だかたくさんあるのが気になる。 早く後継者を育てないと大変な状態。 それともGNU路線か?
これに合わせて、我らが奈良先端科学技術大学院大学ではオープンキャンパスを やっています。で、私は見学に来た方々にデモをお見せしていたわけです。 でも、当研究室は自然言語処理という地味なことやっているので、 本当に興味のある人以外、来ても全然おもしろくないし、良く分からないと思う。 入学希望者には得られる情報はあるだろうけど、 お祭り帰りの人はバーチャルリアリティとかロボットとかやってる 分かりやすい研究室に見学にいった方か楽しいし為になると思いますよ。 各研究室のデモを「子供にも楽しめる」「玄人向け」「数学知識が必要」 といった感じで分類して見学者が参考にできるような仕組みがあると我々も見学者も幸せなんだけどな。
ここ数年はお祭り帰りに間違って当研究室に迷い込んでしまう人が多かったけど、 今年はそれほど多くなかった。 多分、お祭り会場が去年の空き地より遠くにある空き地だったからだと、 デモの合間にお祭り会場に行ってみて感じた。
たつを |