たつをの日記
1998年11月

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30






















先月の日記 | 日記一覧 | 来月の日記


今月の関連リンク
ドカポン | SUFARY | 松本研モノポリー(by KK)

11/30(月)
★今月のまとめ
今月から、月末に「今月のまとめ」をすることにしました。

18日未明の流れ星観察を境に、 前半と後半で研究に関する態度がまったく変わってしまいました。 前半は、NL研、合同研、SUFARYリリース、形態素解析関連作業等で、 我ながらかなり働きました。 働きすぎが響いたのか、流れ星観察で体調をくずし、 後半は、一気にペースダウン。 ゲームに熱中したり、一日中コタツでぬくぬくしたりと怠惰な生活でした。 外から見える研究成果は、

といったところです。 予定通り実施できなかったSUFARYとOT5との比較実験は12月前半の課題。 11月スタート予定だった「自然言語処理のためのPerl講座」も持ち越し。

大きなお出かけは、NL研@九州と紅葉狩り@談山神社。 20日にゲノム関連で実家に帰る予定だったんだけど、風邪でしんどいのでキャンセル。

普段会わない人に会うというイベントが集中した11月でした。

★ここ最近のできごと
25日を最後に、いっさいの研究・作業を行っておりません。 明日からぼちぼち再開します。

木曜日から毎日「ポポローグ」。計30時間くらいやってるかな。まだ終わらない。 金曜は松本研定例モノポリー。 5人ゲームを3回やって、1位、3位、2位 と良い成績。 土曜日は月一度の大阪モノポリークラブの例会。 KK,NTと参加。2回やってトップとビリ。 そうそう、モノポリー日本大会に申し込んだよ。1月10日に大阪で予選。

30日、出張で大阪に来た良葉君に会う(彼のホームページ)。 最近はフットサルをやっているそうだ。


11/26(木)
★ポポローグ
プレイステーションのロールプレイングゲーム。 今日発売なのでさっそくコンビニで買ってきた。 「ポポロクロイス物語」という非常に出来の良いゲームがあって、 誰彼となく勧めているんだけど、 「ポポローグ」はそれの続編。 非常にストレスの少ないゲーム進行はあいかわらず。 しばらくは研究どころではありません。 あしからず。

11/25(水)
★紅葉を見に行く
MM,TK,私の三人で談山神社に行きました。 10:30頃出発。車はみつたカー。 ちょっと緑が多めの紅葉でした。 おみくじ引いたら大吉。「天の御助けを受け諸々の災去りて喜びあり」 ありがたや、ありがたや。 どうも石垣がお城っぽいと思ったら、昔は3000人も僧兵がいた一大要塞だったらしい。 裏山に登るとTK氏へろへろ。

今日の写真 鳥居 集合 紅葉 達雄

なんとホームページまであるぞ。

★今日の作業
(警告:関係者以外意味不明です) 英語の形態素解析なんだけどね、 アウトサイドのデータで学習すると解析結果に未定義語がたくさん出てきて 精度が悪くなるわけだ。当り前のことだけど。 そこでこのインチキフィルター(仮名)が登場するのだ。
#!/usr/local/bin/perl
while(<>){
    s/^([0-9\.\,]+)\tUndefined/$1\tCD/;
    s/^([A-Z].*s)\tUndefined/$1\tNNPS/;
    s/^([A-Z].*[^s])\tUndefined/$1\tNNP/;
    print;
}
結局、表層文字列から未定義語の品詞を推定しているだけ。 数字が連続しているやつは数詞(CD)、 大文字で始まるやつは固有名詞(NNP)か固有名詞複数形(NNPS)。

これで解析精度が 2% up! だんだんあほらしくなってきたぞ・・・

でも、百舌はフィルター主義だから、このような、 普通の英語形態素解析器では内部でやってる言語に特化した作業は フィルターで実現するのが正しいのだ。 今回のは後処理フィルターだけど、こういうことを前処理で行える枠組を整備する予定。 ←これが言いたかっただけ
#なぜか、Perlの先読みアサーションが機能しないよお


11/24(火)
★定例研究会
M2の中間報告。 みんな、些細なことに突っ込むのはやめよう。時間の無駄だよ。 そういう本質的ではないことは、休憩時間にでも話せばいいのに。

今日は久しぶりに長引いた。PM 1:30-5:30。 でも長いからってその分内容が濃くなるってことはないんだよね。 だらだらとやるよりか、きちっと短い時間でやるほうが絶対いい。 でも、世の中、そう思っていない人もいるわけで。

質問することはいいことなんだけど、 それでも他人の時間を食っているわけなんだから、 「これは研究の根本にかかわる問題だから質問せねば」 「この質問は後で個人的にした方がいいな」というように きちんと判断して欲しい。

まあ、 何だか偉そうなことを言ってるけど、 私はだらだら状態になったらとっとと脱出することにしてるからどうでもいいんだけどね。

★今日の作業
久しぶりに形態素解析がらみの作業をしてみました。

(この段落は関係者以外には意味不明と思われます) 百舌ユーザーのTK氏により、3-gram がどうもおかしいと指摘され続けてきたので、 デバグせねばと思い立ち、自分でも 3-gram 学習ツールを作りました。 最初は、文脈木で実装していたんだけど、 (1)直観的に分かりにくい(だって順番が逆なんだもん)、 (2)未定義 3-gram へ 2-gram の確率をコピーするという作業が非常に面倒、 という二つの理由によりやめました。 文脈木だとやりやすいなという処理(KL法を使った枝切りとか)は今回はしない。 で、結局サフィックスツリーで実装しました。 実験してみるとどうも結果がおかしい。精度が低すぎる。 そこで、百舌のソースを見てみると、変更作業がやりかけだった。 そこを直すと良い感じの精度。TK氏も 15% 精度が上がったとのこと。 いやあ、無茶苦茶な話ですなあ。 百舌レビュー直後のバージョンがちょっとおかしいだけなので、AM氏の実験は大丈夫だよ、たぶん。 なぜか、アウトサイドの精度が悪いので、学習プログラムの見直しの必要有り。 今日はここまで。
(作業時間:PM 5:30-AM 2:00 途中夕食に1時間弱)

・・・

明日はお出かけです。紅葉を見に行きます。起きれるかなあ。

★ザ・カクテルバー
サカエ(スーパー)のワゴンで安売りだったので、買ってみました。 とは言っても、一二割しか安くなってないんだけどね。 モスコミュールとラム&コーラ。選んだ基準は「合成着色料が入っていない(^^)」。 二本とも一瞬にして飲み干しちゃった。ビールにしときゃ良かった。

11/21(土)
★休養
ぬくぬく、ごろごろ。

ここ一二週間働き過ぎたな。来週は作業を縮小しよっと。


11/20(金)
★かぜ続報
しんどいので、東京行きは止めました。 コタツを出して一日中ごろごろしていたら、風邪自体はたいぶ良くなったみたい。 でも今度は頭痛に悩まされています。

夜中研究室に行ったとき、TK氏からバファリンを貰って、頭痛も治りました。


11/19(木)
★かぜ
ちょっと風邪気味です。やっぱり、流れ星観察が効いたのかな。 鼻と目がつらいです。

11/18(水)
★電子ブロック
欲しい!欲しい!欲しい!

★寒い
家で作業しているんですけど、何だか非常に寒いです。 手がかじかんで、キーが打ちにくいです。 そろそろコタツが必要ですが、いろいろ準備が大変なんだな。 しかたないので、エアコンの暖房を使ってます。 でもこれって部屋の上しかあたたかくならないからあまり嬉しくない。 やっぱ日本人はコタツだね。

11/17(火)
★今日のリンク
オープンソースやライセンスとかについて

★流れ星
ちょっと曇気味だったけど、20個くらい見れたかな。 寒いからって酒飲みすぎて見逃しまくり。

11/16(月)
★時間
書く時間が欲しい(日記の話じゃないよ)。いくらあっても足りないぞ。 読む時間も欲しい。最近、ぜんぜん論文とかに目を通してないからなあ。 こりゃやばい。 でも論文読む気力があったら、プログラム作成してしまいたいし。

★東京ゲノム
忙しいときほど、用事が湧いてくる。 20日に、ゲノム論文の解析関連で、東大に行くことになりました。 でもすぐ帰ってくる予定。 私としては百舌でゲノム論文(英語)の形態素解析、未定義語の推定、 くらいのことしか考えられないというかネタが無い状態なんだけどね。

★百舌レビュー
今日、A707で形態素解析システム百舌の仕組みについての説明会を行いました。 百舌は単純至上主義思想(超手抜き主義ともいう)により実装されていますが、 やっぱり仕組みについては文書にしとかなきゃ、 いつまでもブラックボックスのままになってしまう。 最近、いじってなかったので自分でも謎な部分があるし。 単純な設計のプログラムと それだけあればプログラムが作成できてしまうような詳細な解説文書という組合せが私の目指す所なのであります。 でも文書化するのはプログラムを作るより数倍の手間と時間がかかると言われています。 まったくその通り。 しかし、これを怠ると、ゴミプログラムを乱造するだけの人間になってしまいそうなので、まあ、がんばっているわけです。 要するに、ViCha の教訓を活かしたいということです。

★しし座流星群
11月18日未明に流れ星、っと。忘れないようにしなきゃ。

11/15(日)
★ここ数日をふりかえる
13日になって、全学ネットワークの不調の嵐はどうやらおさまったらしい。やれやれ。

13-14は年に一度の3学合同研究会である。 東工大、JAIST、NAIST の自然言語処理関連の研究室が合同で発表会を 行うという企画で、今年で5年目だったかな。 場所は持ち回りで、私が M1 のときはここ、その次は JAIST、去年が東工大。で今年はひとまわりしてまたここ。 東工大のI助手(我らがU助手と同い年)が九工大に助教授となって移ったので、九工大の若い学生も参加。 実は私も発表者に入っているんだけど、先週のNL研の発表資料をリサイクル。

11月13日(金)
1:00-2:00
橋本泰一 (東工大) : 構造付きコーパスからの統語的知識の自動獲得とその精密化
2:00-3:00
山田貴章 (北陸先端大):受け手と目的に応じた臨床検査データ説明文生成技術の研究
3:00-3:20 休憩
3:20-4:20
山下達雄,浅原正幸,藤尾正和 (奈良先端大): 形態素解析と文節区切り
4:20-5:20
松本 晃 (東工大): コンプリメントタームを用いた情報検索
5:20-6:20 松本研究室見学 (A706)
6:30- 懇親会 (A707)
1月14日(土)
10:00-11:00
近藤恵子 (北陸先端大):「サ変名詞+する」の動詞への言い換え
11:00-12:00
竹内 和広 (奈良先端大):テキスト修辞構造タグ付け支援環境の構築について

13日は深夜にモノポリーを一回やったんだけど、懇親会で酔ってたので 全然ダメだった。 14日もモノポリーを一回やったんだけど、酔ってなくても全然ダメ。

今日、やっとこさ、 高速文字列検索ライブラリSUAFRYの最新版(2.1β1)をリリースしました。 いろいろな障害を乗り越えてここまで来れただけに感無量です。 しかし、まだ先は長い。

おお、今日は七五三か。ニュース見るまで全然気が付かなかった。 そう言えば、13日の金曜日も全然気が付かなかった。 まあいいや、どうでも。


11/12(木)
★・・・
昨日に引続き、全学ネットワークが不調です。 研究室に行ったけど、素直にログインできません。 やる気が失せたので寮に帰って来ました。 とりあえず、メールは読めたけど、 来てるはずのメールが来てなかったりして、非常に不安。 1階の張り紙によれば復旧のめどはたっていないとのこと。

非常に作業がやりにくいので、 今週中にSUFARYをリリースするつもりだったけど、来週以降に延期します。 とかいいつつ、こっそり付属アプリ作っている私。

検索ソフト OpenText 5 が来る。ネットワークが元に戻ったら本格的に動かすぞ。 覚悟しとけ!


11/11(水)
★またか・・・
全学ネットワークが不調で、朝からまったくメールが読めません。 お昼前(10-12)にメンテナンス作業をするとのことだったんだけど、 いまだにこんな状態じゃ困ります(22時)。 個人用コンピュータがまともに使えないので、みなさんお手上げで、 あきらめて帰って行きます。 私の場合、寮の部屋のノートパソコンで何とか作業できるので、 明日提出の課題とかは間に合いそうなんだけどね。

まあ、停電後には、よくあることなんだけどね。 とか言って済ませられる問題じゃないんだけど。毎度毎度のことでもううんざり。 やっぱ、メールは研究室ローカルマシン宛にしたほうが信頼できるな。 しばらくは、tatuo-y@cl.aist-nara.ac.jpに出してね。

というわけで、環境がいかれているときはゲームに限る。 夕食後は MM氏も参加で「ドカポン」。AM 1時からは TK氏と対決。 「ドカポン」は「ドカっとイッパツ勇者でポン」の略らしい。

・・・現在、AM 3時だけど、いまだに復旧せず( /usr/local/bin/ 見えず)。 もう今日はだめだね。

★定例研究会
水曜日なので、15:10 からかと思っていたら、13:30 からで、 行ったら既に終わってた。 せっかく聞く気充分だったのに。ちぇっ

11/10(火)
★ゼミナール
NAISTでは、 修士の学生は卒業までに2回、ゼミナールという講義(?)で発表しなきゃならないのだ。 去年までは、その発表の概要が毎週何通もメールで来るもんだから、うっとうしかった。 概要は発表する学生の一人がまとめて送信するんだけど、 エラーメールとか余計なメールも流れてひどいもんだった。

そんなわけで、 今年から WWWページ に概要がのるようになった。 世の中進歩するもんだ。

なんで突然こんな話をするかというと、 ちょっとした事情で最近のゼミナールの概要が見たかったんだけど、 そのWWWページがどこにあるのかよくわからなかったのだ (昔来たお知らせメールに書いてあったんだけどね)。 なんとか見つけたけど、また探すの面倒なので、ここにメモったというだけのこと。

★今週は・・・
忙しいです。でも平気。

11/9(月)
★ここ最近のできごと
出張と停電という非日常的な一週間でした。

大学及び寮の停電は日曜日の日中だけなんだけど、 停電に向けてのコンピュータ止め作業が金曜日から行われたため、 週末はコンピュータに向かうことができず、ちょっと手持ちぶさただった。 停電の間、大阪にでも出ようかと計画してたけど、 結局めんどくさくなって断念。相変わらず腰が重い私であった。

NL研発表のため九州に出張。 4日は午後3時に大学を出発して、着いたのは9時頃。 5日は午前中に発表を終えて、午後はお気楽。夜は広島時代の友人に会う。 6日もまじめに発表を聞いて、午後3時頃に向こうを出て、ここに着いたのは9時頃。 新大阪からここまでが遠すぎる! 二時間近くかかるぞ。やっぱバスに頼ってちゃだめなのか・・・。

6日は金曜日だったので、九州から帰って来たその足で研究室によってみると既にモノポリーが始まっていた。 この日は一回だけ参加。7人ゲームで4位。もうちょっとで3位だったのに。

7日、たつをカーに20リットル給油。9月6日以来。 夜はNT宅で、プレステ版「ドカポン」に燃える。

8日、ふとんを冬用(羽毛)に替える。すっかり寒くなったもんね。 前日にひきつづき、「ドカポン」。

★文字コードのお話
メールより抜粋↓
(授業科目名) 学際領域特論E(標準化)
(内容の紹介)  11月9日(月)3、4限には、文字符号の標準化について、(財)国際情 報化協力センター(CICC)主任研究員 佐藤敬幸が講義されます。佐藤さんは、 世界中の文字の標準化、ISO10646, ユニコードなどの最新情報について、わが 国で一番詳しい専門家の一人です。
学際領域特論って講義でゲストを向かえて文字コードの話をするというので、聞きに行った。 文字コードは「固定長 → 可変長 → 破綻」という歴史の繰り返しという話。 非常に興味深く聞かせて頂いた。 自分の興味のある話を聞くのって非常に楽しいね。 それにしても、規格に係わっている人って大変だなあ。

★作業再開
SUFARYのリリースに向けた準備作業再開。 既に予定日を過ぎてるけど、まあ今週中になんとかなるでしょう。

全文検索システムの評価実験のためのデータの準備。 新聞一年分データ(200M)を分割して、18万個のファイルを作成中。 なかなか終わらない。さすがにちょっと無茶かなあ。


11/4(水)
★出発
いってきまあす。

11/3(火)
★準備
11月4日〜6日はNL研のため九州に行きます。 今日は発表資料の最終校正と印刷を行う。これで発表準備は完了。 荷物もまとめたし、いつでも出発可能だよん。

というわけで、すっかり余裕かまして、酒なぞ飲む。 やっぱビールはエビス。 それにしても何だこの梅酒は。弱すぎ。 解説を読むと「梅酒のおいしさをそのままに甘さとアルコール分を控え、カロリーを30%カットし飲みやすく仕上げました」とのこと。 何日かかけて、ちびちび飲もむという当初の目論見ははずれ、簡単になくなる。

九州に行くのはいいけど、戻った後に控える作業が何だかたくさんあるのが気になる。 早く後継者を育てないと大変な状態。 それともGNU路線か?


11/2(月)
★発表練習
NL研の発表練習を行う。発表資料印刷とかは明日。

★WindowMaker
乗り換えました。なかなか使いやすい。自分のノートPCはまだfvwmだけどね。

11/1(日)
★オープンキャンパス
毎年この時期になると高山サイエンスフェスティバルというお祭りが そこの空き地で行われます。 その空き地ってのは、どっかの研究所が来る予定だった敷地なんだけど、 バブルのおかげで荒れ地になってしまってて、非常に水捌けも悪いのだ。 でもまあ結構な人手で、 地震体験車・梯子車(こどもを載せてた)やヘリコプターとかもやって来て、 まさにお祭りって感じです。

これに合わせて、我らが奈良先端科学技術大学院大学ではオープンキャンパスを やっています。で、私は見学に来た方々にデモをお見せしていたわけです。 でも、当研究室は自然言語処理という地味なことやっているので、 本当に興味のある人以外、来ても全然おもしろくないし、良く分からないと思う。 入学希望者には得られる情報はあるだろうけど、 お祭り帰りの人はバーチャルリアリティとかロボットとかやってる 分かりやすい研究室に見学にいった方か楽しいし為になると思いますよ。 各研究室のデモを「子供にも楽しめる」「玄人向け」「数学知識が必要」 といった感じで分類して見学者が参考にできるような仕組みがあると我々も見学者も幸せなんだけどな。

ここ数年はお祭り帰りに間違って当研究室に迷い込んでしまう人が多かったけど、 今年はそれほど多くなかった。 多分、お祭り会場が去年の空き地より遠くにある空き地だったからだと、 デモの合間にお祭り会場に行ってみて感じた。

★WindowMaker
私がウィンドウマネージャーに求める機能 これらの機能がdefaultで使えるのが WindowMaker。 Restartしなくても変更が反映されたり、 必要に応じて仮想ディスクトップが増殖したりと、なかなか良い具合です。 まだ良く分からない機能もあるけどね。 乗り換え準備中。

たつを