たつをの日記
1998年5月


生駒山中腹より西方を望む

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

先月の日記 | 日記一覧 | 来月の日記


5/25(月)
部屋のもようがえ
部屋のもようがえをした。腰にきた。まだまだ完治していないようだ。

茶筌のIPA品詞体系辞書
週末から修正中。ささいな間違いをどしどしなおしたぞ。さあ、これでどうだ!
というわけで、暫定版(Ver.1.0b2)として公開しました。

プロジェクト実習ミーティング(1)
作業の目標と suffix array の解説。

5/23(土)
NL研の発表資料作成
といってもOHPシート4枚だけ。5分の発表だもの。

新歓バーベキュー
教授宅。ああ、腹いっぱい。

5/22(金)
茶筌のIPA品詞体系辞書
いい加減に暫定版くらいは出さないとね。 来週はNL研で「茶筌」をデモる予定だし。 というわけで、リリースに向けて大整理。
  1. 現段階での最新(と思われる)データを集める
  2. 共用作業環境(ディレクトリ)の整備
  3. 文法の修正
  4. 品詞タグ付きコーパスの修正
  5. 辞書エントリから複合名詞を退避
  6. 改めてコストを学習
さあ、いつでも公開できるぞ。

学割
書類発行マシーンで学割を得る。すぐもらえて嬉しいぞ。

5/21(木)
金魚
藤田さんの金魚。 現在の様子(5分毎に更新)

C++
変なカタカナ語が多すぎて非常にとっつきにくいんだよね。 クラスライブラリを使うだけなら楽なんだけどね。

5/20(水)
今日のおでかけ
はい、行って来ました生駒山&暗峠。 生駒JUSCOに車を止めて、生駒駅から登山開始(写真)。 連続階段攻撃に玉野さんあやうし。途中、なぞのインド人を目撃。非常に場違い。集団幻想の可能性あり。 生駒山山頂から暗峠(写真)へ。もうすっかり夕方。 がんばって西方へ下り、枚岡駅から生駒駅に戻って来た。 と、まあ、こんな感じです。

5/19(火)
定例研究会
結局、発表は中山さんだけ。

mimosa
どうも最近 mimosa (Solaris)が不調なので、百舌の開発作業が進められないです。 茶筌の辞書整備の作業環境も mimosa にあるので、特にやれることはありません。 とかいっていたら復旧してラッキー。

わらびもち
(AM 9:40) スーパーマリオのBGMにのってわらびもち屋がやって来た。 「おいしいおいしいわらびもちだよ、あまくてつめたいわらびもちだよ」 かき氷もあるらしい。

茶筌に関して
こんなメールが来た...
Macintosh(Power Mac 7600/200)で茶筌 version 1.51 (chasen-sys1.51-dic1.5.tar.gz)をダウンロードして解凍したのですがうまく立ち上げることができません。
残念ながらマックでは動きません。

A707夕食会
キムチとゆでたまごがメイン(?)。食後、意識について討論する。

SUFARY Version 2.0β3
公開しました。

5/18(月)
中期目標
研究の 中期目標 なんぞ書いてみた。自然言語処理ライブラリ化計画について語ってみたりもした。

ビデオの修理
ビデオデッキが修理(5/8を参照)から帰って来ました。 めでたし、めでたし。

新M1が配属されました
6人です。オリエンテーションがありました。

論文
おいおい日本語で書けよ、というような論文を読んだ。 数式使ったりしてきっちり書いてあるんだろうけど理解しにくいぞ。 なんだこりゃ、式が間違ってるじゃないか、a と b は逆だろが、ふざけんな! 口頭で数分で説明できるような内容なのに、わざわざ難しく書くな! まあ、英語の論文を流し読みできない私が未熟なだけなんだけどね。

5/17(日)
今日の出来事
サッカーTV観戦。あれだけ打っても1点か。 そこの図書館に行ったらU助手がいた。自転車で来たらしい。ご苦労なこった。

5/14(木)
今日の出来事
ここ数日、SFCのクロノトリガーなんかやっててどうも徹夜ぎみで、 生活サイクルがまたおかしくなってしまいました。 14時起床。 4/14の健康診断の結果が返ってきました。 コレステロールが高い...。とはいうものの至って健康。 夕食は、かまどや弁当でした。 そういえば昨日は床屋(理容まどか)に行きました。 帰りにそこらへんで昼飯でも食べようかと思ったんだけど、 2時半という半端な時間だったためどこも準備中でした。

今日の作業
百舌 --- 低レベルな自然言語処理のためのライブラリ
SUFARYのときもそうだったが、 ライブラリ化作業の途中で様々なアプリケーションでライブラリを使ってしまうので、 仕様を変更したら全てのアプリケーションを修正しなければならなくなる。 ああ、めんどくさ。 でも、ライブラリのデバグも兼ねてると考えればしょうがないか。
  • 一つの辞書エントリに付加情報として他のエントリへのリファレンスを持たせるようにした。連語や複合名詞に利用する予定。
  • 辞書エントリ解析用にワイルドカード形態素を作成。

SUFARY --- 高速文字列検索ライブラリ
SUFARYでの複数ファイルに関する私の見解(メールより引用)。
技術的には、suffix array で複数ファイルを検索することは可能です(複数ファイルに対して、一つの array ファイルを作成する)。しかし、array ファイルにファイル識別のための付加情報を加える必要があることと複数の検索対象ファイルを同時にオープンをする必要があるので、処理効率があまり期待できないかもしれません。複数ファイルを仮想的な一つのファイルとして扱える機構があれば楽なのですが...

5/10(日)
今日の作業
百舌
茶筌の辞書でなんとか解析できるようになった。 でも正常に動いているかは不明。

5/8(金)
ビデオの修理
一月前から調子の悪かったビデオデッキだが(4/15を参照)、今日やっとこさニノミヤに修理に持って行った。

今日の作業
百舌 --- 低レベルな自然言語処理のためのライブラリ
形態素解析システム「茶筌」のフォーマットの辞書を百舌で使いやすい形式に変換する作業。 百舌では活用語尾処理の規格化はあとまわし(またはやらない)なので、 現段階では活用語を全て展開して登録することにする。 まず S式を解釈するPerlプログラム(971006作成)と文法/活用ファイル読み込みプログラム(ViCha用)を引っ張り出してきて整備する。 NT氏が perl-lisp なるモジュールを見つけてきたが、たかが「茶筌」のS式を扱うにはオーバースペックなので今回は採用せず。(at ~nltools/lib/perl/...)
品詞タグ付きコーパスからパラメータを学習するためのツールを 百舌に合わせるために書き直す(確率計算と出力)。
ううむ、疲れた。今日はこれまで(AM 3:05)。
Namazu
全文検索システム Namazu をコンパイルして使ってみる。 kakasiか「茶筌」を使ってインデキシングができるんだけど、ここは当然「茶筌」。 むむむ、単語分割情報しか利用していないので「茶筌」ではオーバースペックだな。 ここはやっぱり軽い「百舌」か。
こういう転置インデックスな検索システムは用途を考えたら SUFARY とは競合しないな。
  • 転置インデックスな検索システム → ファイル(URL)を探すことに特化
  • Suffix array (SUFARY) → ファイル内の任意の文字列を探すことに特化

5/7(木)
今日のお出かけ
くろんど池に行きました( 写真1, 写真2 )。 でも高山城跡は見つけられませんでした。

今日の作業
百舌。だいぶすっきりした。あとは辞書変換。活用形の展開が面倒そうだ。

5/5(火) こどもの日
サンフレッチェ広島
中国新聞のサンフレッチェ情報 今日はぼろ負け...

今日のお出かけ
若草山に登りました(写真:若草山からの展望)。 雨に降られました。ちぇっ

今日の作業
DIDプロジェクト
問題: 外部形態素辞書の各語にどのような方針で単語コストを与えたらよいのか?
品詞タグ付きコーパスから 品詞連接コストと単語コストを統計的に学習して、 それを使ってコスト最小法の形態素解析をすることを考える。 そのとき、学習に用いた品詞タグ付きコーパスに現れなかった単語で、 外部辞書には存在する単語にどういう単語コストを与えたら良いのだろうか。 一般的には、そのような単語に一様なコスト(つまり同じ値)を与える。 現段階の茶筌IPA文法もそう。

まあ、それはそれでいいんだけど、 実際に形態素解析を行なうと困ったことが起こることがある。 例えば、 「六日市 / 固有名詞」という学習に用いたコーパスには現れていないが外部辞書には存在する単語がある。 ところが、「私は六日市に行く。」という文を形態素解析を行なうと、 第一解では「六日市」が「六 / 数」「日 / 助数詞」「市 / 接尾」に分かれてしまう。 これは学習に用いた品詞タグ付きコーパスで「六 / 数」「日 / 助数詞」「市 / 接尾」 の出現頻度がかなり高かったため、 それらの単語コスト(と品詞連接コスト)の合計が 「六日市」の単語コスト(一様に与えられたコスト)より低くなるためである。

確率モデル的には何の問題もない。 むしろ正常に動作していると言える。 しかし、人間にとっては気に食わない。 「『六日市 / 固有名詞』があるんだからそれを出せ!」と言いたくなる。 新たに単語を登録した場合にも困ることがある。 「なんで俺が登録した単語が解析結果に出てこないんだ!」などなど。

その場しのぎの簡単な解決法: 「六日市」のように外部辞書に登録されていても分割されてしまう語を 見つけてきて(※)、その単語コストをすご〜く下げてしまう。
※外部辞書の単語を形態素解析して分割されてしまうかどうかで調べる。

5/2(土)
サンフレッチェ広島
A707にて観戦。嬉しい3連勝だ。 3点決めて、PKも止める。この調子でもうすこしいってほしい。 現在11位。目指せ勝率5割。

最近の作業
SUFARY Ver.2.0b2はとりあえず一段落したので、 最近は 形態素解析システムのモジュール化 を徹底的に行なっています(いわゆる百舌プロジェクト)。 NT氏にそそのかされてC++で書いたりしてるんだけど慣れないもんで大変。

5/1(金)
今日の出来事
今一博士来校(写真)。 いもようかんはうまい。

たつを