[Julius Web page]
[Subject Prev][Subject Next][Thread Prev][Thread Next][Subject Index][Thread Index]

[julius-u:00102] Re: 辞書フォーマット


にしむら@NAISTです

まず,はじめに,Juliusの辞書(言語モデル)には,
大量の学習用テキストから統計的に学習するN-gramモデルを用います.
よって,すでにある言語モデルにちょこっと手を加えて,単語登録をする,
とかいったことは,基本的にはできません.
# 動くかもしれないかもって程度ならできないこともないのですが….

川上 茂 <s_kawakami@xxxxxxxxxxxxxxx>さん:
> Juliusで使用する辞書フォーマットに則って
> 自分で専用の辞書を作成しようと考えていますが、
> サンプルの辞書の形式の中で、
> 
> JR東日本+ジェイアールヒガシ{ニホン/ニッポン}+9	[JR東日本]	j e
> i a: r u h i g a sh i n i h o N
> 
> という記述をしていけばよさそうなのはわかりましたが、
> +9とか+1とかの部分に関して、一寸分からなくなっております。
> この数字の意味、おわかりでしょうか?
> ご回答のほど、よろしくお願い致します。

この辞書ファイルというのは,おそらく語彙ファイル(HTKDICファイル)
だと思いますが,このファイルを変更しても辞書には反映されません.
辞書の本体というべきファイルは,.bingram(.gz)とか.arpa(.gz)といった
感じのsuffixがついた方のN-gramモデルを格納したファイルです.
# これも正確な表現ではないのですが….

さて,語彙エントリについている数字の意味ですが,これは品詞番号や
活用形などです.普段,我々は言語モデルを作成する際,ChaSenを用いて
形態素解析するのですが,このChaSenが番号をつけます.

詳しくは,http://chasen.aist-nara.ac.jp/ から取得できるマニュアルを
参考にしてください.ちなみに,ChaSenの出力フォーマットは,
(出力フォーマット "%m\t%?U/未知語/%a0/\t%M\t%h/%t/%f\n") 
を使用しています.

Juliusの言語モデルまわりをより手軽にするのは使命だと思っているの
ですが,まだ,ほとんど手付かずです.ごめんなさい.
---
西村 竜一 <nisimura@xxxxxxxxxxx>

この情報があなたの探していたものかどうか選択してください。
yes/まさにこれだ!   no/違うなぁ   part/一部見つかった   try/これで試してみる

あなたが探していた情報はどのようなことか、ご自由に記入下さい。特に「まさにこれだ!」と言う場合は記入をお願いします。
例:「複数のマシンからCATV経由でipmasqueradeを利用してWebを参照したい場合の設定について」
References: