[Julius Web page]
[Subject Prev][Subject Next][Thread Prev][Thread Next][Subject Index][Thread Index]

[julius-u:00113] Re: ARPA 標準形式


にしむら@奈良先端大です

Tatubou <tatubou@xxxxxxxxxxxxxxxxxxxxx>さん:
> 今辞書の語彙を絞ることで動作の高速化はできないものかと思い
> 語彙ファイルの中身をバイナリからテキストに逆変換しようと
> しているのですが、ARPA標準形式というのがどういった書式
> なのかわからないためソースから読み取ろうとしています。

> 今のところバイナリ変換前の語彙ファイルは以下のような書式なのではないかと
> 考えております。
>  \\data\\
>  ngram 0 = ****
>  ngram 1 = ****
>  ngram 2 = ****
>  \1-grams"
>  *** *** ***\n

そんな感じです.ただ,何度かこのMLにも出てますが,言語モデルは
統計情報を元に作成にしていますから,基本的には辞書の中身を
ちょこちょこっといじって変更できるものではありません.
# それでも,とりあえず動いてしまうものは作ることはできるので,
# 実用的には使えるとは思いますが….

ちなみに探索に用いる語彙数を単純に減らしたいだけならば,
語彙ファイル *.vocab にリストされている単語を削除するだけでよいです.
---
西村 竜一 <nisimura@xxxxxxxxxxx>

この情報があなたの探していたものかどうか選択してください。
yes/まさにこれだ!   no/違うなぁ   part/一部見つかった   try/これで試してみる

あなたが探していた情報はどのようなことか、ご自由に記入下さい。特に「まさにこれだ!」と言う場合は記入をお願いします。
例:「複数のマシンからCATV経由でipmasqueradeを利用してWebを参照したい場合の設定について」
References: