[Julius Web page]
[Subject Prev][Subject Next][Thread Prev][Thread Next][Subject Index][Thread Index]

[julius-u:00007] Re: [ANNOUNCE] Julius-users ML オープン


李@京大 です.

> 柴田(ひ)%会社(^^;@福岡です。

お仕事おつかれ様です(^^;)

> 今一番欲しい情報は、「どうやればJuliusに私の癖を覚えさせられるか?」です。

たしかに,ここが今一番欠けているところですよね.

> 癖といってもいろいろあって、
> ・文体
> ・発音
> ・スピード
> などなど様々ですが、特に文体に関しては認識度にかなり影響するようなので
> 新聞の文体以外でも受け付けられるようにしたいのですが、
> どうすればいいのか分かっていません(^^;
> 幸い私の文体は、自分が書いたメールで山ほどありますので、
> これらを元データにして、何とかできないかなぁと思っています。

大量のテキストがあるなら,とりあえず
そのデータを使って一から言語モデルと辞書を作ってみるのがよいかと.

#本来は,今ある新聞記事のモデルをうまくいじれればいいんですけど,
#N-gramって単純な単語連鎖なので,あとから新たな単語を追加したり
#一部分だけ確率を変更したりっていうのがやりにくいのです.
#この辺は研究課題ってことで.

基本的な作り方は,大量のテキストを全部Chasenにかけて
形態素区切りテキストに変換したあと,CMU-TKというN-gram作成
ツールで言語モデルを作成します.

CMU-TKのページは
http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html
にあります.

…でもこれだけの情報では作りようがないような気がしますね(^^;
近々 HowTo を書きます.

では.
-- 
李 晃伸 (ri@xxxxxxxxxxxxxxxxxx)    京都大学 大学院 情報学研究科
  音声認識エンジンJuliusのページ:
  http://winnie.kuis.kyoto-u.ac.jp/members/ri/julius/index.html

この情報があなたの探していたものかどうか選択してください。
yes/まさにこれだ!   no/違うなぁ   part/一部見つかった   try/これで試してみる

あなたが探していた情報はどのようなことか、ご自由に記入下さい。特に「まさにこれだ!」と言う場合は記入をお願いします。
例:「複数のマシンからCATV経由でipmasqueradeを利用してWebを参照したい場合の設定について」
References: