Julius語彙辞書(dicファイル)作成
mecab で作成したもととなる辞書を「表記語彙」と「よみかた」のみのcsvファイルにする
b201001_class.csv ->
b201001hyokiyomi.csv
hyokiyomicsv2dic.pl(拙作のperlのスクリプト、実行可能にしておく)を使用し、辞書ファイルを作成する。
b201001hyokiyomi.csv ->
b201001.dic
b201001.dicは
shift_jisコード、改行は
LF(UNIX)に変換しておく。
b201001_sjis.dic が、windows上でjuliusに使用される。
b201001.dic ->
b201001_sjis.dic
ネコ耳エディタから、「b201001_sjis.dic」と「b201001.bingram」を設定。
エラーを吐いたら、juliusのログを見て修正する。
実行テストしてみる。動く、動くぞ・・・。
しかし、音声認識の成功率はイマイチ。n-gramのデータが足りないのかもねぇ。
本家のディクテーションキットの認識率の良さに驚き。ふぅ・・・。
以上、「Baiduブログ・掲示板時間軸コーパス」をサンプルとして用いた
julius用n-gram辞書の作成手順です。
辞書の作成環境はUbuntu 13.10 (Xfce)。ネコ耳エディタの実行環境はWindowsXP。
なお、ネコ耳エディタはWindows7でも動きます。