○ネコ耳エディタ用辞書の作成計画
ネコ耳エディタはJuliusエンジンを用いている。よって、Juliusの辞書作成の手順に従う。
今回の目標となる辞書は2つ作成する。vocab(語彙)辞書と、n-gram辞書。
サンプルとして「Baiduブログ・掲示板時間軸コーパス」からダウンロードしてきたn-gram(n-gramと頻度のリストとなっている)を使用する。
手順は以下。
・palmkit用の語彙辞書の作成
・arpa形式のn-gram作成
・Julius用のn-gramバイナリ辞書の作成
・Julius用の語彙辞書の作成
○arpa形式のn-gram作成に使用するツール
使用するツールは「palmkit」。さらに追加の自作コマンド「ngfreq2idngram」を使用する。語彙ファイルおよび、n-gramと頻度のリストファイルから、palmkit用のidngramを出力できる。
「ngfreq2idngram.c」を作成するときに「text2idngram.c」を参考にしたが、理解できなかったので解読ついでに書き換えている。
自分が解読できるように書き換えただけで、機能追加などは一切行っていない。
(ソースはこちら。ご自由にどうぞ。)
ngfreq2idngram.c
text2idngram.c(解読用に書き換えたもの)
「ngfreq2idngram.c」をコンパイルするにはpalmkit のsrcフォルダに突っ込んで、makefileを書き換える。
※ソースを間違えてアップしていたので
修正(11/13)さらに修正(11/15)