Julius用のn-gram 辞書(bingram)を作成する。
b201001.vocaを語彙リストとして使用する。
「2010-01.3gm」と「b201001.voca」から
拙作「
ngfreq2idngram」を使用してpalmkit用のidngramを作る。逆順コーパスのidngram も同時に作っておく
「2010-01.3gm」は
euc-jpに変換しておく。
各idngramは、「
3grambin.out」、「
3grambin_rev.out」として出力する
./ngfreq2idngram -vocab b201001.voca -n 3 2010-01.3gm 3grambin.out
./ngfreq2idngram -vocab b201001.voca -n 3 -rev_ngram 2010-01.3gm 3grambin_rev.out
で出力できる。
palmkitの「idngram2lm」を使用してarpa形式のファイルを作成する
b201001arpa.arpa(forward)
b201001_rev_arpa.arpa(backward)
上記2ファイルより、juliusのmkbingramを使用して、
b201001.bingramを作成する。