○「大語彙連続音声認識エンジン Julius」の語彙
デフォルトでは語彙サイズは65535まで。
あまり語彙数が多いと、使用メモリの増加や、速度低下、認識率の低下が予想される。
用途に応じて辞書を切り替えて使用する、限られた用途の場合は語彙数を削る、としたほうがよいのかも。
コーパスから抽出して辞書を作成する。(Wikipedia日本語版をコーパスとして使用する方法などもある)
ChaSen,MeCabなども参考にすること。
○コーパス
コンピュータによる検索可能な、大量の言語データ(テキストデータ・音声データ)。
自然言語処理の研究や、機械学習の学習データとして利用される。
品詞などを付与してあるものは「タグ付きコーパス」
英語・日本語を互いに対訳の形で収集したものは「対訳コーパス」
○音素列
ん・ン → N
ー → :
っ・ッ → q
(例)
アップデート → a q p u d e: t o
○トライフォン
音素は、前後の音素によって変動する。そのため、音素の認識単位として、先行音素と後続音素を考慮する。
(先行音素)-(音素)+(後続音素)
(例)
アップデート → a q p u d e: t o
トライフォンは
a+q a-q+p q-p+u p-u+d u-d+e: d-e:+t e:-t+o t-o