忍者ブログ

音声認識・音声入力Windows用フリーソフト「ネコ耳エディタ」ブログ

音声認識(音声入力)するフリーソフトの「ネコの耳も借りたいエディタ」(ネコ耳エディタ)です。他のアプリへの入力も可能です。Juliuslibを同封のDLLで使用しています。 「ネコの耳も借りたいエディタ配布所」のホームページからダウンロードしてください。 コメントなどがありましたらお気軽にどうぞ。 リンク歓迎です。

HTK・音声認識と隠れマルコフモデル

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

コメント

ただいまコメントを受けつけておりません。

HTK・音声認識と隠れマルコフモデル

○HTK(Hidden Markov Model Toolkit)
隠れマルコフモデルのツールキット。C言語で記述されている。
ケンブリッジ大学のサイトよりダウンロードできる。
当初は連続音声認識に利用され、現在は音声合成・文字認識・DNA解析などにも利用されている。
HTK Bookも参考にすること。


○「隠れマルコフモデル」と「音声認識」の関係は?
電子計算機に、「人の声」を入力して、それぞれ何の発音なのかを解析させることにする。
それはすなわち、「人の声」をa i u e oの母音・k s t nなどの子音、すなわち「音素」に分解し表示させること。
しかし、「人の声」は、各音素を発音する速度などが一定ではないため、「ここからここまでがこの音素だ」、と時間によって区切ることはできない。
そこで、この区切りを可能にするために、「隠れマルコフモデル」を使用する。
入力された音声から波形を計算し、確率的にに最も近いと予測される音素を選び出す。
すなわち、音素をマルコフモデルとみなし、音の波形からどのマルコフモデルに最もあてはまるのかを選ぶ、ということになる。


○「トライフォン」は何に利用されるの?
一つの音素だけを予測していたのでは、選び出された音素の認識率が下がってしまう。音素は、前後の音素によって変動するのが理由。
「トライフォン」は着目する一つのの音素だけでなく、その前後の音素(先行音素と後続音素)も利用して認識率を上げることを目的として使用される。
忍者Admax

忍者AdMax

拍手[0回]

PR

コメント

プロフィール

HN:
アナうさぎ
性別:
非公開

P R

まとめ

最新トラックバック

コガネモチ