忍者ブログ

音声認識・音声入力Windows用フリーソフト「ネコ耳エディタ」ブログ

音声認識(音声入力)するフリーソフトの「ネコの耳も借りたいエディタ」(ネコ耳エディタ)です。他のアプリへの入力も可能です。Juliuslibを同封のDLLで使用しています。 「ネコの耳も借りたいエディタ配布所」のホームページからダウンロードしてください。 コメントなどがありましたらお気軽にどうぞ。 リンク歓迎です。

ARPA標準形式のN-gramのフォーマット・バックオフ係数

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

コメント

ただいまコメントを受けつけておりません。

ARPA標準形式のN-gramのフォーマット・バックオフ係数

○N-gram format

ARPA標準形式のN-gramのフォーマットは、以下の形となっている。
\data\から開始、\end\までで終了。


\data\
ngram 1=n1
ngram 2=n2
...
ngram N=nN

\1-grams:
p    w        [bow]
...

\2-grams:
p    w1 w2        [bow]
...

\N-grams:
p    w1 ... wN
...

\end\




各キーワードから始まるリストの説明

\data\
ngram 1=n1 → \1-grams:からのデータ件数
ngram 2=n2 → \2-grams:からのデータ件数


\1-grams:
(条件付確率)  (N グラム)  (バックオフ係数)
(条件付確率)  (N グラム)  (バックオフ係数)
(条件付確率)  (N グラム)  (バックオフ係数)


\2-grams:
(条件付確率)  (N グラム)  (バックオフ係数)
(条件付確率)  (N グラム)  (バックオフ係数)
(条件付確率)  (N グラム)  (バックオフ係数)


つまり各行は,N グラムの条件付確率 p,N グラム w,バックオフ係数[bow]の順番に並んでいる。
N-gram format では「条件付確率」、「バックオフ係数」はどちらも常用対数で記述することになることに注意。

\end\
ここまでで終了。



○バックオフ係数
たとえば、1-gramでの「バックオフ係数」x「条件付確率」の値は以下のように使用される。
『単語1 単語2』と続くとき、2-gramのリストにこの並びがなかった場合は、『「単語1」に「単語2」が続く条件付確率』はリストからはわからない。
そこで1-gramのリストを利用して、「単語1」に「単語2」が続く条件付確率を求めることにする。

「単語2」の1-gramにおける「条件付確率」x「バックオフ係数」 = 『2-gramでの「単語1」に「単語2」が続く条件付確率』

2-gramリストだけでは分からない条件付確率を、より低次の1-gramを利用して条件付確率を求めるための係数が「バックオフ係数」。


3-gramなら、「単語1 単語2 単語3」の並びで3-gramのリストにない場合の確率をもとめるのに、『2-gramの「単語1 単語2」の並びの確率』x「バックオフ係数」の値を使用する。
2-gramが3-gramになろうと、N-gramになろうと基本は同じ。


これは、N-gramでのリストにないデータの条件付確率を0としないため(どんな単語の並びも可能性はある)の手法「バックオフスムージング」の一つ。
忍者Admax

忍者AdMax

拍手[0回]

PR

コメント

プロフィール

HN:
アナうさぎ
性別:
非公開

P R

忍者おまとめボタン

まとめ

  • ネコの耳も借りたいエディタ Ver1.32 リリース
    1ネコの耳も借りたいエディタ Ver1.32 リリース「ネコ耳エディタ」を実行した時、音声認識をしていないときでもCPU使用率が4%もある。なぜだろうか、と考えてみると思い当たる節が。認識した文字をキューから取り出すTTimerが常に動いている・・・。...1
  • 「ネコの耳も借りたいエディタ」 Ver 1.31  リリース
    2「ネコの耳も借りたいエディタ」 Ver 1.31 リリース「ネコの耳も借りたいエディタ」 Ver 1.31 をリリースしました。今回のバージョンアップで、「BOM無しUTF8」が自動読み込み可能になりました。文字コードの判別も改善したはずです。読み込める文...1
  • TABが・・・
    3TABが・・・(役に立つかはわかりませんが)本業の仕事用&JavaScriptの習作のために、CSVテキストファイルをインターネットブラウザーで表示するツールを作ってみました。 せっかくだから、「ネコの耳も借りた...1
  • ネコの耳も借りたいエディタ Ver1.32 リリース
    4ネコの耳も借りたいエディタ Ver1.32 リリース「ネコ耳エディタ」を実行した時、音声認識をしていないときでもCPU使用率が4%もある。 なぜだろうか、と考えてみると思い当たる節が。 認識した文字をキューから取り出すTTimerが常に動いている・・...1
  • 「ネコの耳も借りたいエディタ」 Ver 1.31  リリース
    5「ネコの耳も借りたいエディタ」 Ver 1.31 リリース「ネコの耳も借りたいエディタ」 Ver 1.31 をリリースしました。 今回のバージョンアップで、「BOM無しUTF8」が自動読み込み可能になりました。 文字コードの判別も改善したはずです。読み込め...1

最新トラックバック

コガネモチ

Share on Google+
share