忍者ブログ

音声認識・音声入力Windows用フリーソフト「ネコ耳エディタ」ブログ

音声認識(音声入力)するフリーソフトの「ネコの耳も借りたいエディタ」(ネコ耳エディタ)です。他のアプリへの入力も可能です。Juliuslibを同封のDLLで使用しています。 「ネコの耳も借りたいエディタ配布所」のホームページからダウンロードしてください。 コメントなどがありましたらお気軽にどうぞ。 リンク歓迎です。

ネコ耳エディタ Julius辞書の作成(その2)

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

コメント

ただいまコメントを受けつけておりません。

ネコ耳エディタ Julius辞書の作成(その2)

「Baiduブログ・掲示板時間軸コーパス」からpalmkitで用いる語彙辞書(語彙リスト)を作成する。

手順
半角文字、記号などをリストから削除する。
2010_01.1gm -> 1gram_list.txt

頻度(数字)を消す。
1gram_list.csvはeuc-jpで保存する
1gram_list.txt ->1gram_list.csv

mecab で 品詞や読みのデータを追加する
1gram_list.csv -> 1gram_mecab.txt


EOS など不要なものを取り除く
sakuraエディタなら「編集」→「整形」の機能を使う
1gram_mecab.txt -> 1gram_mecab_seikei.txt


加工しやすいように、csvで保存
LibreOffice Calc などを使用する
1gram_mecab_seikei.txt -> 1gram_class_source.csv


読みがながついているもののみをピックアップし、n-gramを作成するための辞書の元とする
1gram_class_source.csv -> b201001_class.csv


n-gramを作成するための語彙リストを作る
b201001_class.csv -> b201001_base_voca.csv

単語が重複したものは、削除しておく
<s>および</s>を追加しておく(文境界マーク)。
未知語トークン<UNK>は追加しない。

b201001_base.voca -> b201001.voca


b201001.vocaを語彙リストとして使用する 。
また、b201001_class.csvもJulius辞書作成時に使用する。


忍者AdMax

拍手[0回]

PR

コメント

プロフィール

HN:
アナうさぎ
性別:
非公開

P R

まとめ

最新トラックバック

コガネモチ