「Baiduブログ・掲示板時間軸コーパス」からpalmkitで用いる語彙辞書(語彙リスト)を作成する。
手順
半角文字、記号などをリストから削除する。
2010_01.1gm ->
1gram_list.txt
頻度(数字)を消す。
1gram_list.csvは
euc-jpで保存する
1gram_list.txt ->
1gram_list.csv
mecab で 品詞や読みのデータを追加する
1gram_list.csv ->
1gram_mecab.txt
EOS など不要なものを取り除く
sakuraエディタなら「編集」→「整形」の機能を使う
1gram_mecab.txt ->
1gram_mecab_seikei.txt
加工しやすいように、csvで保存
LibreOffice Calc などを使用する
1gram_mecab_seikei.txt ->
1gram_class_source.csv
読みがながついているもののみをピックアップし、n-gramを作成するための辞書の元とする
1gram_class_source.csv ->
b201001_class.csv
n-gramを作成するための語彙リストを作る
b201001_class.csv ->
b201001_base_voca.csv
単語が重複したものは、削除しておく
<s>および</s>を追加しておく(文境界マーク)。
未知語トークン<UNK>は追加しない。
b201001_base.voca ->
b201001.voca
b201001.vocaを語彙リストとして使用する 。
また、b201001_class.csvもJulius辞書作成時に使用する。