特許用語のIME辞書を作ってみよう。(1)
先日、「IME勝手にバージョンアップ現象」に困っている話を書きましたが、
IME、他にも色々やってくれちゃってます!(泣怒)
ひとつは、以前はなかった「Unicode文字の変換」を、いつの間にかするようになっていた事。 例えば「ほし」と入れて変換すると、いろんな星型や花型がずらりと10種類位、変換候補に並びます。(これはちょっと楽しい♪)
もうひとつは作業中、勝手に「Korean Writer」(韓国語版FEP)が立ち上がる事。
・・・でも、2007のベータ版も、Korean Writerも自分で入れたので文句は言えないんですけども。(;_;)
では、今日のお題です。
┌-----------------------------┐
本日のお題 【 特許用語のIME辞書を作ってみよう。(1)】
└-----------------------------┘
IMEつながり?で、先週ちょうど「特許用語のIME辞書」を作ったので、「辞書の作り方」のお話をします!
普通には一度で変換されない「係属」や「包袋」「特開」、分野によっては「回動」「繋止」「嵌合」・・・などの用語を、 コツコツと単語登録している、という方も、たくさんいらっしゃると思います。
単語登録も良いのですが、IME辞書があるとこんな便利な事があります。
- 職場のPCが入れ替えになる時などに、IME辞書ファイルを保存しておくと、すぐに登録単語が再現できる。
- 単語登録だと、全部の単語が1箇所に入ってしまうのに対し、辞書ファイルで管理すると「手続用語」「機械用語」「化学用語」・・・ のように、ファイル分けができる。
- 辞書管理ツール内で、「手続用語はオフ、機械用語はオン」というように、ファイル単位でオン/オフを切り替えられる。
一応、短所も書いておきますと、
- 手軽に単語の追加ができない。
・・・というのはあるかもしれません。単語登録なら、1語ずつちょこちょこと追加したりしますが、辞書ファイルは 「ファイル全体をまとめて更新」になりますね。
さて、前置きが長くなってしまいましたが・・・
今日は「IME辞書を作ってみよう。(1)」で、辞書の素になるテキストデータを作るところまでを説明します。
私が先週作った辞書は、特許男プロジェクト様の「特許技術用語集」 を元データに使わせていただきました。(ここまで作るのが一番大変なのですよね・・・ 本当にありがたい事です。)
←クリックで拡大します。
元データの "特許用語Ver1[1].1.xls" は左図のようにデータが入っています。
ここから「用語」と「読み方」の2列をコピー&ペーストし、別のシートに貼り付けます。
←クリックで拡大します。
左(A列)より、
読み方 ・ 単語 ・ 品詞
と並べます。(並び順が重要です!)
品詞は「圧着する、とかいうから全部"さ変名詞"ね♪」と決め付けて、連続入力しました。
また、例えば図中赤枠の「圧潰」という単語がありますが、「あっかい」「あつかい」両方で変換できるように、修正を加えたりしています。
続いて、このExcelのデータ3列をコピーして、テキストエディタに貼り付けます。テキストが編集できれば、 ソフトは何でも良いと思いますが、ここでは編集記号が見やすいので、Wordの画面例を示します。
※ Wordに貼り付ける時は、編集→形式を選択して貼り付け→テキスト、で貼り付けてくださいね。単純にコピー& ペーストすると、表形式で貼り付いてしまいますので!
Wordに貼り付けると、項目間に[→]の記号が見えます。
(見えない場合は、表示%設定付近の
編集記号表示がオフになっているかもしれません。オンに切り替えると見えるようになります。
)
[→]はタブ記号です。項目間がタブ区切りになっているのを確認して、このファイルを「テキスト形式」で保存します。
・・・・ここまで、できましたか~?
明日はいよいよ、辞書ファイルの生成をします。
--- -------------------
少しでもお役に立ちましたでしょうか?
このブログをお気に入りに追加しませんか?
(3秒で完了します!)

| メールマガジンも如何ですか? |
| 固定リンク





コメント
nitrogen shackled:stickier?radiator frank chaps marvel ... Thanks!!!
投稿: | 2007/10/09 01:57