辞書形式の話。

 電子辞書(ICじゃなくてCD-ROMとかで供給される方)について、書いてみる。

 日本語環境において辞書ソフトウェアはMacを除いてあまり普及していないのが現状。Macの辞書.appはNeXTからの伝統ですな。一応EPWING/JIS X 4081という規格があることはあるけれど、字種がJIS X 0208(技術的に言えばJIS X 0213の第1面)の枠内だけという欠点があって、日本語(の一部)と、英語くらいしかまともに扱えない。

 外字地獄とか何らかの代用表記を我慢すればそれ以外もできないことはないけれど、外字の文字数が94×94×2(half/wide width)しかないので、私の扱う言語、具体的には中国語(繁体字簡体字)、広東語(繁体字)の世界だとGB 2312は何とかなるとしても、CNS 16443やBig5には文字が足りない。まあ、小学館日中・中日辞典のように、JIS X 0208にある字種以外を外字にするやり方ならBig5は何とか入るけど、CNS 16443は合計8面もあるのでどうしようもないわけで。ましてやUnicodeのCJKV統合漢字なんぞ無理。

 しっかし、外字地獄なんて遣う側からはやってられないのですわ。

 そもそも外字をUnicodeに変換する機能があるソフトウェアなんてEBWin/EBMac/EBPocketとかEmacs+Lookupくらいでして、遣う側も面倒、辞書を作る・変換する側も大変という。

 じゃあ、EPWING/JIS X 4081をUnicode化すれば良いというかも知れないけれど、確かに

というものが存在しているものの、ONESWINGはメーカー囲い込み、FreeUWingは公開されている辞書が存在せず、かつEmacs+Lookupでしか扱えない。

 これ以外で、データを作成できる辞書形式となると、

  • PDICU
  • StarDictとXDXF
  • MDict
  • LeXML

といったものがあるけれど、PDICUは実質Windows用でテキストデータのみ(Wineで頑張る?)、StarDictはテキストデータのみ、MDictは画像や音声データも扱えるけれど、日本語圏では作成方法が知られていない、LeXMLは中間形式という問題があるわけで。

 独自形式でない、汎用な辞書形式が欲しい。……Macの辞書.app形式? いやはや。