« 2009年11月 | メイン | 2010年1月 »

2009年12月15日

MySQLの改定常用漢字表対応が危うい件

今年の1月の記事「MySQL 6.0 の Unicode 4バイト対応と新常用漢字」では、アルファ版ではあるものの MySQL 6.0 ならば Unicode の4バイト領域に対応しており、たとえ常用漢字として「叱」ではなく「𠮟」(口へんに七、U+20B9F)が追加されても MySQL としては対応可能だということを書いた。

ところが、その MySQL 6.0 は、今年5月の 6.0.11-alpha を最後に、開発を凍結してしまったそうだ。Sun Microsystems の奥野幹也さんのブログ記事「Good Bye MySQL 6.0」にいまさらながら気付いた。開発リソースを 5.x に集約するのが目的らしく、現在ベータ版の MySQL 5.4 には MySQL 6.0 の新機能がいくつか取り込まれているとのことである。だがしかし、5.4 に入っていない主な機能として、そのものずばり、「4バイトUTF-8」が挙げられていた。

MySQL の現在の正式バージョンは 5.1 であり、今年1月から変化していない。その次は 5.4、さらにその次は 5.5 となるそうで、MySQL のサイトを見た限りでは、5.5 はまだアルファ版の配布にも至っていない段階である。

一応 MySQL 5.4 と 5.5 のドキュメントを確認してみたが、やはり 5.5 でも今のところ対応の予定は無さそうに見える。

MySQL 5.5 supports two character sets for storing Unicode data:

  • ucs2, the UCS-2 encoding of the Unicode character set using 16 bits per character
  • utf8, a UTF-8 encoding of the Unicode character set using one to three bytes per character

These two character sets support the characters from the Basic Multilingual Plane (BMP) of Unicode Version 3.0. BMP characters have these characteristics:

  • Their code values are between 0 and 65535 (or U+0000 .. U+FFFF)
  • They can be encoded with a fixed 16-bit word, as in ucs2
  • They can be encoded with 8, 16, or 24 bits, as in utf8
  • They are sufficient for almost all characters in major languages

The ucs2 and utf8 character sets do not support supplementary characters that lie outside the BMP.

(MySQL 5.5 Reference Manual :: 9.1.10 Unicode Support より引用)

これはマズイのではないか。何とかしてください、MySQL 様、Sun Microsystems 様・・・あれ、Oracle 様でしたっけ。ちなみに、Sun の奥野さんには一度お会いしたことがある。たぶん私のことは忘れていると思うけど(苦笑)。

やっぱり、安岡孝一さんが呼びかけているように、改定常用漢字表試案のパブコメで訴えるべきなのだろう。でも、ここまでの漢字小委員会の様子を見る限り、「情報化社会の進展」を改定の動機に挙げておきながら、文字コード関係の専門家は委員会に見当たらないし、1回目のパブコメに対するフィードバック(字種の追加希望に対する可否の理由の説明など)を出すようなことを審議中に言っておきながら、結局は出さずじまいである。それに、「裁判員制度」「18歳成人」や「障がい者制度改革推進本部」など、常用の語彙を民主的に決めてから常用漢字の話をしたほうが良いのではと思えるような施策も出現している。そんな中での2回目のパブコメ募集には、それ自体についていろいろ思うところがある。どうしようかなあ。

最近の記事

最近のトラックバック

Powered by Blogzine[ブログ人]
ブログ人登録 2008年03月15日