Adobe の GB18030 対応
アンテナソフト (XML や PDF の関連ソフトを開発・販売している日本の会社) のブログ「PDF 千夜一夜」に、Adobe が GB18030 (中国の国家標準文字コード) に対応していないのではと疑問を投げかける記事 (PDF 千夜一夜: 2006年01月16日 「PDFと文字 (24) – Adobe-GB1, Adobe-CNS1, Adobe-Korea1」) があった。
しかし、これらはどうも古いですね。Adobe-GB1なんて2000年の日付になっています。それに肝心のGB18030がカバーされていません。Adobe -CN1、Adobe-Korea1いづれも2003年5月です。これに対して、Adobe-Japan1は2004年6月なので比較的新しいですが。中国や台湾ではアドビシステムズはあまりまじめにやってないのでしょうか?そんなことはないと思いますが。分かりません。
(PDF 千夜一夜: 2006年01月16日 「PDFと文字 (24) – Adobe-GB1, Adobe-CNS1, Adobe-Korea1」)
GB18030 は法的拘束力を持つ国家標準であるのに、さすがにそれはないだろうと思い、原文 ("Adobe-GB1-4 Character Collection for CID-Keyed Fonts") を当たってみた。
1 Introduction
This document describes the Adobe-GB1-4 character collection which supports the Chinese GB 2312-80, GB 1988-89, GB/T 12345-90, GB 13000.1-93, and GB 18030-2000 character set standards.
(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.1.)
いきなり1ページ目の introduction の冒頭から、GB18030-2000 をサポートしていると書かれている。Adobe-GB1-4 が2000年の日付となっているのも、GB18030 に合わせた改定だと解釈すれば、むしろ自然に思われる時期である。
一般に、GB18030-2000 対応と言えば、GB2312、GBK との互換性を保った上で、Unicode 3.0 (ISO/IEC 10646-1:2000) の文字集合 (のうち主にCJK統合漢字と拡張A) に対応していることを指しているはずである。どうも、当該ブログの筆者は、
The major part of Supplement 4, CIDs 22428 through 29058, provides characters to cover the Unified Han Ideographs Extension A, as listed in Unicode Version 3.0/ISO 10646-1:2000.
(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.3)
という記述が実質的には GB18030 対応を意味していることを見落としているように思われる。
ところで、Microsoft の GB18030 対応パッチ (GB18030 Support Package) を当ててみると、このパッチには漢字だけでなく、アラビア文字やイ文字も含まれていることが分かる。GB18030 には、Unicode の文字集合をそのまま収録するためのコードポイントが用意されていて、そうした文字を必要に応じて扱うことができる。
そこでふと疑問に思ったのは、そうした (中国における) 少数民族のフォントも国家標準なのだろうかということである。もしもそうであるなら、そうした文字のフォントも中国の検査機関の審査を通る必要がある (詳しい事情はダイナコムウェア「中国新文字コード規格 GB18030」 などを参照)。もしや英数字も?などと妄想が膨らんでしまうところだったが、そうした疑問への答えは、フォントの審査に関する以下の規格名にあった。
GB/T11460-2000 信息技术汉字字型数据的检测方法
「汉字」、つまりあくまで審査の対象は漢字である。そして、前述した Adobe のドキュメントには、次のように書かれている。
The typeface used to illustrate each character in this section is STSong™ Light, a product of Changzhou SinoType Technology Co., Ltd. STSong Light is certified by the Press and Publication Administration of the People’s Republic of China, the China State Language Commission, and the National Typeface Committee; and is recommended for use in official and professional publications.
(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.3)
ここで "this section" とは、"2 The Adobe-GB1-4 Character Collection" のことであり、Adobe-GB1-4 に収録されている文字集合の全体を指す。書体として STSong Light を使用し、それは中国の各当局から認証 (certified) されているとのことである。かくして、Adobe が GB18030 (とその関連規格) に対応していることを再確認できる。
GB 18030の規格票をよく読んでいただくとわかるんですが、7.3のところに「0x90308130~0xE339FE39の1058400個の符号位置は、ISO/IEC 10646の16枚のSupplementary Plane(要するにU+00010000~U+0010FFFF)をそのままの順序で割り当て、残った符号位置は保留する」という規定があります。これをマジメに信じるなら、GB 18030は既にCJK Extension Bを全て符号化してしまっているわけですから、それをサポートしきれない(そもそも現在のCMapの実装では符号位置が足りない)Adobe-GB1は、GB 18030をカバーしきれないということになる、と思われます。
投稿 安岡孝一 | 2006年3月14日 11:51
安岡さん、コメントどうもありがとうございます。
Unicode の基本多言語面 (BMP) 以外の符号位置を GB18030 が確保しているというのをそのまま受け取れば、おっしゃるとおりですね。
ただ、この中国の GB18030 というのは、法的拘束力を伴うというのが最重要点だと思っています。現在のところ、その範囲は Unicode 3.0 (ISO/IEC 10646-1:2000) 水準、つまり BMP の文字集合 (のうち主にCJK統合漢字と拡張A) にとどまっていると認識しています。
将来的に拡張B (Plane 2) も法的拘束力を伴ったとしたら、Unicode で通している製品のベンダーはまだいいとして、CMap を使用する Adobe には困難が伴うということですね。
投稿 小川創生 | 2006年3月14日 20:06
ま、実はAdobe-GB1-4は、GB 18030のCJK Extension Bのみならず、GB 18030のCJK Extension Aに関しても難があるんですけどね。と言うのも、GB 18030-2000の規格票に載っているCJK Extension Aの漢字字体のうち、少なくとも20個はAdobe-GB1-4には含まれてないようなのです。たとえば、GB 18030-2000の0x8231C133は「木へんに顛」ですけど、私はAdobe-GB1-4にこの字体を見つけることができませんでした。あるいは、GB 18030-2000の0x82358730は「幵の下に龍」ですけど、この字体もAdobe-GB1-4には含まれてないようです。それぞれ、CID=24593とCID=29050がCMap上では対応してますが、どう見てもGB 18030-2000とAdobe-GB1-4で字体が違うので、これじゃさすがにAdobe-Japan1とかと同じ精度でAdobe-GB1を使うのは無理だな、っていうのが正直なところです。
投稿 安岡孝一 | 2006年3月14日 23:07
なるほど、ちょっとびっくりです。Adobe Reader の STSong Light と、たとえば Windows の SimSun-18030 とでは、中国の同じ審査を通ったフォントであるはずなのに、字体が違っている場合があるということですね。
例示していただいた「㰜 (木へんに顛)」について、Unihan Database の 3C1C を見ると、これは韓国の文字コードに由来する漢字で、STSong Light 側の字体が例示されていますね。Adobe-GB1-4 ももちろん同様です。一方で、GB18030 には SimSun-18030 側の字体が示されていると。中国でのフォントの審査は、一体どうなっているのでしょうか? 安岡さんがおっしゃるように、Adobe-GB1 を含め、そうした審査の精度はにわかには信頼できませんね。
ちなみにこの「㰜 (木へんに顛)」の表示について、日本語版 Windows XP + Firefox では Font Linking の関係で韓国のフォント (New Gulim) が使用されるようで、STSong Light 側の字体が表示されます。簡体字中国語のフォントを SimSun-18030 に指定すれば、そちらの字体が (lang 無指定でも) 優先されて表示されます。なお、Internet Exprorer では lang 指定とフォント指定のいずれかを怠ると文字化けです。ああ、ややこしい・・・
投稿 小川創生 | 2006年3月15日 14:02