メイン | 2006年4月 »

2006年3月31日

画像掲載テスト&記事予告

記事の予告をかねて、画像アップロードと掲載のテストをする。

JIS X 0213 付属書4表9
(JIS X 0213 付属書4表9「一般記号」より引用)

JIS第3水準の「連こう (桁) 付き八分音符」「連こう (桁) 付き十六分音符」の字形例である。一見して、何か変だ。3通りの字形例が両方のコードポイントに記されてもよいようなものだが。安価なDTM (DeskTop Music) ソフトを使用しているおかげて、どうでもいいトリビアに気づいてしまった。

ともあれ、JIS X 0208 では「♪」「♭」「♯」しかなかった音楽記号が、JIS X 0213 ではいくつか補充されている。Unicode も調べてみたら、「本気でこんなの実装するのか?」というような仕様が規定されている (笑)。それらについては、また後日ということで。

2006年3月19日

中国のオンライン書店

何年か前に、中国のオンライン書店の一つである新华书店 (四川省の新華書店) で何冊かIT関連の書籍 (英語→中国語の翻訳本) を購入したことがあった。

中国語の勉強という目的以外に、英語の原書と比べて格安だというのも魅力であった。数千円 (数十ドル) するはずの専門書が、数百円 (数十元) 程度で買えてしまう (送料なども考慮しなければならないが、これについては後述)。なかには英文のまま廉価で再出版されているのもある。こんな状況を知ってしまっては、やたら高い日本語の翻訳本を買うのがもったいなく感じてしまう。お金の損失、そして、語学の学習機会の損失 (、と言いつつ、時間や労力の節約という言い訳に多くの場合屈してしまうのだが)。

その新华书店 (四川省の新華書店) で購入した時には、なるべく早く欲しかったので、かなり割り増しだったが航空便の送料を支払い注文した。成都 (四川省の省都) と東京とは週に数便の旅客機の往来もあるし、遅くとも1週間待てば着くだろうと思っていた。だが着いたのは3週間後だった。ラベルを見ると、船便になっていた (苦笑)。うーむ。

ところで送料はいくらだったのだろうか?思い出せない。せっかくだから、あらためて一通りのネット書店を調べてみることにした。以前から買いたいと思っていてまだ買っていない英語の原書「Robert Love, "Linux Kernel Development (2nd Edition)", Novell Press, 2005.」とその中国内出版「Linux内核设计与实现(第二版),机械工业出版社」(英語版および中国語版) を対象とした。もちろん配送先は日本とし、価格、料金は現時点のものである。

ネット書店 国・通貨 書籍価格
(一般会員)
日本への送料 送料の規定など
Amazon.com 米国
米ドル
(原書)
28.34
(航空便)
28.98
(船便)
11.48
国別に規定あり
航空便 (2~4営業日) は (21.99 + 6.99×冊数)ドル
船便 (13~20営業日) は (6.99 + 4.49×冊数)ドル
船便の料金割増速達もあり
Amazon.co.jp 日本
(原書)
5601
0 1500円以上は国内送料無料
卓越网
(卓越網)
Amazon.com傘下
中国
人民元
(英語)
32.00
(中国語)
32.30
(航空便)
170.00
(船便)
60.00
各国を5段階に分けた規定あり
航空便 (2~3日) は (100.00 + 70.00×冊数)元
船便 (10~20日) は (60.00×冊数)元
当当网
(当当書店)
中国
人民元
(英語)
31.20
(中国語)
29.60
(航空便)
100.00
(船便)
50.00
航空便 (4~10日) は価格の120%、ただし100元が下限
船便 (4~8週間) は価格の50%、ただし50元が下限
メール送金 (PayPal) 利用可
华储网
(華儲網上電脳書店)
中国
人民元
(英語)
32.00
(中国語)
30.40
英語版の場合
(航空便)
96.00
(船便)
19.20
航空便 (15日前後) は価格の300%
船便 (1~2ヶ月) は価格の60%
ウエスタンユニオン国際送金 (スルガ銀行) を利用可
中国图书网
(中国図書)
中国
人民元
(英語)
34.00
(中国語)
32.30
(航空便)
100.00
海外向けは航空便 (EMS、アジアへ5日以内) のみ
価格の180%、ただし100元が下限
蔚蓝网络书店
(蔚藍網絡書店)
中国
人民元
(英語)
32.00
(中国語)
30.40
(航空便)
180.00
海外向けは航空便 (EMS、3~5営業日) のみ
価格25元までは送料115元
価格25元を超える場合は25元毎に送料25元
さらに40元を加算 (なぜ?)

(3月21日、30日訂正) いくつかの中国のオンライン書店サイトにおいてクレジットカード利用不可としていたが、電子決済サービス (首信易支付YeePay易宝环迅IPSなどのいずれか) 経由ですべて利用できるため、表中の記述を訂正した。以下の文章についてもそれに合わせて変更した。

以下いくつか補足する。現在の為替レート (仲値) は、1米ドル=116円、1人民元=15円程度である。利用するクレジットカードや電子決済サービスによっては為替手数料などが異なる場合があるため留意する必要がある。到着までの期間はそれぞれのサイトの記載をそのまま記した。国や地域を限定していない場合にはかなりの誤差があると思われる。

IT関連書籍を一冊だけ買うなら华储网 (華儲網上電脳書店) が良さそうで、特に船便の安さは魅力的である。一度試しに買ってみようかと思う。ただし、何冊かまとめ買いしてしまうと、後述する当当网 (当当書店) よりも送料が高くつくことになる。(3月30日一部削除:「中国の電子決済サービスというものを利用したことがなく 、その点が不安」と記していましたが、新华书店で利用していました。)

総合評価としては、この分野ではたしか老舗だったはずの当当网 (当当書店) が一番良さそうである。Googleで「书店 (書店)」をキーワードに検索しても一番目に表示される。中国の銀行口座を持っている人にも選ばれそうな様相である。ただし、返金でトラブったという「ユビュ王の食卓」さんという方のブログ報告も存在するので、やはり実際に試して確認する必要がある。

比較表に新华书店 (四川省の新華書店) を取り上げようかと思ったのだが、英語版を取り扱っておらず、どうも (IT関連では) 品揃えがもうひとつであった (あるいは商品検索エンジンに問題があるかもしれない)。また、送料が明示されておらず、代わりに以下のように記されていた。

运输费用的计算
    如果您一次购买多个商品属于同一个商家(公司)里,将只计算一张订单的运输费用;而如果您一次购买多个商品属于多个商家(公司),将按照各个订单的运输费用分别计算。
运费标准是各个商家自己制定和发布的标准执行的,您在购买该商家的商品时,注意比较其运费的收费标准。

(新华书店「运输说明」)

つまり送料が出版社によって異なるということらしい。不可解である。ここもたしか老舗だったはずでGoogle検索の上位にはランクされるのだが、昔から不可解である。

それはともかく、中国のネット書店では、書籍に限らずCDやDVDも相当に割安であり、上手に利用すればかなりお得である、はずである。また不可解な経験をしたら、ここで報告しようと思う (苦笑)。

2006年3月11日

Adobe の GB18030 対応

アンテナソフト (XML や PDF の関連ソフトを開発・販売している日本の会社) のブログ「PDF 千夜一夜」に、Adobe が GB18030 (中国の国家標準文字コード) に対応していないのではと疑問を投げかける記事 (PDF 千夜一夜: 2006年01月16日 「PDFと文字 (24) – Adobe-GB1, Adobe-CNS1, Adobe-Korea1」) があった。

しかし、これらはどうも古いですね。Adobe-GB1なんて2000年の日付になっています。それに肝心のGB18030がカバーされていません。Adobe -CN1、Adobe-Korea1いづれも2003年5月です。これに対して、Adobe-Japan1は2004年6月なので比較的新しいですが。中国や台湾ではアドビシステムズはあまりまじめにやってないのでしょうか?そんなことはないと思いますが。分かりません。

(PDF 千夜一夜: 2006年01月16日 「PDFと文字 (24) – Adobe-GB1, Adobe-CNS1, Adobe-Korea1」)

GB18030 は法的拘束力を持つ国家標準であるのに、さすがにそれはないだろうと思い、原文 ("Adobe-GB1-4 Character Collection for CID-Keyed Fonts") を当たってみた。

1 Introduction

This document describes the Adobe-GB1-4 character collection which supports the Chinese GB 2312-80, GB 1988-89, GB/T 12345-90, GB 13000.1-93, and GB 18030-2000 character set standards.

(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.1.)

いきなり1ページ目の introduction の冒頭から、GB18030-2000 をサポートしていると書かれている。Adobe-GB1-4 が2000年の日付となっているのも、GB18030 に合わせた改定だと解釈すれば、むしろ自然に思われる時期である。

一般に、GB18030-2000 対応と言えば、GB2312、GBK との互換性を保った上で、Unicode 3.0 (ISO/IEC 10646-1:2000) の文字集合 (のうち主にCJK統合漢字と拡張A) に対応していることを指しているはずである。どうも、当該ブログの筆者は、

The major part of Supplement 4, CIDs 22428 through 29058, provides characters to cover the Unified Han Ideographs Extension A, as listed in Unicode Version 3.0/ISO 10646-1:2000.

(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.3)

という記述が実質的には GB18030 対応を意味していることを見落としているように思われる。

ところで、Microsoft の GB18030 対応パッチ (GB18030 Support Package) を当ててみると、このパッチには漢字だけでなく、アラビア文字やイ文字も含まれていることが分かる。GB18030 には、Unicode の文字集合をそのまま収録するためのコードポイントが用意されていて、そうした文字を必要に応じて扱うことができる。

そこでふと疑問に思ったのは、そうした (中国における) 少数民族のフォントも国家標準なのだろうかということである。もしもそうであるなら、そうした文字のフォントも中国の検査機関の審査を通る必要がある (詳しい事情はダイナコムウェア「中国新文字コード規格 GB18030」 などを参照)。もしや英数字も?などと妄想が膨らんでしまうところだったが、そうした疑問への答えは、フォントの審査に関する以下の規格名にあった。

GB/T11460-2000 信息技术汉字字型数据的检测方法

汉字」、つまりあくまで審査の対象は漢字である。そして、前述した Adobe のドキュメントには、次のように書かれている。

The typeface used to illustrate each character in this section is STSong™ Light, a product of Changzhou SinoType Technology Co., Ltd. STSong Light is certified by the Press and Publication Administration of the People’s Republic of China, the China State Language Commission, and the National Typeface Committee; and is recommended for use in official and professional publications.

(Adobe Systems, "Adobe-GB1-4 Character Collection for CID-Keyed Fonts", Adobe Developer Support Technical Note #5079, 2000, p.3)

ここで "this section" とは、"2 The Adobe-GB1-4 Character Collection" のことであり、Adobe-GB1-4 に収録されている文字集合の全体を指す。書体として STSong Light を使用し、それは中国の各当局から認証 (certified) されているとのことである。かくして、Adobe が GB18030 (とその関連規格) に対応していることを再確認できる。

2006年3月 5日

小形克宏さんからレビューを頂いた

先月気づいたのだが、勤め先の大和総研で執筆、掲載していた、「漢字文化圏における文字コードの過去・現在・未来」というレポートに、小形克宏さんのブログ (もじのなまえ) でレビュー (「キャラクターセットの情報交換からグリフセットの情報交換へ」) を頂いていた。

小形克宏さんは、INTERNET Watch の連載企画「小形克宏の「文字の海、ビットの舟」―― 文字コードが私たちに問いかけるもの」で知られる方である。そもそも、私はこの方に触発されてレポートを書いたようなものであり、レビューを頂けたこと自体、本望である。当のレポートについては、立てた主題の壮大さと比して、時間もページ数も私の能力もいささか不足し、個人的には少々消化不良で終わってしまった感がある。それでも言いたかったことはそれなりに伝わっていたようで、評価して頂き大変うれしく思った。どうもありがとうございます。

以下、いくつかコメント。

それから文字についてスッキリ視点が整理されていることも特徴。今まで僕はグリフ(Glyph)*1をJIS X 0208などにおける「字体」と、本当に同じに考えてよいのかためらっていましたが、この文章ではきっぱり同じに定義しており、僕としては「そっか、これでよかったんだ」と力を得ました。となると、グリフを包摂したものが文字コード規格の「キャラクター」(正確には制御文字を除いた図形文字)であるということになりますね。こうすればAdobe-Japan1-5なんかのグリフセットを、JISなどのキャラクターセットと同じ文脈で論じ分けることができます。おお、一歩前進だ。

(もじのなまえ - キャラクターセットの情報交換からグリフセットの情報交換へ)

「グリフ (glyph)」と「字体」について、当のレポートでは、「きっぱり同じに定義」ではなく「同義と見なす」とした (PDF の28ページ)。小形さんと同様に私もかなり迷い、最終的には、レポートの脚注にも記した情報処理学会・情報規格調査会「文字コード標準体系専門委員会報告書」(2002年)  におおむね倣った。この報告書には以下のように記されている。

– 字体 (glyph)
文字の抽象的な形 (骨格) の概念で、文字の骨組みなどともいわれ、具体的に視覚化することは不可能である。(ISO/IEC TR15285、国語審議会資料などから。) 本委員会では、漢字部首も符号化文字に含まれる、という立場から、部首にも“字体 (glyph)”が存在すると考える。

(情報処理学会・情報規格調査会, 「文字コード標準体系専門委員会報告書」 p.69, 2002.)

つまり、「字体」の英訳自体が「glyph」となっている。漢字の議論をする際には、これが適切だろう。そうすれば、(漢字の議論において) 「文字コード」と「グリフセット」を、字体包摂の有無によって明確に区別可能となり、議論がしやすくなる。小形さんのご指摘の通りである。

ただ、たとえばアルファベット2文字の「fi」が uniscribe によって一つのグリフとして扱われるということはあるし、「字体」と「glyph」は、一般的な定義としてはまったく同じではないのだろう。あくまで当レポートにおいては差し支えない、ということで、「同義と見なす」とした。「見なす」というのは、法律などで多用される、便利な表現である (濫用は禁物だろうが・・・)。

なお、参考文献として小形さんの連載 (「文字の海、ビットの舟」) を挙げさせていただいたことについて、現在は URL が変更されているとのご指摘を頂いた。勤め先の担当者に連絡して訂正させて頂いた。ご推察の通り、昔から拝読しています。連載の今後に期待しています。

2006年3月 4日

カーリング映画「シムソンズ」と常呂町

おととい、カーリングを題材とした映画「シムソンズ」を観た。そのレビューを Amazon.co.jp に書いた。問題なければ数日後に掲載される予定。

この映画の舞台となった常呂町は、まもなく日付の変更とともに消滅する。2006年3月5日に北見市と合併するためである (事実上の吸収合併)。常呂町のWebページには、合併についての町民の賛否両論のアンケート結果があり、なかなか考えさせられる。また、「ところ通信」という町内報のPDF版が掲載されており、「シムソンズ」撮影の模様が記されている。これらのページやドキュメントも合併とともに消滅してしまうのだろうか?

lang 属性をつけて再テスト

普段は Web ブラウザとして Firefox を使っている。Firefox では UTF-8 の Web ページに中国語の簡体字が混じっていても、文字化けせずに表示される。しかし Internet Explorer では文字化けしてしまった。span タグを挿入し、lang 属性を zh に指定して、以下再テスト。

你们好。我叫小川创生。 (lang="zh" と指定)
你们好。我叫小川创生。 (xml:lang="zh" と指定)
你们好。我叫小川创生。 (lang 指定無し)

2006年3月 3日

試しにブログを書いてみる

トラックバックをかけて実名で記事を書いてみたくなることが時々あり、これからもありそうなので、試しに始めてみることにする。

始めるついでに、せっかく UTF-8 のブログサイトを意識して選んだのだから、以下、中国語の出力テスト。

你们好。我叫小川创生。
Hello.  My name is Motoyuki Ogawa.

最近の記事

最近のトラックバック

Powered by Blogzine[ブログ人]
ブログ人登録 2008年03月15日