ユニコード実験室

~ 複数の言語を一つのページに混在させるための四苦八苦 ~

2002年2月13日記

当サイトにあるCDラックのページは、その性格上、多くの言語を取り扱う必要があります。現在のところ、日本以外の国のアーティストについては、ラテン文字で表記可能な言語で紹介できるものばかりなのですが、それでもある程度の限界が生じています。また既に、ギリシャ文字を用いて表記してあるページ (www.tazi-k.net/cdrack/artists/t/TakisFarazis.html) においては、不正確な記述のまま公開しているという現状があります (※追記 ―2002年10月21日― ISO-2022-JPのままでも何とかなることが分かったため、訂正しました)。そして今後、韓国語・中国語・ロシア語などを表記するための文字で紹介せざるを得ない製品を購入することがないとは言い切れません。そこで、サイトの文字符号化方法を、UTF-8 に変更することを模索しています(サイト全体でなく、CDラックのページだけでも)。

現状で使っている ISO-2022-JP は、その名の通り日本語の文字を符号化するためのものです。この符号化方法ですと、ラテン文字に関しては、たとえ特殊な記号がついているものであっても実体参照(文字参照)により表記することが可能ですが、それ以外の文字を表記したい場合、画像を用いるしか手がありません(嘘かも知れません。詳しいことは良く知らないので)(※追記―2002年10月17日―できる事が分かりました。詳しくは追加したページにて。しかし、画像データでは周囲の文字とのレイアウトを揃えることが出来ませんし、CD紹介のページのように文字の分量が多くなると読み込むのが大変です。

ところが、ユニコードを用いて UTF-8 で符号化することにより、日本語を始めとする非西欧圏の言葉でも一つのページに混在させることが出来るそうです。これの制定に当たっては、色々揉め事もあったようですし、現在も問題点が多々指摘されているようです。しかし、使用する側から言ってしまえば、もはやそんなことはどうでも良い。いろいろな文字を一つのファイルに混在させることが出来るという利点は、私が開設しているサイトの趣旨にとって大いに意義のあることだと言えます(UTF-8やユニコードについて、私は専門的な知識があまりに不足しているため、詳しいことは他のサイトや文献に譲ることにします)。簡単なファイル作成作業でそれが実現できるのであれば、すぐにでも取り入れたいところです。

しかしながら、現状では UTF-8 を採用したページの公開に踏み切るのは時期尚早といった意見も聞こえてきます(おそらく、閲覧ソフトの対応がそこまで進んでいないということを危惧しているのでしょう)。そこで、本格的に UTF-8 採用に移行する前に、このページで、本当に各国の言語が表記可能なのか確認することも含めて、実験をしてみたいと思います。


本当に出来るか やってみよう

~ それぞれの言葉の意味は良く分かんないけれど ~

※以下、環境によって文字が表示されたりされなかったりするはずですので、ご注意ください。

ハングル
모든 휴대폰으로 사용 가능하며, 휴대폰 요금은 따로 부과되지 않습니다
キリル
ГЛАВНЬІЙ ОПЕРАТОР ВАДИМ ЮСОВ КОМПОЗИТОР ЭДУАРД АРТЕМЬЕВ
中国語簡体
生产日期、保质期见罐底第一、二行标示(年月日)存放于干燥
ギリシャ
Ο David Lynch ευχαριστεί τον Πέτρο Μιχαλιτσιάνο για την συντήρηση των πνευστών του.
ヘブライ
ב׀׳גאר לירבי׳גל תאפרע ןיב השק ך׀םכם
アラビア (※2002年11月24日訂正:ちゃんとした文章を記述しました)
مفتشون إضافيون وعشرون طنا من المعدات في بغداد
ラテン(スウェーデン語の例)
Du söker nån med vingar i en värld så trång

どうやら、ちゃんと表記することはできるようです。ハングルや漢字は膨大な数の文字があるので、一文字一文字パレットから探して入力していくのが大変な作業になりますが、それさえ何とかなれば何とか行けそうです。

問題となるのは、やはり環境によっては読めないことがあるという点でしょう。こちらの Microsoft Windows 2000 5.00.2195 Service Pack 2 の上では、Mozilla/5.0(rv:0.9.8)MSIE 6.0.2600.0000 については意図どおりの表示を行ってくれました。Opera/6.0 は、簡体字が表示されず、また、右から左へ書く言語への対応が変です(一つ一つの単語(?)の中では文字が右から左に並ぶが、それらの単語を左から右に並べてしまう。dir="rtl" を指定してもダメ)。文字が出てこないのはフォントの設定を誤っているからかも知れませんので、これだけでは表示不能と判断できませんが、環境が違うと読めなくなるのは確かです。また、同じウェブブラウザーでもバージョンが違うと、おそらく違う振る舞いをするものと思います。

(※上の段落、2002年11月24日に記述を訂正。MSIEも かなりの精度で表示を行ってくれることが判明しました)

Lynx 2.8.5 は、実装に苦労しただろうなと思わせる表示になります。もしかしたら、文字列を見て元の言葉が分かるような超人がいるのかも知れませんが、一般には判読は不可能でしょう。違うパソコンで見たところ、Mozilla/4.xx では日本語以外の文字が殆ど表示されないようです。

しかし、よほど特殊な文字を記述しようと思わない限り、どうにか実現できそうなことは分かりました。しばらく試行錯誤を重ねたいと思います。

と言うか、どなたか良いエディターを紹介して下さいませんか?(xyzzyは、ラテン文字の入力に少々難アリ)(※キーボードや入力ロケールの設定で何とかなることが分かりました。詳しくは3ページ目にて)


このページの文字について、あるいは文章について、お気づきの点がありましたら、メール等でお知らせ下されば幸いです。

web TAZI のトップページへ
mailto : tardy@k.email.ne.jp