天泣記

URI にもエスケープの記法がある。パーセントエンコーディングと呼ばれる、%xx というやつで、16進で文字を記述できる。

CやRuby では、バックスラッシュの倍増によって空きを作っており、 HTML では & を & に変換することによって空きを作っている。

URI では、パーセント (%) を使用する。つまり、% を %25 に変換することによって空きを作る。これにより、パーセント以外の文字は、その文字を直接記述する表現と、パーセントエンコーディングされた表現の 2種類の表現をもつことになる。

このようにして (パーセント以外の文字については) ひとつの文字についてふたつの表現が可能になったので、どちらかをその文字自身を意味する表現とし、もう一方にそれ以外の機能を割り当てることが可能になる。

#3 [escape] パーセントエンコーディングの役割 [CODE blog]

さて、ここで、「それ以外の機能」というのがどういうものか、というのが問題である。

CやRuby の文字列、あるいは HTML のテキストや属性では、文字列を文字列に埋め込む都合により終端を検出する必要があって、終端という機能を割り当てた。

Ruby の正規表現では、正規表現を文字列に埋め込む都合により、終端に加えて正規表現の機能を割り当てた。

それで URI は、というと、パーセントエンコーディングには終端の検出という意図はないように思える。

URI が他の文字列に埋め込まれる例としては HTML のリンクがある。つまり a 要素の href 属性であるが、 HTML の属性には任意の文字列を埋め込んで終端を検出する機能が (文字実体参照というエスケープ機構によって) 提供されているので、 URI がどんな文字列として表現されようが終端を検出しそこねることはない。

では、パーセントエンコーディングの目的は何か、というと、 URI の内部の構造で、その構造を表現するのに使っている文字を、構造とは関係なく使用するためにある。たとえば、http://host/path?query という URL では、 path と query は ? で区切られている。そのため、path には ? という文字を直接使うことはできない。しかし、ファイル名に ? が含まれていたとかの事情があり、どうしても使う必要があるときには、? に対応する %3F を使用するのである。つまり、パーセントエンコーディングは path の終端を検出できるようにしている。

というように、パーセントエンコーディングされた %xx は対応する文字自身を意味し、URI 内の区切りではない意味に割り当てられる。では、パーセントエンコーディングされていない文字はどのような意味を持つのか、というのが問題である。

#4 [escape] URI の機能 [CODE blog]

このように、終端検出以外の意味を持つということは、 URI におけるエスケープ機構の位置づけは、 C言語の文字列というよりは、Ruby の正規表現に近い。

Ruby の正規表現には、正規表現エンジンの機能に対応する記法がある。

それなら URI ではどんな機能に対応する記法なのかというと、そこが難しい。正規表現では、具体的な正規表現エンジンがあって、機能を調べることができる。しかし、URI では、URI の仕様 (RFC:3986) 自体には個々の URI にどのような機能があるかということは規定されていない。そのかわりに、URI 全体に適用されるいくらかの制限が規定され、細かいところは scheme 毎に定義されるということになっている。

scheme 毎の仕様はどこを探せばいいかというと、 IANA で URI scheme の仕様のリストが管理されている。

たとえば、http については、このリストを見ると、RFC:2616 で定義される、ということがわかる。

しかし、それで終わりか、というとそうではない。ブラウザからフォームをサブミットするとき、フォームの内容をどのようにパーセントエンコーディングしてサーバに送るか、ということを規定する application/x-www-form-urlencoded は HTML の仕様の中で定義されている。

もちろん、http でない URI はまた別の仕様があるし、 http であってもフォームのサブミット以外の用途であれば application/x-www-form-urlencoded に従う必要はない。

URI の scheme は後から後から新しいのが提案されてそのたびに URI の仕様自体をいじるのは無謀だし、まして個々のアプリケーションがパーセントエンコーディングをどう使うかというのにあわせて URI の仕様を更新するのは非現実的である。

というわけで、URI の仕様自体は、個々の URI がどのような機能に対応するかを規定することはできないし、していない。ある構文を決めて、その意味は各 scheme の仕様に任せてしまうのである。そして、各 scheme の仕様が、その構文の要素に対して意味をつけたり、使わないとしたり、あるいは他の規格やアプリケーションの自由にまかすというわけである。

#5 [escape] URI の仕様が規定していること [CODE blog]

では、URI の仕様は何を規定しているかというと、エスケープの観点からするとまず以下のことを決めている。

・ 紙に書いたりディスプレイに表示するという要求を満たすため、(エスケープ済みの URI で) ASCII の表示可能文字以外は使わないと決定
・ いくつかの不都合な文字も使わないと決定 ["], [<], [>], [\], [^], [`], [{], [|], [}]
・ エスケープにはパーセントエンコーディングを使うと決定
・ unreserved と呼ばれるアルファベットと数字およびその他いくつかの記号 ([-], [.], [_], [~]) はパーセントエンコーディングしてもしなくても同じ意味であると決定

最初のは、日本語とかの問題はあるが、それは IRI (RFC:3987) の話になるのでここでは触れない。ともかく ASCII の表示可能文字だけを扱う。 ASCII の表示可能文字はコード順に ! から ~ までの 94 文字である。

次の、不都合な文字 9文字を使わないという決定は、RFC:3986 では理由は述べられていない。単に使用できる文字としてあげられていないだけである。これについては後で触れる。

そして、パーセントエンコーディングの決定により、 94 文字のうち、パーセント (%) の機能が決定する。このことは、パーセントという文字自体を表現したいときには必ず %25 を使用しなければならないということを意味する。

最後の unreserved はアルファベットの大文字小文字 26*2=52文字と、数字の 0 から 9 までの 10文字、ハイフン (-)、ドット (.)、アンダースコア (_)、チルダ (~) の計 52+10+4=66文字はパーセントエンコーディングしてもしなくても意味は変わらないということである。たとえば、チルダに対応する %7E を使った場合には常にチルダを生で書いても同じことになる。

というわけで、パーセントエスケープによって文字列の中にさまざまな機能を割り当てる余裕ができたのだが、使わない文字もそれなりにあり、パーセント自身はエスケープ以外には使えないし、 unreserved もその文字自身を表す以外には使わないと決定したので、 ASCII の表示可能文字 94文字のうち、残りの 94-9-1-66=18文字に機能を割り当てる余地がある。

この 18文字とは "!", "#", "$", "&", "'", "(", ")", "*", "+", ",", "/", ":", ";", "=", "?", "@", "[", "]" である。

#6 [escape] URI には不都合な文字 [CODE blog]

["], [<], [>], [\], [^], [`], [{], [|], [}] という 9個の文字を不都合な文字として使わないとしたが、この理由は RFC:3987 には触れられていない。

しかし、以前の RFC:2396 やさらに前の RFC:1738 を読むと理由が浮かんでくる。 RFC:2396 には ["], [<], [>] の 3文字が、URI を区切るためによく用いられるから、と述べられている。たしかに、["] は HTML で使うし、文書の中ではアングルブラケットで URL を括ろうという提案も以前あった。

また、[\], [^], [`], [{], [|], [}] については、ゲートウェイや他の転送エージェントにより変化するかもしれない、という理由が述べられているが、具体的にどのゲートウェイが問題になるかということは述べられていない。さらに遡って RFC:1738 をみると、ゲートウェイが、という記述自体は同じであるが、 ABNF の非終端記号で、これらの文字に national という名前がついている。

national というので思い出すのは ISO 646 の各国版である。 ISO 646 は 94文字集合であるが、そのうち 82文字は全体で共通で、残りの 12文字をアメリカとか、日本とか、イギリスとか、各国で定義する。そして、national というのは、その 12文字の部分集合になっているのである。まぁ、12文字全部でないところが中途半端というかなんであるが。

#7 [escape] URI の reserved と unreserved [CODE blog]

unreserved というものが出てきたが、当然対応する reserved というものもある。 unreserved がパーセントエンコーディングしてもしなくても意味が同じ文字であるのに対し、 reserved はパーセントエンコーディングするとしないとで意味を変えても良い文字である。 (変えなくても良い。その選択は scheme の仕様にまかされている)

ただし、この unreserved という分類に含まれる文字は RFC:3986 と以前の RFC:2396 や RFC:1738 それぞれで微妙に異なっているので、将来的にもずっとこのままだという保証があるわけではない。

・ RFC:3986 Uniform Resource Identifier (URI): Generic Syntax
・ RFC:2732 Format for Literal IPv6 Addresses in URL's
・ RFC:2396 Uniform Resource Identifiers (URI): Generic Syntax
・ RFC:1808 Relative Uniform Resource Locators
・ RFC:1738 Uniform Resource Locators (URL)

それぞれで非終端記号はいろいろと違うが、 reserved と unreserved に関連するのは以下のとおりである。

RFC3986
  reserved    = gen-delims / sub-delims

RFC2396
  alpha    = lowalpha | upalpha
  alphanum = alpha | digit
  unreserved  = alphanum | mark

RFC1738,1808
  alpha          = lowalpha | hialpha
  unreserved     = alpha | digit | safe | extra

で、ASCII の記号についてどの非終端記号に対応するかを表にすると以下のようになる。 (r) がついているのが reserved で、(u) がついているのが unreserved である。ついでなので、ISO 646 の各国版で変わるかもしれないところも書いてある。

URI             IPv6            URI             URL

oct   dec   hex   chr   RFC 3986        RFC 2732        RFC 2396        RFC 1738,1808
041   33    21    !     sub-delims(r)                   mark(u)         extra(u)
042   34    22    "                                     delims          punctuation
043   35    23    #     gen-delims(r)                   delims          punctuation     ISO646可変部
044   36    24    $     sub-delims(r)   reserved(r)     reserved(r)     safe(u)         ISO646可変部
045   37    25    %                                     delims          punctuation
046   38    26    &     sub-delims(r)   reserved(r)     reserved(r)     reserved(r)
047   39    27    '     sub-delims(r)                   mark(u)         extra(u)
050   40    28    (     sub-delims(r)                   mark(u)         extra(u)
051   41    29    )     sub-delims(r)                   mark(u)         extra(u)
052   42    2A    *     sub-delims(r)                   mark(u)         extra(u)
053   43    2B    +     sub-delims(r)   reserved(r)     reserved(r)     safe(u)
054   44    2C    ,     sub-delims(r)   reserved(r)     reserved(r)     extra(u)
055   45    2D    -     unreserved(u)                   mark(u)         safe(u)
056   46    2E    .     unreserved(u)                   mark(u)         safe(u)
057   47    2F    /     gen-delims(r)   reserved(r)     reserved(r)     reserved(r)
072   58    3A    :     gen-delims(r)   reserved(r)     reserved(r)     reserved(r)
073   59    3B    ;     sub-delims(r)   reserved(r)     reserved(r)     reserved(r)
074   60    3C    <                                     delims          punctuation
075   61    3D    =     sub-delims(r)   reserved(r)     reserved(r)     reserved(r)
076   62    3E    >                                     delims          punctuation
077   63    3F    ?     gen-delims(r)   reserved(r)     reserved(r)     reserved(r)
100   64    40    @     gen-delims(r)   reserved(r)     reserved(r)     reserved(r)     ISO646可変部
133   91    5B    [     gen-delims(r)   reserved(r)     unwise          national        ISO646可変部
134   92    5C    \                     unwise          unwise          national        ISO646可変部
135   93    5D    ]     gen-delims(r)   reserved(r)     unwise          national        ISO646可変部
136   94    5E    ^                     unwise          unwise          national        ISO646可変部
137   95    5F    _     unreserved(u)                   mark(u)         safe(u)
140   96    60    `                     unwise          unwise          national        ISO646可変部
173   123   7B    {                     unwise          unwise          national        ISO646可変部
174   124   7C    |                     unwise          unwise          national        ISO646可変部
175   125   7D    }                     unwise          unwise          national        ISO646可変部
176   126   7E    ~     unreserved(u)                   mark(u)         national        ISO646可変部

あと、ここにあげてあるのは記号だけであるが、数字とアルファベットはいつも unreserved である。いちおう代表として 0, A, a だけあげておくと以下の通りである。

060   48    30    0     unreserved(u)                   digit(u)        digit(u)
101   65    41    A     unreserved(u)                   upalpha(u)      hialpha(u)
141   97    61    a     unreserved(u)                   lowalpha(u)     lowalpha(u)

さて、それぞれの RFC で各文字は reserved であったり unreserved であったりそのどちらでもなかったりするわけであるが、 RFC 間でそれが変わっている文字がある。

URI             IPv6            URI             URL

oct   dec   hex   chr   RFC 3986        RFC 2732        RFC 2396        RFC 1738,1808
041   33    21    !     sub-delims(r)                   mark(u)         extra(u)
043   35    23    #     gen-delims(r)                   delims          punctuation     ISO646可変部
044   36    24    $     sub-delims(r)   reserved(r)     reserved(r)     safe(u)         ISO646可変部
047   39    27    '     sub-delims(r)                   mark(u)         extra(u)
050   40    28    (     sub-delims(r)                   mark(u)         extra(u)
051   41    29    )     sub-delims(r)                   mark(u)         extra(u)
052   42    2A    *     sub-delims(r)                   mark(u)         extra(u)
053   43    2B    +     sub-delims(r)   reserved(r)     reserved(r)     safe(u)
054   44    2C    ,     sub-delims(r)   reserved(r)     reserved(r)     extra(u)
133   91    5B    [     gen-delims(r)   reserved(r)     unwise          national        ISO646可変部
135   93    5D    ]     gen-delims(r)   reserved(r)     unwise          national        ISO646可変部
176   126   7E    ~     unreserved(u)                   mark(u)         national        ISO646可変部

たとえば、! は RFC 2732 までは unreserved であったが、RFC 3986 では reserved になっている。 (RFC 2732 は IPv6 の追加だけなので、記載されていないところは RFC 2396 に等しい。) つまり、昔は %21 は ! と等価であることが保証されていたが、今は保証されていない、ということである。

また、# は RFC 2732 までは URI の一部として認められていなかったが、RFC 3986 では reserved になっている。まぁ、これは RFC 3986 から fragment が URI の一部として扱われるようになったという関係の話で、それ以上の話ではない。

ブラケットは RFC 2396 までは URI に使えなかったが、RFC 2732 で reserved となった。これは http://[1080::8:800:200C:417A]/ などといった IPv6 な URI を扱うためで、それ以外に使えるわけではない。

あと、ほとんどの文字が reserved へ変化している中で、唯一 unreserved に変化している文字が ~ である。これは RFC 1738 では national であって URI には使えなかったが、RFC 2396 からは unreserved であり、 %7E と ~ は等価になっている。これは、http://host/~user の用法を追認したという話であろう。

これらの変化を見ると、~ という例外はあるものの、reserved が拡大傾向にある。 unreserved が reserved に変化することも多いし、 URI に使えなかった文字が reserved に変化することもある。いままでパーセントエンコーディングしてもしなくても同じと保証されていた文字が、その保証がなくなるというわけである。つまり、そんな保証は信用しないのが見識である。 URI の正規化とかいって、可能な範囲でパーセントエンコーディングを解くというのはやめておいたほうがいいであろう。

天泣記

2007-02-06 (Tue)

2007-02-07 (Wed)

2007-02-09 (Fri)

2007-02-13 (Tue)

2007-02-19 (Mon)

2007-02-20 (Tue)

2007-02-21 (Wed)

2007-02-22 (Thu)

2007-02-23 (Fri)

2007-02-24 (Sat)

2007-02-25 (Sun)

2007-02-26 (Mon)

2007-02-27 (Tue)

2007-02-28 (Wed)