2008年2月2日土曜日

UnicodeとUTF-8

Unicodeというのは、単に文字に付けたコードを指すだけで、そのコードがメモリ上やファイルにどう保存されるかは全く関与しない。
UTF-8というのは、そのコードのエンコードの種類の一つ。

例えば、ひらがなの「あ」。
Unicodeのコードは「U+3042」。
UTF-8でエンコードすると、「0xE38182」。

エンコードのルールは以下のようになってるみたい。

Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

http://www.ietf.org/rfc/rfc3629.txt

基本ができてないと駄目ね、基本が。

0 件のコメント: