UTF-8というのは、そのコードのエンコードの種類の一つ。
例えば、ひらがなの「あ」。
Unicodeのコードは「U+3042」。
UTF-8でエンコードすると、「0xE38182」。
エンコードのルールは以下のようになってるみたい。
Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
http://www.ietf.org/rfc/rfc3629.txt
基本ができてないと駄目ね、基本が。
0 件のコメント:
コメントを投稿