编码的意义:计算机中存储的最小单元是一个字节即 8bit,所能表示的字符范围是 255 个, 而人类要表示的符号太多,无法用一个字节来完全表示,固需要将符号编码,将各种语言翻译成计算机能懂的语言。
总共 128 个,用一个字节的低 7 位表示,0?31 控制字符如换回车删除等;
32~126 是打印字符,可通过键盘输入并显示出来;
用来扩展 ASCII 编码,256 个字符,涵盖了大多数西欧语言字符。
双字节编码,总编码范围是 A1-A7,A1-A9 是符号区,包含 682 个字符,B0-B7 是 汉字区,包含 6763 个汉字;
为了扩展 GB2312,加入了更多的汉字,编码范围是 8140~FEFE,有 23940 个码位,能 表示 21003 个汉字。
ISO 试图想创建一个全新的超语言字典,世界上所有语言都可通过这本字典
来相互翻译,而 UTF-16 定义了 Unicode 字符在计算机中存取方法,用两个字节来表 示 Unicode 转化格式。不论什么字符都可用两字节表示,即 16bit,固叫 UTF-
16。
UTF-16 统一采用两字节表示一个字符,但有些字符只用一个字节就可表示,浪费存储空间,而 UTF-8 采用一种变长技术,每个编码区域有不同的字码长度。 不同类型的 字 符 可 以 由 1~6 个字节组成。