python基础-理解字符编码ASCII,Unicode和UTF-8

发布时间:2024年01月15日

理解:

字符:人们看的懂的字符

?例如:数值、字母、文字和符号,如:1、a、A、试、$...都表示的是一个字符,在计算机世界中,不同的字符可能需要不用的存储容量进行存储。

字符集:很多字符的集合

常见字符集如下:

  • ASCII字符集:美国人用的基本的字符的集合;
  • GB2312字符集:中国人用的字符的集合;
  • Unicode字符集 :全球的字符收集起来的集合;
字符编码:字符集在计算机中的存储
  • 在计算机存储中都是01标识,所以只能用特定的01去标识字符;
  • 把字符集映射为特定的二进制序列,是一个二进制表现的规则;

1、ASCII字符集

  • 是最早的,美国搞的字符编码;
  • ASCII 编码一共定义了128个字符的编码规则,用七位二进制表示 ( 0x00 - 0x7F )!这些字符组成的集合就叫做 ASCII 字符集!
  • 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。

2、Unicode字符集

  • Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码!
  • Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点;

3、utf-8字符编码

  • UTF-8 在互联网上使用最广的一种 Unicode 的实现方式。
  • UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
  • 解析 UTF-8 编码很简单:

    • 如果一个字节第一位是 0 ,则这个字节就是一个单独字符;
    • 如果第一位是 1 ,连续有几个 1 ,就表示当前字符占用几个字节;
    • 第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
文章来源:https://blog.csdn.net/u013805267/article/details/135509102
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。