python基础-理解字符编码ASCII,Unicode和UTF-8
发布时间:2024年01月15日
理解:
字符:人们看的懂的字符
?例如:数值、字母、文字和符号,如:1、a、A、试、$...都表示的是一个字符,在计算机世界中,不同的字符可能需要不用的存储容量进行存储。
字符集:很多字符的集合
常见字符集如下:
- ASCII字符集:美国人用的基本的字符的集合;
- GB2312字符集:中国人用的字符的集合;
- Unicode字符集 :全球的字符收集起来的集合;
字符编码:字符集在计算机中的存储
- 在计算机存储中都是01标识,所以只能用特定的01去标识字符;
- 把字符集映射为特定的二进制序列,是一个二进制表现的规则;
1、ASCII字符集
- 是最早的,美国搞的字符编码;
- ASCII 编码一共定义了128个字符的编码规则,用七位二进制表示 ( 0x00 - 0x7F )!这些字符组成的集合就叫做 ASCII 字符集!
- 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。
2、Unicode字符集
- Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码!
- Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点;
3、utf-8字符编码
- UTF-8 在互联网上使用最广的一种 Unicode 的实现方式。
- UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
-
解析 UTF-8 编码很简单:
- 如果一个字节第一位是 0 ,则这个字节就是一个单独字符;
- 如果第一位是 1 ,连续有几个 1 ,就表示当前字符占用几个字节;
- 第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
文章来源:https://blog.csdn.net/u013805267/article/details/135509102
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!