Class 文件是一组以 8 个字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在文件之中,中间没有添加任何分隔符,这使得整个 Class 文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。
当遇到需要占用 8 个字节以上空间的数据项时,则会按照高位在前的方式分割成若干个 8 个字节进行存储。一般来说一个Class文件都对应着唯一的一个类或接口的定义信息。
根据《Java 虚拟机规范》的规定,Class 文件格式采用一种类似于 C 语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:“无符号数” 和 “表”。
u1
、u2
、u4
、u8
来分别代表 1
个字节、2
个字节、4
个字节和 8
个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照 UTF-8 编码构成字符串值。_info
”结尾。表用于描述有层次关系的复合结构的数据,整个 Class 文件本质上也可以视作是一张表。这张表由下表所示的数据项按严格顺序排列构成。类型 | 名称 | 数量 | 描述 |
---|---|---|---|
u4 | magic | 1 | 魔数 |
u2 | minor_version | 1 | 次版本号 |
u2 | major_version | 1 | 主版本号 |
u2 | constant_pool_count | 1 | 常量池计数器 |
cp_info | constant_pool | constant_pool_count - 1 | 常量池 |
u2 | access_flags | 1 | 访问标志 |
u2 | this_class | 1 | 类索引 |
u2 | super_class | 1 | 父类索引 |
u2 | interfaces_count | 1 | 接口计数器 |
u2 | interfaces | interfaces_count | 接口索引集合 |
u2 | fields_count | 1 | 字段表计数器 |
field_info | fields | fields_count | 字段表集合 |
u2 | methods_count | 1 | 方法表计数器 |
method_info | methods | methods_count | 方法表集合 |
u2 | attributes_count | 1 | 属性表计数器 |
attribute_info | attributes | attributes_count | 属性表集合 |
每个 Class文件的头 4 个字节被称为魔数(Magic Number),它的唯一作用是确定这个文件是否为一个能被虚拟机接受的 Class 文件。不仅是 Class 文件,很多文件格式标准中都有使用魔数来进行身份识别的习惯,譬如图片格式,如 GIF 或者 JPEG 等在文件头中都存有魔数。使用魔数而不是扩展名来进行识别主要是基于安全考虑,因为文件扩展名可以随意改动。文件格式的制定者可以自由地选择魔数值,只要这个魔数值还没有被广泛采用过而且不会引起混淆。Class 文件的魔数取得很有“浪漫气息”,值为 0xCAFEBABE
(咖啡宝贝?)。这个魔数值在 Java 还被称作 “Oak” 语言的时候(大约是1991年前后)就已经确定下来了。它还有一段很有趣的历史,据 Java 开发小组最初的关键成员 Patrick Naughton 所说:“我们一直在寻找一些好玩的、容易记忆的东西选择0xCAFEBABE
是因为它象征着咖啡品牌 Peet’s Coffee 深受欢迎的 Baristas 咖啡。”
紧接着魔数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号(Minor Version),第7和第8个字节是主版本号(Major Version)。Java的版本号是从45
开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1(JDK1.0~1.1
使用了45.0~45.3
的版本号),高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,因为《Java虚拟机规范》在Class文件校验部分明确要求了即使文件格式并未发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class文件。
例如:JDK1.1能支持版本号为45.0~45.65535
的Class文件,无法执行版本号为46.0
以上的Class文件,而JDK1.2则能支持45.0~46.65535
的Class文件,JDK版本1.8 可生成的Class文件主版本号最大值为52.0
。
JDK 版本 | -target 参数 | -source 参数 | 版本号 |
---|---|---|---|
JDK 1.1.8 | 不支持 target 参数 | 不支持 | 45.3 |
JDK 1.2.2 | 不带(默认为-target 1.1) | 1.1~1.2 | 45.3 |
JDK 1.2.2 | -target 1.2 | 1.1~1.2 | 46.0 |
JDK 1.3.1_19 | 不带(默认为-target 1.1) | 1.1~1.3 | 45.3 |
JDK 1.3.1_19 | -target 1.3 | 1.1~1.3 | 47.0 |
JDK 1.4.2_10 | 不带(默认为-target 1.2) | 1.1~1.4 | 46.0 |
JDK 1.4.2_10 | -target 1.4 | 1.1~1.4 | 48.0 |
JDK 5.0_11 | 不带(默认为-target 1.5), 后续版本不带 target 参数默认编译的 Class 文件均与其 JDK 版本相同 | 1.1~1.5 | 49.0 |
JDK 5.0_11 | -target 1.4 -source 1.4 | 1.1~1.5 | 48.0 |
JDK 6 | 不带(默认为-target 6) | 1.1~6 | 50.0 |
JDK 7 | 不带(默认为-target 7) | 1.1~7 | 51.0 |
JDK 8 | 不带(默认为-target 8) | 1.1~8 | 52.0 |
JDK 9 | 不带(默认为-target 9) | 6~9 | 53.0 |
JDK 10 | 不带(默认为-target 10) | 6~10 | 54.0 |
JDK 11 | 不带(默认为-target 11) | 6~11 | 55.0 |
JDK 12 | 不带(默认为-target 12) | 6~12 | 56.0 |
JDK 13 | 不带(默认为-target 13) | 6~13 | 57.0 |
紧接着主、次版本号之后的是常量池入口,常量池可以理解为Class文件之中的资源仓库,它是Class文件结构中与其他项目关联最多的数据,通常也是占用Class文件空间最大的数据项目之一,另外,它还是在Class文件中第一个出现的表类型数据项目。
由于常量池中的常量的数量是不固定的,所以在常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值 (constant_pool_count)。与Java中语言习惯不一样的是,这个容量计数是从1而不是0开始的,常量池容量为十六进制数0x0016
,即十进制的22
,这就代表常量池中有21项常量,索引值范围为1~21
。在Class文件格式规范制定之时,设计者将第 0 项常量空出来是有特殊考虑的,这样做的目的在于,如果后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义,可以把索引值置为 0 来表示。Class文件结构中只有常量池的容量计数是从1
开始,对于其他集合类型,包括接口索引集合、字段表集合、方法表集合等的容量计数都一般习惯相同,是从0
开始的。
常量池中主要存放两大类常量:字面量 和 符号引用。字面量比较接近于Java语言层面的常量概念,如文本字符串、声明为final
的常量值等。而符号引用则属于编译原理方面的概念,主要包括下面几类常量:
Java代码在进行Javac
编译的时候,并不像C和C++那样有“连接”这一步骤,而是在虚拟机加载Class文件中不会保存各个方法、字段的最终内存布局信息,因此这些字段、方法的符号引用不经过运行转换的话无法得到真正的内存入口地址,也就无法直接被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址之中。
常量池中每一项常量都是一个表,最初常量表中共有 11 种结构各不相同的表结构数据,后来为了更好地支持动态语言调用,额外增加了 4 种动态语言相关的常量,为了支持 Java 模块化系统,又加入了CONSTANT_Module_info
和CONSTANT_Package_info
两个常量,所以截止 JDK 13,常量表中分别有 17 种不同类型的常量。
这 17 类表都有一个共同的特点,表结构起始的第一位是一个u1
类型的标志位(tag
,取值见下表中标志列),代表着当前常量属于哪种常量类型。17 种常量类型所代表的具体含义如下表所示。
类型 | 标志 | 描述 |
---|---|---|
CONSTANT_Utf8_info | 1 | UTF-8编码的字符串 |
CONSTANT_Integer_info | 3 | 整型字面量 |
CONSTANT_Float_info | 4 | 浮点型字面量 |
CONSTANT_Long_info | 5 | 长整型字面量 |
CONSTANT_Double_info | 6 | 双精度浮点型字面量 |
CONSTANT_Class_info | 7 | 类或接口的符号引用 |
CONSTANT_String_info | 8 | 字符串类型字面量 |
CONSTANT_Fieldref_info | 9 | 字段的符号引用 |
CONSTANT_Methodref_info | 10 | 类中方法的符号引用 |
CONSTANT_InterfaceMethodref_info | 11 | 接口中方法的符号引用 |
CONSTANT_NameAndType_info | 12 | 字段或方法的部分符号引用 |
CONSTANT_MethodHandle_info | 15 | 表示方法句柄 |
CONSTANT_MethodType_info | 16 | 表示方法类型 |
CONSTANT_Dynamic_info | 17 | 表示一个动态计算常量 |
CONSTANT_InvokeDynamic_info | 18 | 表示一个动态方法调用点 |
CONSTANT_Module_info | 19 | 表示一个模块 |
CONSTANT_Package_info | 20 | 表示一个模块中开放或者导出的包 |
类型 | 项目 | 类型 | 描述 |
CONSTANT_Utf8_info | tag | u1 | 值为1 |
length | u2 | utf-8缩略编码字符串占用字节数 | |
bytes | u1 | 长度为length的utf-8缩略编码字符串 | |
CONSTANT_Integer_info | tag | u1 | 值为3 |
bytes | u4 | 按照高位在前储存的int值 | |
CONSTANT_Float_info | tag | u1 | 值为4 |
bytes | u4 | 按照高位在前储存的float值 | |
CONSTANT_Long_info | tag | u1 | 值为5 |
bytes | u8 | 按照高位在前储存的long值 | |
CONSTANT_Double_info | tag | u1 | 值为6 |
bytes | u8 | 按照高位在前储存的double值 | |
CONSTANT_Class_info | tag | u1 | 值为7 |
index | u2 | 指向全限定名常量项的索引 | |
CONSTANT_String_info | tag | u1 | 值为8 |
index | u2 | 指向字符串字面量的索引 | |
CONSTANT_Fieldref_info | tag | u1 | 值为9 |
index | u2 | 指向声明字段的类或接口描述符CONSTANT_Class_info的索引项 | |
index | u2 | 指向字段描述符CONSTANT_NameAndType_info的索引项 | |
CONSTANT_Methodref_info | tag | u1 | 值为10 |
index | u2 | 指向声明方法的类描述符CONSTANT_Class_info的索引项 | |
index | u2 | 指向名称及类型描述符CONSTANT_NameAndType_info的索引项 | |
CONSTANT_InterfaceMethodref_info | tag | u1 | 值为11 |
index | u2 | 指向声明方法的接口描述符CONSTANT_Class_info的索引项 | |
index | u2 | 指向名称及类型描述符CONSTANT_NameAndType_info的索引项 | |
CONSTANT_NameAndType_info | tag | u1 | 值为12 |
index | u2 | 指向该字段或方法名称常量项的索引 | |
index | u2 | 指向该字段或方法描述符常量项的索引 | |
CONSTANT_MethodHandle_info | tag | u1 | 值为15 |
refrence_kind | u1 | 值必须在1-9之间,决定了方法句柄的类型,方法句柄的类型的值表示方法句柄字节码的行为 | |
refrence_index | u2 | 值必须是对常量池的有效索引 | |
CONSTANT_MethodType_info | tag | u1 | 值为16 |
descriptor_index | u2 | 值必须对常量池的有效索引,常量池在该处的项必须是CONSTANT_Utf8_info表示方法的描述符 | |
CONSTANT_Dynamic_info | tab | u1 | 值为17 |
bootstrap_method_attr_index | u2 | 值必须对当前Class文件中引导方法表的bootstrap_methods[]数组的有效索引 | |
name_and_type_index | u2 | 值必须对当前常量池的有效索引,常量池中在该索引处的项必须是CONSTANT_NameAndType_info结构,表示方法名和方法描述符 | |
CONSTANT_InvokeDynamic_info | tag | u1 | 值为18 |
bootstrap_method_attr_index | u2 | 值必须对当前Class文件中引导方法表的bootstrap_methods[]数组的有效索引 | |
name_and_type_index | u2 | 值必须对当前常量池的有效索引,常量池中在该索引处的项必须是CONSTANT_NameAndType_info结构,表示方法名和方法描述符 | |
CONSTANT_Module_info | tag | u1 | 值为19 |
name_index | u2 | 值必须对常量池的有效索引,常量池在该处的项必须是CONSTANT_Utf8_info表示模块名 | |
CONSTANT_Package_info | tag | u1 | 值为20 |
name_index | u2 | 值必须对常量池的有效索引,常量池在该处的项必须是CONSTANT_Utf8_info表示包名 |
在常量池结束之后,紧接着的两个字节代表访问标志 (access_flags),这个标志用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口;是否定义为public
类型;是否定义为abstract
类型,如果是类的话,是否被声明为final
等,具体的标志位以及标志的含义如下:
字段的访问权限 | ||
FlagName | Value | Remarks |
ACC_PUBLIC | 0x0001 | pubilc,包外可访问。 |
ACC_PRIVATE | 0x0002 | private,只可在类内访问。 |
ACC_PROTECTED | 0x0004 | protected,类内和子类中可访问。 |
ACC_STATIC | 0x0008 | static,静态。 |
ACC_FINAL | 0x0010 | final,常量。 |
ACC_VOILATIE | 0x0040 | volatile,直接读写内存,不可被缓存。不可和ACC_FINAL一起使用。 |
ACC_TRANSIENT | 0x0080 | transient,在序列化中被忽略的字段。 |
ACC_SYNTHETIC | 0x1000 | synthetic,由编译器产生,不存在于源代码中。 |
ACC_ENUM | 0x4000 | enum,枚举类型字段 |
ACC_MODULE | 0x8000 | 标识这是一个模块 |
类索引(this_class) 和父类索引(super_class) 都是一个u2类型的数据, 而接口索引集合(interfaces) 是一组u2类型的数据的集合, Class文件中由这三项数据来确定该类型的继承关系。 类索引用于确定这个类的全限定名, 父类索引用于确定这个类的父类的全限定名。 由于Java语言不允许多重继承, 所以父类索引只有一个, 除了java.lang.Object之外, 所有的Java类都有父类, 因此除了java.lang.Object外, 所有Java类的父类索引都不为0。 接口索引集合就用来描述这个类实现了哪些接口, 这些被实现的接口将按implements关键字(如果这个Class文件表示的是一个接口, 则应当是extends关键字) 后的接口顺序从左到右排列在接口索引集合中。
字段表(field_info) 用于描述接口或者类中声明的变量。 Java语言中的“字段”(Field) 包括类级变量以及实例级变量, 但不包括在方法内部声明的局部变量。 字段可以包括的修饰符有字段的作用域(public、 private、 protected修饰符) 、 是实例变量还是类变量(static修饰符) 、 可变性(final) 、 并发可见性(volatile修饰符, 是否强制从主内存读写) 、 可否被序列化(transient修饰符) 、 字段数据类型(基本类型、 对象、 数组) 、字段名称。 上述这些信息中, 各个修饰符都是布尔值, 要么有某个修饰符, 要么没有, 很适合使用标志位来表示。 而字段叫做什么名字、 字段被定义为什么数据类型, 这些都是无法固定的, 只能引用常量池中的常量来描述。 字段表的最终格式如下。
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attributes_count | 1 |
attribute_info | attributes | attributes_count |
可以设置的标志位和含义如下所示:
标志名称 | 标志值 | 含义 |
---|---|---|
ACC_PUBLIC | 0x0001 | 字段是否为public |
ACC_PRIVATE | 0x0002 | 字段是否为private |
ACC_PROTECTED | 0x0004 | 字段是否为protected |
ACC_STATIC | 0x0008 | 字段是否为static |
ACC_FINAL | 0x0010 | 字段是否为final |
ACC_SYNCHRONIZED | 0x0020 | 字段是否为synchronized |
ACC_TRANSIENT | 0x0080 | 字段是否为transient |
ACC_ABSTRACT | 0x0400 | 字段是否为abstract |
ACC_SYNTHETIC | 0x1000 | 字段是否为编译器自动产生 |
name_index
和descriptor_index
。 它们都是对常量池项的引用, 分别代表着字段的简单名称以及字段和方法的描述符。
org.apache.xxxx
,器全限定名为org/apache/xxxx
。inc()
方法和m
字段的简单名称分别就是“inc
”和“m
”。byte、 char、 double、 float、 int、 long、 short、 boolean
) 以及代表无返回值的void
类型都用一个大写字符来表示, 而对象类型则用字符L
加对象的全限定名来表示,祥见下表:标识字符 | 含义 |
---|---|
B | 基本类型byte |
C | 基本类型char |
D | 基本类型double |
F | 基本类型float |
I | 基本类型int |
J | 基本类型long |
S | 基本类型short |
Z | 基本类型boolean |
V | 特殊类型void |
L | 对象类型,如java/lang/Object |
对于数组类型, 每一维度将使用一个前置的“[
”字符来描述, 如一个定义为“java.lang.String[][]
”类型的二维数组将被记录成“[[Ljava/lang/String;
”, 一个整型数组“int[]
”将被记录成“[I
”
用描述符来描述方法时, 按照先参数列表、 后返回值的顺序描述, 参数列表按照参数的严格顺序放在一组小括号“()
”之内。 如方法void inc()
的描述符为“()V
”, 方法java.lang.String toString()
的描述符为“()Ljava/lang/String;
”, 方法int indexOf(char[]source, int sourceOffset, int sourceCount, char[]target,int targetOffset, int targetCount, int fromIndex)
的描述符为“([CII[CIII)I
”
Class文件存储格式中对方法的描述与对字段的描述采用了几乎完全一致的方式, 方法表的结构如同字段表一样, 依次包括访问标志(access_flags
) 、 名称索引(name_index
) 、 描述符索引(descriptor_index
) 、 属性表集合(attributes
) 几项,如下图所示
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attributes_count | 1 |
attribute_info | attributes | attributes_count |
在访问标志和属性表集合的可选项中有所区别,因为volatile
关键字和transient
关键字不能修饰方法, 所以方法表的访问标志中没有了ACC_VOLATILE
标志和ACC_TRANSIENT
标志。 与之相对, synchronized、 native、 strictfp
和abstract
关键字可以修饰方法, 方法表的访问标志中也相应地增加了ACC_SYNCHRONIZED、ACC_NATIVE、 ACC_STRICTFP
和ACC_ABSTRACT
标志。
1、Code属性
Java 程序方法体里面的代码经过 javac 编译器处理之后,最终变为字节码指令存储在 Code 属性内。 Code属性出现在方法表的属性集合之中, 但并非所有的方法表都必须存在这个属性, 譬如接口或者抽象类中的方法就不存在Code属性。如果方法表有 Code 属性存在,那么它的结构将如下表所示。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | max_stack | 1 |
u2 | max_locals | 1 |
u4 | code_length | 1 |
u1 | code | code_length |
u2 | excention_table_length | 1 |
Code属性是Class文件中最重要的一个属性, 如果把一个Java程序中的信息分为代码(Code, 方法体里面的Java代码) 和元数据(Metadata, 包括类、 字段、 方法定义及其他信息) 两部分, 那么在整个Class文件里, Code属性用于描述代码, 所有的其他数据项目都用于描述元数据。
如果大家注意到javap
中输出的“Args_size
”的值,可能还会有疑问:这个类有两个方法—实例构造器 <init>()
和 inc()
,这两个方法很明显都是没有参数的,为什么Args_size
会为1
?而且无论是在参数列表里还是方法体内,都没有定义任何局部变量,那Locals
又为什么会等于1
?如果有这样疑问的读者,大概是忽略了一条Java语言里面的潜规则:在任何实例方法里面,都可以通过“this
”关键字访问到此方法所属的对象。这个访问机制对Java程序的编写很重要,而它的实现非常简单,仅仅是通过在Javac
编译器编译的时候把对this
关键字的访问转变为对一个普通方法参数的访问,然后在虚拟机调用实例方法时自动传入此参数而已。因此在实例方法的局部变量表中至少会存在一个指向当前对象实例的局部变量,局部变量表中也会预留出第一个变量槽位来存放对象实例的引用,所以实例方法参数值从1
开始计算。这个处理只对实例方法有效,如果代码清单6-1中的 inc()
方法被声明为static
,那Args_size
就不会等于1
而是等于0
了。
2、Exceptions属性
Exceptions属性的作用是列举出方法中可能抛出的受查异常(Checked Excepitons) , 也就是方法描述时在throws关键字后面列举的异常。
3、LineNumberTable属性
LineNumberTable属性用于描述Java源码行号与字节码行号(字节码的偏移量) 之间的对应关系。并不是运行时必需的属性, 但默认会生成到Class文件之中, 可以在Javac中使用-g: none或-g: lines选项来取消或要求生成这项信息。
4、LocalVariableTable及LocalVariableTypeTable属性
LocalVariableTable属性用于描述栈帧中局部变量表的变量与Java源码中定义的变量之间的关系, 它也不是运行时必需的属性, 但默认会生成到Class文件之中, 可以在Javac中使用-g: none或-g: vars选项来取消或要求生成这项信息
5、SourceFile及SourceDebugExtension属性
SourceFile属性用于记录生成这个Class文件的源码文件名称。 这个属性也是可选的, 可以使用Javac的-g: none或-g: source选项来关闭或要求生成这项信息。 在Java中, 对于大多数的类来说, 类名和文件名是一致的, 但是有一些特殊情况(如内部类) 例外
SourceDebugExtension属性用于存储额外的代码调试信息。 典型的场景是在进行JSP文件调试时, 无法通过Java堆栈来定位到JSP文件的行号。
6、ConstantValue属性
ConstantValue属性的作用是通知虚拟机自动为静态变量赋值。 只有被static关键字修饰的变量(类变量) 才可以使用这项属性。 类似“int x=123”和“static int x=123”这样的变量定义在Java程序里面是非常常见的事情, 但虚拟机对这两种变量赋值的方式和时刻都有所不同。 对非static类型的变量(也就是实例变量) 的赋值是在实例构造器()方法中进行的; 而对于类变量, 则有两种方式可以选择: 在类构造器()方法中或者使用ConstantValue属性。
7、InnerClasses属性
InnerClasses属性用于记录内部类与宿主类之间的关联。 如果一个类中定义了内部类, 那编译器将会为它以及它所包含的内部类生成InnerClasses属性
8、Deprecated及Synthetic属性
Deprecated和Synthetic两个属性都属于标志类型的布尔属性, 只存在有和没有的区别, 没有属性值的概念。
Deprecated属性用于表示某个类、 字段或者方法, 已经被程序作者定为不再推荐使用, 它可以通过代码中使用“@deprecated”注解进行设置
Synthetic属性代表此字段或者方法并不是由Java源码直接产生的, 而是由编译器自行添加的, 在JDK 5之后, 标识一个类、 字段或者方法是编译器自动产生的, 也可以设置它们访问标志中的ACC_SYNTHETIC标志位。
9、StackMapTable属性
StackMapTable是一个相当复杂的变长属性, 位于Code属性的属性表中。 这个属性会在虚拟机类加载的字节码验证阶段被新类型检查验证器(TypeChecker), 目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。
StackMapTable属性中包含零至多个栈映射帧(Stack Map Frame) , 每个栈映射帧都显式或隐式地代表了一个字节码偏移量, 用于表示执行到该字节码时局部变量表和操作数栈的验证类型。 类型检查验证器会通过检查目标方法的局部变量和操作数栈所需要的类型来确定一段字节码指令是否符合逻辑约束。
10、Signature属性
Signature属性是一个可选的定长属性, 可以出现于类、 字段表和方法表结构的属性表中。 任何类、 接口、 初始化方法或成员的泛型签名如果包含了类型变量(Type Variable) 或参数化类型(ParameterizedType) , 则Signature属性会为它记录泛型签名信息。 之所以要专门使用这样一个属性去记录泛型类型, 是因为Java语言的泛型采用的是擦除法实现的伪泛型, 字节码(Code属性) 中所有的泛型信息编译(类型变量、 参数化类型) 在编译之后都通通被擦除掉。
Signature属性在JDK5增加到Class文件规范之中,它是一个可选的定长属性,可以出现于类、字段表和方法表结构的属性表中。在JDK5里面大幅增强了Java语言的语法,在此之后,任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量(TypeVariable)或参数化类型(Parameterized Type),则Signature属性会为它记录泛型签名信息。 之所以要专门使用这样一个属性去记录泛型类型,是因为Java语言的泛型采用的是擦除法实现的伪泛型,字节码(Code属性)中所有的泛型信息编译(类型变量、参数化类型)在编译之后都通通被擦除掉。使用擦除法的好处是实现简单(主要修改Javac编译器,虚拟机内部只做了很少的改动)、非常容易实现Backport,运行期也能够节省一些类型所占的内存空间。但坏处是运行期就无法像C#等有真泛型支持的语言那样,将泛型类型与用户定义的普通类型同等对待,例如运行期做反射时无法获得泛型信息。Signature属性就是为了弥补这个缺陷而增设的,现在Java的反射API能够获取的泛型类型,最终的数据来源也是这个属性。
11、BootstrapMethods属性
BootstrapMethods是一个复杂的变长属性, 位于类文件的属性表中。 这个属性用于保存invokedynamic指令引用的引导方法限定符。
12、MethodParameters属性
MethodParameters是一个用在方法表中的变长属性。MethodParameters的作用是记录方法的各个形参名称和信息。
13、模块化相关属性
JDK 9的一个重量级功能是Java的模块化功能, 因为模块描述文件(module-info.java) 最终是要编译成一个独立的Class文件来存储的, 所以, Class文件格式也扩展了Module、 ModulePackages和ModuleMainClass三个属性用于支持Java模块化相关功能。
Module属性是一个非常复杂的变长属性, 除了表示该模块的名称、 版本、 标志信息以外, 还存储了这个模块requires、 exports、 opens、 uses和provides定义的全部内容。
ModulePackages是另一个用于支持Java模块化的变长属性, 它用于描述该模块中所有的包, 不论是不是被export或者open的。
ModuleMainClass属性是一个定长属性, 用于确定该模块的主类(Main Class)
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需的参数(称为操作数,Operand)构成。
JVM指令 = 1字节操作码 + 0到多个操作数。
由于Java虚拟机采用面向操作数栈而不是面向寄存器的架构,所以大多数指令都不包括操作数,只有一个操作码,指令参数都存放在操作数栈中。
字节码指令集可算是一种具有鲜明特点、优势和劣势均很突出的指令集架构,由于限制了Java虚拟机操作码的长度为一个字节(即0~255
),这意味着指令集的操作码总数不能够超过256
条;又由于Class文件格式放弃了编译后代码的操作数长度对齐,这就意味着虚拟机在处理那些超过一个字节的数据时,不得不在运行时从字节中重建出具体数据的结构。
譬如要将一个16
位长度的无符号整数使用两个无符号字节存储起来(假设将它们命名为 byte1
和 byte2
),那它们的值应该是这样的:
(byte1 << 8) | byte2
这种操作在某种程度上会导致解释执行字节码时将损失一些性能,但这样做的优势也同样明显:放弃了操作数长度对齐,就意味着可以省略掉大量的填充和间隔符号;用一个字节来代表操作码,也是为了尽可能获得短小精干的编译代码。这种追求尽可能小数据量、高传输效率的设计是由Java语言设计之初主要面向网络、智能家电的技术背景所决定的。
如果不用考虑异常的话,那 Java 虚拟机的解释器可以使用下面这段伪代码作为最基本的执行模型来理解,这个执行模型虽然很简单,但依然可以有效正确地工作:
do {
自动计算 PC 寄存器的值加 1;
根据 PC 寄存器指示的位置,从字节码流中取出操作码;
if (字节码存在操作数) 从字节码流中取出操作数;
执行操作码所定义的操作;
} while (字节码流长度 > 0);
在Java虚拟机的指令集中,大多数指令都包含其操作所对应的数据类型信息。举个例子,iload
指令用于从局部变量表中加载int
型的数据到操作数栈中,而fload
指令加载的则是float
类型的数据。这两条指令的操作在虚拟机内部可能会是由同一段代码来实现的,但在Class
文件中它们必须拥有各自独立的操作码。
下图列举了 Java 虚拟机所支持的与数据类型相关的字节码指令
从上图来看,大部分指令都没有支持整数类型byte、char
和short
,甚至没有任何指令支持boolean
类型。编译器会在编译期或运行期将byte
和short
类型的数据带符号扩展(Sign-Extend)为相应的int
类型数据,将boolean
和char
类型数据零位扩展(Zero-Extend)(https://www.cnblogs.com/jthr/p/15676949.html)为相应的int
类型数据。与之类似,在处理boolean、byte、short
和char
类型的数组时,也会转换为使用对应的int
类型的字节码指令来处理。因此,大多数对于boolean、byte、short
和char
类型数据的操作,实
际上都是使用相应的对int
类型作为运算类型(Computational Type)来进行的。
加载和存储指令用于将数据在栈帧中的 局部变量表 和 操作数栈 之间来回传输
iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
wide
上面所列举的指令助记符中,有一部分是以尖括号结尾的(例如iload_<n>
),它们省略掉了显式的操作数,不需要进行取操作数的动作,因为实际上操作数就隐含在指令中,例如iload_0
的语义与操作数为0
时的iload
指令语义完全一致。
算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶。
大体上运算指令可以分为两种:对整型数据进行运算的指令 与 对浮点型数据进行运算的指令
无论是哪种算术指令,均是使用Java虚拟机的算术类型来进行计算的,换句话说是不存在直接支持byte、short、char
和boolean
类型的算术指令,对于上述几种数据的运算,应使用操作int
类型的指令代替。
数据运算可能会导致溢出,例如两个很大的正整数相加,结果可能会是一个负数。
Java虚拟机必须完全支持IEEE 754中定义的“非正规浮点数值”(DenormalizedFloating-Point Number)和“逐级下溢”(Gradual Underflow)的运算规则。这些规则将会使某些数值算法处理起来变得明确,不会出现模棱两可的困境。譬如以上规则要求Java虚拟机在进行浮点数运算时,所有的运算结果都必须舍入到适当的精度,非精确的结果必须舍入为可被表示的最接近的精确值;如果有两种可表示的形式与该值一样接近,那将优先选择最低有效位为零的。这种舍入模式也是IEEE 754规范中的默认舍入模式,称为向最接近数舍入模式。而在把浮点数转换为整数时,Java虚拟机使用IEEE 754标准中的向零舍入模式,这种模式的舍入结果会导致数字被截断,所有小数部分的有效字节都会被丢弃掉。向零舍入模式将在目标数值类型中选择一个最接近,但是不大于原值的数字来作为最精确的舍入结果。
另外,Java 虚拟机在处理浮点数运算时,不会抛出任何运行时异常(这里所讲的是Java语言中的异常,请读者勿与IEEE 754规范中的浮点异常互相混淆,IEEE 754的浮点异常是一种运算信号),当一个操作产生溢出时,将会使用有符号的无穷大来表示;如果某个操作结果没有明确的数学定义的话,将会使用NaN(Not a Number)值来表示。所有使用NaN值作为操作数的算术操作,结果都会返回NaN。
在对long
类型数值进行比较时,Java虚拟机采用带符号的比较方式,而对浮点数值进行比较时(dcmpg、dcmpl、fcmpg、fcmpl),虚拟机会采用IEEE 754规范所定义的无信号比较(NonsignalingComparison)方式进行。
类型转换指令可以将两种不同的数值类型相互转换,这些转换操作一般用于实现用户代码中的显式类型转换操作,或者用来处理字节码指令集中数据类型相关指令无法与数据类型一一对应的问题。
宽化类型转换
Java虚拟机直接支持(即转换时无须显式的转换指令)以下数值类型的宽化类型转换(WideningNumeric Conversion,即小范围类型向大范围类型的安全转换):
int
类型到long、float
或者double
类型long
类型到float、double
类型float
类型到double
类型窄化类型转换
处理窄化类型转换(Narrowing Numeric Conversion)时,就必须显式地使用转换指令来完成,这些转换指令包括i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l
和d2f
。
窄化类型转换可能会导致转换结果产生不同的正负号、不同的数量级的情况,转换过程很可能会导致数值的精度丢失。
在将int
或long
类型窄化转换为整数类型T
的时候,转换过程仅仅是简单丢弃除最低位N
字节以外的内容,N
是类型T
的数据类型长度,这将可能导致转换结果与输入值有不同的正负号。对于了解计算机数值存储和表示的程序员来说这点很容易理解,因为原来符号位处于数值的最高位,高位被丢弃之后,转换结果的符号就取决于低N
字节的首位了。
Java虚拟机将一个浮点值窄化转换为整数类型T
(T
限于int
或long
类型之一)的时候,必须遵循以下转换规则:
NaN
,那转换结果就是int
或long
类型的0
。v
。如果v
在目标类型T(int
或long
)的表示范围之类,那转换结果就是v
;否则,将根据v
的符号,转换为T
所能表示的最大或者最小正数。从double
类型到float
类型做窄化转换的过程与 IEEE 754 中定义的一致,通过 IEEE 754 向最接近数舍入模式舍入得到一个可以使用float
类型表示的数字。如果转换结果的绝对值太小、无法使用float
来表示的话,将返回float
类型的正负零;如果转换结果的绝对值太大、无法使用float
来表示的话,将返回float
类型的正负无穷大。对于double
类型的NaN
值将按规定转换为float
类型的NaN
值。
虽然类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令。对象创建后,就可以通过对象访问指令获取对象实例或者数组实例中的字段或者数组元素,这些指令包括:
new
newarray、anewarray、multianewarray
getfield、putfield、getstatic、putstatic
baload、caload、saload、iaload、laload、faload、 daload、aaload
bastore、castore、sastore、iastore、fastore、 dastore、aastore
arraylength
instanceof、checkcast
如同操作一个普通数据结构中的堆栈那样,Java虚拟机提供了一些用于直接操作操作数栈的指令,包括:
pop、pop2
dup、dup2、dup_x1、 dup2_x1、dup_x2、dup2_x2
swap
控制转移指令可以让 Java 虚拟机有条件或无条件地从指定位置指令(而不是控制转移指令)的下一条指令继续执行程序,从概念模型上理解,可以认为控制指令就是在有条件或无条件地修改 PC 寄存器的值。控制转移指令包括:
ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、 if_icmpgt、if_icmple、if_icmpge、if_acmpeq
和if_acmpne
tableswitch、lookupswitch
goto、goto_w、jsr、jsr_w、ret
在Java虚拟机中有专门的指令集用来处理int
和reference
类型的条件分支比较操作,为了可以无须明显标识一个数据的值是否null
,也有专门的指令用来检测null
值。
与前面算术运算的规则一致,对于boolean
类型、byte
类型、char
类型和short
类型的条件分支比较操作,都使用int
类型的比较指令来完成,而对于long
类型、float
类型和double
类型的条件分支比较操作,则会先执行相应类型的比较运算指令(dcmpg、dcmpl、fcmpg、fcmpl、lcmp
),运算指令会返回一个整型值到操作数栈中,随后再执行int
类型的条件分支比较操作来完成整个分支跳转。 由于各种类型的比较最终都会转化为int
类型的比较操作,int
类型比较是否方便、完善就显得尤为重要,而Java虚拟机提供的int
类型的条件分支指令是最为丰富、强大的。
方法调用(分派、执行过程)将在第8章具体讲解,这里仅列举以下五条指令用于方法调用:
invokevirtual
指令:用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派), 这也是Java语言中最常见的方法分派方式。invokeinterface
指令:用于调用接口方法,它会在运行时搜索一个实现了这个接口方法的对象,找出适合的方法进行调用。invokespecial
指令:用于调用一些需要特殊处理的实例方法,包括实例初始化方法、私有方法和 父类方法。invokestatic
指令:用于调用类静态方法(static
方法)。invokedynamic
指令:用于在运行时动态解析出调用点限定符所引用的方法。并执行该方法。前面四条调用指令的分派逻辑都固化在Java虚拟机内部,用户无法改变,而invokedynamic
指令的分派逻辑是由用户所设定的引导方法决定的。
方法调用指令与数据类型无关,而方法返回指令是根据返回值的类型区分的,包括ireturn
(当返回值是boolean、byte、char、short
和int
类型时使用)、lreturn、freturn、dreturn
和areturn
,另外还有一条return
指令供声明为 void
的方法、实例初始化方法、类和接口的类初始化方法使用。
在Java程序中显式抛出异常的操作(throw
语句)都由athrow
指令来实现,除了用throw
语句显式抛出异常的情况之外,《Java虚拟机规范》还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。例如前面介绍整数运算中,当除数为零时,虚拟机会在idiv
或ldiv
指令中抛出 ArithmeticException
异常。
而在Java虚拟机中,处理异常(catch
语句)不是由字节码指令来实现的(很久之前曾经使用jsr
和 ret
指令来实现,现在已经不用了),而是采用异常表来完成。
Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构都是使用管程(Monitor
,更常见的是直接将它称为“锁”)来实现的。
方法级的同步是隐式的,无须通过字节码指令来控制,它实现在方法调用和返回操作之中。虚拟机可以从方法常量池中的方法表结构中的ACC_SYNCHRONIZED
访问标志得知一个方法是否被声明为同步方法。当方法调用时,调用指令将会检查方法的ACC_SYNCHRONIZED
访问标志是否被设置,如果设置了,执行线程就要求先成功持有管程,然后才能执行方法,最后当方法完成(无论是正常完成还是非正常完成)时释放管程。在方法执行期间,执行线程持有了管程,其他任何线程都无法再获取到同一个管程。如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那这个同步方法所持有的管程将在异常抛到同步方法边界之外时自动释放。
同步一段指令集序列通常是由Java语言中的synchronized
语句块来表示的,Java虚拟机的指令集中有monitorenter
和monitorexit
两条指令来支持synchronized
关键字的语义,正确实现synchronized
关键字需要Javac
编译器与Java虚拟机两者共同协作支持,譬如有代码清单6-6 所示的代码 :
// 代码清单6-6
void onlyMe(Foo f) {
synchronized(f) {
doSomething();
}
}
编译后,这段代码生成的字节码序列如下:
Method void onlyMe(Foo)
0 aload_1 // 将对象f入栈
1 dup // 复制栈顶元素(即f的引用)
2 astore_2 // 将栈顶元素存储到局部变量表变量槽 2中
3 monitorenter // 以栈定元素(即f)作为锁,开始同步
4 aload_0 // 将局部变量槽 0(即this指针)的元素入栈
5 invokevirtual #5 // 调用doSomething()方法
8 aload_2 // 将局部变量Slow 2的元素(即f)入栈
9 monitorexit // 退出同步
10 goto 18 // 方法正常结束,跳转到18返回
13 astore_3 // 从这步开始是异常路径,见下面异常表的Taget 13
14 aload_2 // 将局部变量Slow 2的元素(即f)入栈
15 monitorexit // 退出同步
16 aload_3 // 将局部变量Slow 3的元素(即异常对象)入栈
17 athrow // 把异常对象重新抛出给onlyMe()方法的调用者
18 return // 方法正常返回
Exception table:
FromTo Target Type
4 10 13 any
13 16 13 any
编译器必须确保无论方法通过何种方式完成,方法中调用过的每条monitorenter
指令都必须有其对应的monitorexit
指令,而无论这个方法是正常结束还是异常结束。
从代码清单6-6的字节码序列中可以看到,为了保证在方法异常完成时monitorenter
和monitorexit
指令依然可以正确配对执行,编译器会自动产生一个异常处理程序,这个异常处理程序声明可处理所有的异常,它的目的就是用来执行monitorexit
指令。