GitHub - Omooo/Android-Notes: ???这有一包小鱼干,确定不要吃嘛?( 逃
深入理解Android:Java虚拟机ART 读书笔记 以下内容均来自书中内容 建议看原书哦
第2章 深入理解Class文件格式
2.1 class文件总览
Class文件格式全貌 u4:表示这个域长度为4个字节,内容为无符号整数 u2:表示这个域长度为2个字节,内容为无符号整数
Class文件前8个字节依次是magic(4个字节长,取值必须是0xCAFEBABE)、minor_version(2个字节长,表示该class文件版本的小版本信息)和major_verion(2个字节长,表示该class文件版本的大版本信息)。
constant_pool_count表示常量池数组中元素的个数,而constant_pool是一个存储cp_info信息(cp为constant pool缩写,译为常量池)的数组。每一个Class文件都包含一个常量池。常量池在代码中对应为一个数组,其元素的类型就是cp_info。注意,cp数组的索引从1开始。
access_flags:标明该类的访问权限,比如public、private之类的信息。
this_class和super_class:存储的是指向常量池数组元素的索引。通过这两个索引和常量池对应元素的内容,我们可以知道本类和父类的类名(只是类名,不包含包名。类名最终用字符串描述)。
interfaces_count和interfaces:这两个成员表示该类实现了多少个接口以及接口类的类名。和this_class一样,这两个成员也只是常量池数组里的索引号。真正的信息需要通过解析常量池的内容才能得到。
fields_count和fields:该类包含了成员变量的数量和它们的信息。成员变量信息由field_info结构体表示。
methods_count和methods:该类包含了成员函数的数量和它们的信息。成员函数信息由method_info结构体表示。
attributes_count和attributes:该类包含的属性信息。
2.2 常量池及相关内容
常量池的英文叫Constant Pool,对应的数据结构伪代码就是一个类型为cp_info的数组。每一个cp_info对象存储了一个常量项。cp_info对应数据结构的伪代码如下所示。
CONSTANT_String和CONSTANT_Utf8的区别
CONSTANT_Utf8:该常量项真正存储了字符串的内容。以后我们将看到此类型常量项对应的数据结构中有一个字节数组,字符串就存储在这个字节数组中。
CONSTANT_String:代表了一个字符串,但是它本身不包含字符串的内容,而仅仅包含一个指向类型为CONSTANT_Utf8常量项的索引。
信息描述规则:
原始数据类型对应的字符串描述为"B""C""D""F""I""J""S""Z",它们分别对应的Java类型为byte、char、double、float、int、long、short、boolean。
引用数据类型的格式为"LClassName;"。此处的ClassName为对应类的全路径名,比如上例中的"Ljava/lang/String;"。全路径名的“.”号由“/”替代,并且最后必须带分号。
数组也是一种引用类型,数组用"[其他类型的描述名"来表示,比如一个int数组的描述为"[I",一个字符串数组的描述为"[Ljava/lang/String;",一个二维int数组的描述为"[[I"
javap-verbose class文件名 查看Class代码
2.5 属性介绍
attribute_info { u2 attribute_name_index; // 属性名称,指向常量池中Utf8常量项的索引 u4 attribute_length; // 该属性具体内容的长度,即下面info数组的长度 u1 info[attribute_length]; // 属性具体内容 }
和常量池类型不一样的是,属性是由其名称来区别的,即attribute_info中的attribute_name_index,所指向的Utf8字符串。
虚拟机在解析Class文件的时候是需要校验很多内容的,比如abstract的函数或native的函数就不能携带"Code"属性。
Code属性:
attribute_name_index指向内容为"Code"的Utf8_info常量项。attribute_length表示接下来内容的长度。
max_stack:JVM执行一个指令的时候,该指令的操作数存储在一个名叫“操作数栈(operandstack)”的地方,每一个操作数占用一个或两个(long、double类型的操作数)栈项。stack就是一块只能进行先入后出的内存。max_stack用于说明这个函数在执行过程中,需要最深多少栈空间(也就是多少栈项)。max_locals表示该函数包括最多几个局部变量。注意,max_stack和max_locals都和JVM如何执行一个函数有关。根据JVM官方规范,每一个函数执行的时候都会分配一个操作数栈和局部变量数组。所以Code_attribute需要包含这些内容,这样JVM在执行函数前就可以分配相应的空间。
code_length和code:函数对应的指令内容也就是这个函数的源码经过编译器转换后得到的Java指令码存储在code数组中,其长度由code_length表明。
exception_table_length和exception_table:一个函数可以包含多个try/catch语句,一个try/catch语句对应exception_table数组中的一项。
介绍exception_table之前需要先了解pc(program counter)的概念。JVM执行的时候,会维护一个变量来指向当前要执行的指令,这个变量就叫pc。有了pc的概念,exception_table中各成员变量的含义就比较容易理解了。其中:
Code_attribute里常见的属性有:
LineNumberTable属性:
start_pc:指向Code_attribute中code数组某处指令。
line_number:说明start_pc位于源码的哪一行。注意,多个line_number_table元素可以指向同一行代码。因为一行Java代码很可能编译成多条指令。
LineNumberTable的line 7:0表示code数组里第1个指令码(即code[0])来自源码的第7行。
code[0]解析后得到是new指令。
查看左边的源代码可知,第7行确实对应的是一个new操作。
start_pc和length这两个参数决定了一个局部变量在code数组中的有效范围。
name_index:此局部变量的名字,指向Utf8_info常量项。
descriptor_index:此局部变量的类型,也指向Utf8_info常量项,其内容是Field Descriptor字符串描述。
2.6 Java指令码介绍
根据前述知识,我们知道Code_attribute中的code数组存储了一个函数源码经过编译后得到的Java字节码。根据Java虚拟机规范,code数组只能包括下面两种类型的信息:
首先是Java指令码,即指示JVM该做什么动作,比如是进行加操作还是减操作,或者是new一个对象。在JVM规范中,指令码的长度是1个字节。所以JVM规范中定义的Java指令码的个数不会超过255个(255的16进制表示为0xFF)。
紧接指令码之后的是0个或多个操作数。JVM在执行某条Java指令码的时候,往往还需要其他一些参数。参数可以直接存储在code数组里,也可以存储在操作栈(Operand stack)中。由于不同指令码可能需要不同个数的参数,所以指令码后面的内容可以是参数(如果这条指令码需要参数)也可以是下一条指令(如果这条指令码无需参数)。
invokevirtual指令
对invokevirtual来说,该指令后面需要两个字节的参数。大多数指令执行的时候,JVM需要预先准备好操作数栈,里边存储了该指令需要的信息。
复制一份复制栈顶元素。将新复制的值插入操作数栈,但是位置不在栈顶,而是离当前栈顶元素之后的两个位置。
JAVA VM官方规范The Java? Virtual Machine Specification
invokedynamic的简单介绍 http://www.javaworld.com/article/2860079/scripting-jvm-languages/invokedynamic-101.html
todo:自己用JAVA完成一个class文件解析的程序