假设一个C程序有两个文件p1.c、p2.c,我们用Unix命令行编译这些代码:
linux>gcc -o p p1.c p2.c
gcc命令指的就是GCC C编译器,因为这是Linux上默认的编译器,gcc命令调用了一整套程序,将源代码转化为可执行代码。
#include
命令指定的文件,并拓展所有用#define
申明指定的宏。在整个编译系统中,编译器会完成大部分的工作,将把用C语言提供的相对比较抽象的执行模型表示的程序转化为处理器执行的非常基本的指令。汇编代码表示非常接近机器代码。与机器代码的二进制格式相比,汇编代码使用文本格式表示,可读性更好,更容易理解汇编代码和原始C代码的联系。
虽然C语言提供了一种模型,可以在内存中声明和分配各种类型的对象,但是机器代码只是简单地将内存看作一个很大的、按字节寻址的数组,汇编代码不区分有符号或无符号整数,不区分各种类型的指针,甚至于不区分指针和整数。
计算机执行机器代码,用字节序列编码低级的操作,包括处理数据、管理内存、读写存储设备上的数据,以及利用网络通信。编译器基于编程语言的规则、目标机器的指令集和操作系统遵循的惯例,经过一系列的阶段生成机器代码。
处理器即CPU,Central Processing Unit。一般家用电脑的主板上只有一个CPU,在服务器上需要多个CPU。一个CPU由控制器、运算器、寄存器和缓存等物理单元组成。
随着多核技术的发展,CPU的概念转变为了一个容器,而CPU中的core才是真正的物理处理单元。core是相互独立的,都有自己单独的控制器、运算器、寄存器和缓存等物理单元。
同时多线程技术和超线程技术可以在一个物理核心core上同时运行两个线程,但这两个线程共享核心的资源。
Intel处理器系列俗称x86,x86一开始是第一代单芯片、16位微处理器之一。
一些Intel微处理器的模型如下:
Intel处理器系列有好几个名字,包括IA32,也就是“Intel 32位体系结构”,以及最新的Intel64,即IA32的64位拓展,也称为x86-64。最常用的名字是“x86”,代指整个系列,也反映了直到i486处理器命名的惯例。
计算机系统使用多种形式的抽象,利用更简单的抽象模型来隐藏实现的细节。对于机器级编程来说,两种抽象尤为重要。