Linux 进程(七) 进程地址空间

发布时间：2024年01月03日

?虚拟地址/线性地址

????????学习c语言的时候我们经常会用到 “&” 符号，以及下面这张表，那么取出来的地址是否对应的是真实的物理地址呢？下面我们来写代码一步一步的验证。

? ? ? ? 从上面这张图不难看出，从正文代码，到命令行参数环境变量，的地址依次是从低到高的，我们来写一段代码验证一下。

#include <stdio.h>
#include <string.h>
#include <stdlib.h>

int g_unval;
int g_val= 100;

int main()
{

  printf("code addr:%p\n",main);
  printf("init data addr:%p\n",&g_val);
  printf("uninit data addr: %p\n",&g_unval);
  
  char* heap = (char*)malloc(20);

  printf("heap addr:%p\n",heap);
  printf("stack addr:%p\n",&heap);

  return 0;
}

????????从这里我们不难发现：地址确实是从高到低依次出现的。

? ? ? ? 那么命令行参数以及环境变量呢，下面我们再多写几组代码。

int g_unval;
int g_val= 100;


int main(int argc,char* argv[],char* env[])
{

  printf("code addr:%p\n",main);
  printf("init data addr:%p\n",&g_val);
  printf("uninit data addr: %p\n",&g_unval);
  
  char* heap = (char*)malloc(20);
  char* heap1 = (char*)malloc(20);
  char* heap2 = (char*)malloc(20);
  char* heap3 = (char*)malloc(20);
  printf("heap addr:%p\n",heap);
  printf("heap1 addr:%p\n",heap1);
  printf("heap2 addr:%p\n",heap2);
  printf("heap3 addr:%p\n",heap3);

  printf("stack addr:%p\n",&heap);
  printf("stack1 addr:%p\n",&heap1);
  printf("stack2 addr:%p\n",&heap2);
  printf("stack3 addr:%p\n",&heap3);

  for(int i = 0; argv[i] ; i++)
  {
    printf("argv[%d] addr: %p\n",i,argv[i]);
  }

  for(int i = 0; env[i];i++)
  {
    printf("env[%d] addr: %p\n",i,env[i]);
  }

  return 0;
}

? ? ? ? 从上面的结果我们不难发现，栈和堆的地址的是相对而生的，而且命令行参数的的地址确实是在地址空间的最高处。

? ? ? ? 注意：使用static 定义的变量的地址在初始化变量地址的上面，并且在未初始化地址的下，因为static会初始化变量并且赋值为1。

? ? ? ? 下面我们来看一段代码? ?

int g_val = 100;

int main()
{
  pid_t id = fork();

  int cnt = 0;

  if(id == 0)
  {
    while(1){
    printf("i am child    process,ppid: %d,pid: %d g_val:  %d,&g_val:  %p\n "  ,getppid(),getpid(),g_val,&g_val);
    sleep(1);
    cnt++;
    if(cnt == 5)
    {
      g_val = 200;
      printf("child change g_val: 100-> 200\n");
    }
    }
  }

    else{

    while(1){ 
    printf("i am parent   process,ppid: %d,pid: %d g_val:  %d,&g_val: %p\n "  ,getppid(),getpid(),g_val,&g_val);
    sleep(1);
    } 
    }
  return 0;
}

? ? ? ? 上述代码，父进程和子进程同时创建，然后通过子进程修改全局变量的结果。

? ? ? ? 代码执行的结果。

? ? ? ? 我们发现，g_val 的值在五秒之前没有发生变化，且父子进程中 g_val地址都是相同的，这没有什么好困惑的。

? ? ? ? 五秒之后，我们修改了g_val 的值，但是此次，g_val 打印出来的值是不同的，但是打印出来的地址却是相同的。

? ? ? ? 那么这是我们错了，还是计算机错了？显然计算机肯定是不会错的。那这个地址是真实存在的物理地址吗？肯定不是的，这是计算机给我们的虚拟地址/线性地址。

进程地址空间：

? ? ? ? 所以说我们平时说的程序的地址空间是不对的，应该叫进程地址空间，那么该如何理解呢？

? ? ? ? 什么是地址空间：每个进程都会存在一个进程地址空间，其大小为[0,4GB]。

? ? ? ? 那么为什么会出现上述这种情况呢？

? ? ? ? 父进程在创建子进程的的时候发生类似于浅拷贝的行为，所以子进程会继承大量父进程的属性，包括页表，页表是虚拟和物理地址真实映射的一种关系表。每一个进程都会有一张属于自己的页表。

? ? ? ? 当子进程要修改数据的时候,触发写时拷贝。操作系统就会介入进来，为子进程专门准备一块空间，存放修改后的数据，保护了进程的独立性。但是在子进程页表上所对应的虚拟地址却没有被修改，只是子进程页表上虚拟地址对应的物理地址被修改了。

? ? ? ? 页表上不仅仅有虚拟地址和物理地址的映射，还有权限位。当子进程尝试对数据进行修改的时候(代码默认不被修改)，会触发写时拷贝，这时候引起缺页中断，操作系统介入进来，然后判断写入是否合法，当行为合法时，操作系统会为子进程开辟物理空间。然后子进程对自己的数据进行写入和修改。

? ? ? ? 不管是c/c++ 语言，“&” 打印的都是进程的虚拟地址，所以说我们上述所观察到地址都没有改变。

? ? ? ? 每个进程都会有进程地址空间，操作系统对这些进程地址空间先组织在描述的管理。简单来说，进程地址空间是特定的数据结构对象。

? ? ? ? 那么进程地址空间中都有哪些属性呢？

? ? ? ? 根据Linux公布的源代码，task_struct 中有 mm_struct 这样一个结构体，这也是进程控制块中的，上面我们可以看到，有些 “strart” “end”? 这样的字符，不难猜出，这是对进程地址空间进行区域划分，在自己的区域内的内存资源都可以被进程使用，避免越界问题。

? ? ? ? 我们的地址空间，不具备对我们的代码和数据的保存能力，不管是代码还是数据都是在物理内存中存放的。进程给我提供了一张表，这张表页表，他映射了虚拟地址和物理地址的关系。进而将进程地址空间上(虚拟/线性)地址转化到物理内存上！

为什么要有进程地址空间和页表呢？

? ? ? ? a.将物理内存从无序的状态，映射到也表上变成了有序的状态。

? ? ? ? b.有了页表将进程管理和内存管理分开，由操作系统决定什么时候开辟内存再将物理地址写入到页表上。从而将进程管理和内存管理进行解耦。

? ? ? ? c.地址空间加页表是保护内存安全的重要手段，不会让进程随便的访问内存(非法访问是可以通过页表进行拦截的)。

? ? ? ? 注意：cpu上有CR3寄存器，里面存储着页表的物理地址。

? ? ? ? 注意：当我们申请内存的时候，是在进程的虚拟空间中申请的，这时操作系统并没有在物理内存中为我们开辟物理空间(用户还没有尝试写入的情况下)。只有当用户真正的尝试在空间上进行写入的时候，操作系统才会去开辟物理空间并在页表上建立映射关系。这种把开辟虚拟地址和开辟物理地址分开的行为，大大的提高了操作系统的效率，因为用户在开辟空间是并不一定即刻使用，避免了内存出现空转和资源的浪费。

文章来源:https://blog.csdn.net/kqs__/article/details/134915009
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！