前两天码哥写了一篇《你应该知道的C语言Cache命中率提升法》的文章,讲述关于地址连续性带来的cache命中率提升,感兴趣的朋友可以先翻看一番。
今天的文章是关于如何优化结构体成员来提升cache命中率的。我们先来看一个例子:
/* a.c */
#include <stdio.h>
#include <sys/time.h>
typedef struct test_s {
long i0;
char padding0[1024];
long i1;
char padding1[1024];
long i2;
char padding2[1024];
long i3;
char padding3[1024];
long i4;
char padding4[1024];
long i5;
char padding5[1024];
long i6;
char padding6[1024];
long i7;
char padding7[1024];
long i8;
char padding9[1024];
long i9;
} test_t;
int main(void)
{
test_t arr[512];
int i;
struct timeval begin, end;
gettimeofday(&begin, NULL);
for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
arr[i].i0 = 0;
arr[i].i1 = 1;
arr[i].i2 = 2;
arr[i].i3 = 3;
arr[i].i4 = 4;
arr[i].i5 = 5;
arr[i].i6 = 6;
arr[i].i7 = 7;
arr[i].i8 = 8;
arr[i].i9 = 9;
}
gettimeofday(&end, NULL);
printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
return 0;
}
功能很简单,我们定义了一个结构体,其中有很多padding,这些padding是用来模拟日常项目中不常访问的结构体成员。然后我们定义了这样一个结构体数组,顺序访问每个结构体,并将其中的整型成员进行赋值,并度量这一循环的时间开销。
在码哥的测试机上,执行的结果大约是:
$ ./a
2487(us)
参考我们之前的那篇关于地址连续性带来cache命中率提升想法,上面这个例子是否有性能提升的空间呢?
答案当然是有的。请看下面的代码:
/* b.c */
#include <stdio.h>
#include <sys/time.h>
typedef struct test_s {
long i0;
long i1;
long i2;
long i3;
long i4;
long i5;
long i6;
long i7;
long i8;
long i9;
char padding0[1024];
char padding1[1024];
char padding2[1024];
char padding3[1024];
char padding4[1024];
char padding5[1024];
char padding6[1024];
char padding7[1024];
char padding8[1024];
} test_t;
int main(void)
{
test_t arr[512];
int i;
struct timeval begin, end;
gettimeofday(&begin, NULL);
for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
arr[i].i0 = 0;
arr[i].i1 = 1;
arr[i].i2 = 2;
arr[i].i3 = 3;
arr[i].i4 = 4;
arr[i].i5 = 5;
arr[i].i6 = 6;
arr[i].i7 = 7;
arr[i].i8 = 8;
arr[i].i9 = 9;
}
gettimeofday(&end, NULL);
printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
return 0;
}
可以看到,这段代码中出了结构体中成员的位置有所调整外,其余代码都是一致的,甚至结构体的大小都是一样的。
那么这段代码的执行时间又是如何的呢?
$ ./b
1034(us)
可以看到这个结果比代码一快了1倍左右。
为何会快出1倍,原因与地址连续性依旧有关。代码二中,常被访问的10个整型成员被安排在了一起,这样当访问其中一个时,可以尽可能多的将可能被访问的成员预加载到cache中。而代码一中,由于间隔了很多padding,且每个padding也比较大,因此cache缓存了很多不常被访问的部分,所以在我们给每一个整型赋值时都无法利用到前一次赋值的cache缓存,因此效率有所降低。
结论很简单,尽可能将常访问的结构体成员放在一起,甚至推荐贴近结构体开始处存放。
感谢阅读!