当我们有一个海量数据的表时,在查询的时候,如果我们使用正常的sql语句进行查询,我们看下面的案例。
我们先构建一个有8000000条数据的表。下面的index_data.sql文件中存储了表的创建语句和插入数据的语句,并且可以随机生成8000000条随机数据。因为需要插入8000000条数据,所以建表的过程很慢,大概需要几分钟。
当emp表创建成功后,我们可以使用select语句进行数据查询,然后我们可以明显感觉到当表中数据较多时,我们使用前面学习到的普通查询语句会很耗时。例如当用户登录时,我们查询用户的用户名是否在数据库存在需要等4秒,查询用户的密码是否正确也需要4秒,那么数据库的效率会很影响用户体验,并且我们这还是在本机一个人来操作,在实际项目中,如果放在公网中,假如同时有1000个人并发查询,那很可能就死机。这是肯定不行的。
所以数据库中提供了索引,索引就是用来提高一个海量数据的检索速度。下面我们来初步体验一下索引对海量数据检索速度的提高。我们先在EMP表中添加一个索引,然后再根据员工编号empno查询员工的信息。我们看到此时的查询效率只需要几毫秒,我们可以体会到使用索引后,数据库的检索速度提高了几个级别。
下面我们再来了解数据库中的索引。
索引:提高数据库的性能,索引是物美价廉的东西了。不用加内存,不用改程序,不用调sql,只要执行正确的create index ,查询速度就可能提高成百上千倍。但是天下没有免费的午餐,查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度。
常见索引分为:
我们需要知道我们使用的MySQL其实是客户端,MySQL数据库的服务器本质其实就是在Linux系统中运行的一个服务器,那么这个MySQL数据库的服务器其实就是在内存中运行的,而索引的话也是在内存中运行的。那么索引为什么就能提高海量数据的检索速度呢?我们知道提高算法效率的因素为:
下面我们就从操作系统到MySQL应用来分析为什么索引的检索速度更快。在学习MySQL数据库的索引之前,我们再来复习一下磁盘的知识。
MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中。磁盘是计算机中的一个机械设备,相比于计算机其他电子元件,磁盘效率是比较低的,在加上IO本身的特征,可以知道,如何提交效率,是 MySQL 的一个重要话题。
磁盘表面被分为许多同心圆,每个同心圆称为一个磁道。每个磁道都有一个编号,最外面的是0磁道。每个磁道被划分为若干段(段又叫扇区),每个扇区的存储容量为512字节。每个扇区都有一个编号。
从下图可以看出来,在半径方向上,距离圆心越近,扇区越小,距离圆心越远,扇区越大。那么,所有扇区都是默认512字节吗?目前是的,我们也这样认为。因为保证一个扇区多大,是由比特位密度决定的。不过最新的磁盘技术,已经慢慢的让扇区大小不同了,不过我们现在暂时不考虑。
数据库文件,本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。当然,数据库文件很大,也很多,所以就一定需要占据多个扇区。我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的。(当然,有一些内存文件系统,如:proc , sys 之类,我们不考虑)
所以在Linux系统中最基本的找到一个文件的全部,本质就是在磁盘找到所有保存文件的扇区。而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的。
我们现在已经能够在硬件层面定位,任何一个基本数据块了(扇区)。那么在系统软件上,就直接按照扇区(512字节,部分4096字节),进行IO交互吗?
答案肯定为不是,因为我们知道IO交互的开销是很大的,即IO操作是很慢的,如果每512的字节我们就进行一次IO操作,那么程序效率会很慢。
随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据。
连续访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次IO操作,这样的多个IO操作称为连续访问。
因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随机访问,而非连续访问。
磁盘是通过机械运动进行寻址的,连续访问不需要过多的定位,故效率比较高。
下面我们来了解MySQL与磁盘的关系。MySQL作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,所以,为了提高基本的IO效率, MySQL 进行IO的基本单位是16KB (后面统一使用 InnoDB 存储引擎讲解)。
我们可以通过下面的语句来查询MySQL数据库与磁盘交互的基本单位。16384字节 = 16 * 1024字节 = 16KB。
也就是说,磁盘这个硬件设备的基本单位是 512 字节,而MySQL InnoDB引擎使用16KB进行IO交互。即MySQL和磁盘进行数据交互的基本单位是16KB 。这个基本数据单元,在 MySQL 这里叫做page(注意和系统的page区分)。
不过MySQL为一个应用软件,在MySQL和磁盘这个硬件设备的中间还有一层操作系统。我们前面分析了操作系统和磁盘进行IO操作是以4KB为单位的,所以MySQL应用软件与磁盘进行数据交互的过程,其实是MySQL先与操作系统进行数据交互,即调用操作系统提供的read和write等系统调用接口进行数据读写,然后操作系统与磁盘进行数据交互,这样还可以保证MySQL与磁盘的数据交互不是以512字节为单位,而是以16KB为单位,这样就可以减少IO操作的次数。
通过上面的分析,我们知道了MySQL和磁盘进行数据交互时,是怎样来减少IO操作从而提高数据交互效率的。下面我们再来分析MySQL数据库中的索引检索效率比较高的原因。
我们先创建一个测试表。我们需要添加主键,因为这样才会默认生成主键索引。我们看到创建的user表默认使用InnoDB存储引擎,因为我们在配置文件中进行了配置。
下面我们向表中查询多条记录数据。我们可以看到进行数据插入时我们并没有按照主键的大小顺序进行插入,但是当我们查看表中的数据时,发现表中顺序竟然按照主键的大小进行了顺序显示,显然这个排序操作是MySQL数据库自动为我们执行的。那么为什么MySQL数据库要将我们插入的数据按照主键进行排序呢?这其实是因为为了数据库实现索引的B+树结构,后面我们再进行详细分析。
为何MySQL和磁盘进行IO交互的时候,要采用Page的方案进行交互呢?用多少,加载多少不香吗?例如上面的5条记录,如果MySQL要查找id=2的记录,第一次加载id=1,第二次加载id=2,一次一条记录,那么就需要2次IO。如果要找id=5,那么就需要5次IO。但如果这5条(或者更多)数据都被保存在一个Page中(16KB,能保存很多记录),那么第一次IO查找id=2的时候,整个Page会被加载到MySQL的Buffer Pool中,这里完成了一次IO。但是往后如果在查找id=1,3,4,5等的数据时,完全不需要进行IO了,而是直接在内存中进行了。所以,就在通过Page的方案,大大减少了IO的次数。那么我们怎么知道,用户一定下次找的数据,就在这个Page里面呢?我们并不能严格保证,但是有很大概率,因为有局部性原理。往往IO效率低下的最主要矛盾不是IO单次数据量的大小,而是IO的次数。所以使用Page方案可以有效减少MySQL数据库和磁盘进行IO操作的次数。
我们在前面创建数据库时,可以看到在Linux系统中也创建了对应的目录,当我们在数据库中创建表时,Linux系统中的目录下也多了对应的文件,所以我们其实可以将MySQL数据库想象成一种特殊的文件系统。那么MySQL数据库中就要管理很多数据表文件,而要管理好这些文件,就需要先描述,再组织。我们目前可以简单理解成一个个独立文件是由一个或者多个Page构成的。
不同的Page,在MySQL中都是大小为16KB ,使用prev指针和next指针来构成双向链表结构。
因为有主键的问题, MySQL 会默认按照主键给我们的数据进行排序,从上面的Page内数据记录可以看出,数据是有序且彼此关联的。
为什么数据库在插入数据时要对其进行排序呢?我们按正常顺序插入数据不是也挺好的吗?
插入数据时排序的目的,目的其实就是为了优化查询的效率。
Page页内部存放数据的模块,实质上也是一个链表的结构,链表的特点也就是增删快,查询修改慢,所以优化查询的效率是必须的。
正是因为有序,在查找的时候,从头到后都是有效查找,没有任何一个查找是浪费的,而且如果运气好,是可以提前结束查找过程的。
所以我们可以在每个Page页中通过页目录来记录该Page页中每条数据的主键索引和该条数据存储的地址,这样当检索这一个Page页中的数据时,只需要先查询这一个Page页的页目录即可,然后通过页目录直接定位到要访问的数据地址。上面的页目录操作就类似于我们现实生活中书本的目录一样,当我们在看《C++ primer》时,如果我们想看< 重载函数章节 >的内容,我们找到该章节有两种做法:
本质上书本中的目录是多花了纸张的,但是却提高了我们查找某个章节的效率,所以目录其实是一种 “通过空间换时间” 的做法。我们所说的页目录其实就是和书本目录类似,Page页中如果要存每条数据的主键索引和该条数据存储的地址,那么就需要额外花费内存来保存页目录,但是保存的页目录可以提高检索数据的效率。
所以针对上面的单页Page,我们也可以引入目录。这样在一个Page内部,我们引入了目录。比如我们要查找id=4记录,之前必须线性遍历4次,才能拿到结果。现在直接通过目录2[3],直接进行定位新的起始位置,提高了效率。现在我们可以再次正式回答上面的问题了,为何MySQL会对主键索引进行自动排序?因为这样可以很方便引入目录。
MySQL中每一页的大小只有16KB,单个Page大小固定,所以随着数据量不断增大, 16KB 不可能存下所有的数据,那么必定会有多个Page页来存储数据。在单表数据不断被插入的情况下, MySQL 会在容量不足的时候,自动开辟新的Page来保存新的数据,然后通过指针的方式,将所有的Page组织起来。需要注意,下面的图,是理想结构,大家也知道,目前要保证整体有序,那么新插入的数据,不一定会在新Page上面,这里仅仅做演示。
我们可以通过对多个Page进行遍历,然后找到目标Page页,然后在Page页内部通过目录来快速定位要检索数据。可是,貌似这样也有效率问题,在Page之间,也是需要 MySQL 遍历的,遍历意味着依旧需要进行大量的IO,将下一个Page加载到内存,进行线性检测。这样就显得我们之前的Page内部的目录,有点杯水车薪了。
那么如何解决呢?其实我们还可以按照之前的思路,给Page页也带上目录。使用一个目录项来指向某一页,而这个目录项存放的就是将要指向的Page页中存放的最小数据的键值。和页内目录不同的地方在于,这种目录管理的级别是页,而页内目录管理的级别是行。其中,每个目录项的构成是:最小数据的键值+指针。图中没有画全。
这样就存在一个目录页来管理这些Page页,目录页中的数据存放的就是指向的那一页中最小的数据和存放这一页地址的指针。有数据的话,就可通过比较,找到该访问哪个Page页,然后通过指针,找到这一个Page。然后每个Page页内部也有目录,再通过这一个Page页里面的目录来定位到具体数据。
其实目录页的本质也是页,普通页中存的数据是用户数据,而目录页中存的数据是普通页的地址。可是,我们每次检索数据的时候,该从哪里开始呢?虽然顶层的目录页少了,但是还要遍历啊?不用担心,可以再加目录页。这样我们就形成了一个B+树,至此,我们已经给user表构建完了主键索引,现在我们查找目标Page页时,IO操作一定减少了,因为我们现在查找数据并不是线性查找了。Page页分为目录页和数据页。目录页只存放各个下级Page的最小键值。查找的时候,自顶向下找,只需要加载部分目录页到内存,即可完成算法的整个查找过程,大大减少了IO次数。如果表中没有主键的话,索引也是这样的结构,因为MySQL数据库中会自动生成默认主键。
下面我们先来看一下如果使用B树的话,结构是什么样。
然后我们再来看B+树的结构。
从上面的两个图中,我们看到B树的节点中,既有数据,又有Page指针。而B+树中,只有叶子节点有数据,其他目录页,只有键值和Page指针,并且B+树的叶子结点全部相连,而B树的不是。那么我们为什么选择B+树呢?这其实因为B+树的叶子节点保存数据,而非叶子结点只保存目录项,而不存数据,那么非叶子结点就可以保存更多的目录项,那么的话这棵树就一定是一棵矮胖型的树,这样自顶向下找到目标数据就只需要更少的Page了,即IO次数就更少了。这样就整体提高了搜索的效率。B+树节点不存储data,这样一个节点就可以存储更多的key。可以使得树更矮,所以IO操作次数更少。并且叶子节点相连,更便于进行范围查找。
在MySQL的MyISAM存储引擎中,MyISAM引擎同样使用B+树作为索引结果,不过MyISAM叶节点的data域存放的是数据的地址。下图为 MyISAM 表的主索引,Col1 为主键。我们可以看到MyISAM存储引擎的B+树的叶子结点中存的并不是数据,而是存储的数据的地址,通过这个地址可以再去找到数据。
其中, MyISAM 最大的特点是,将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址。相较于 InnoDB 索引, InnoDB 是将索引和数据放在一起的。
下面我们创建两个表,test2表的存储引擎为MyISAM,因为MyISAM存储引擎是将索引Page和数据Page分离的,所以我们可以看到test2表产生了3个文件,其中.MYI文件中用来存放Page索引,而.MYD文件中存Page数据,因为我们并没有向表中插入数据,所以我们可以看到test2.MYD文件的大小为0。
test1表的存储引擎为innoDB,因为InnoDB存储引擎是将索引和数据放在一起的,所以我们看到test1表只产生了2个文件,其中.ibd文件中存放了test1表的Page索引和数据。
通常我们将MyISAM 这种用户数据与索引数据分离的索引方案,叫做非聚簇索引。
而将InnoDB 这种用户数据与索引数据在一起索引方案,叫做聚簇索引。
MySQL中除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一般这种索引可以叫做辅助(普通)索引。对于MyISAM,建立辅助(普通)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
下图就是基于 MyISAM 的 Col2 建立的索引,和主键索引没有差别。
同样, InnoDB 除了主键索引,用户也会建立辅助(普通)索引,我们以上表中的 Col3 建立对应的辅助索引如下图:
可以看到, InnoDB 的非主键索引中叶子节点并没有数据,而只有对应记录的key值。所以通过辅助(普通)索引,找到目标记录,需要两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。这种过程,就叫做回表查询。为何 InnoDB 针对这种辅助(普通)索引的场景,不给叶子节点也附上数据呢?原因就是太浪费空间了。
第一种方式:
MySQL数据库会默认将表中的主键设为主键索引,如果表中没有设置主键的话,那么数据库也会自动生成默认的主键用来进行索引,只不过我们查询不到。
-- 在创建表的时候,直接在字段名后指定 primary key
create table user1(id int primary key, name varchar(30));
我们看到查看user1表的索引时,可以看到user1表有一个PRIMARY主键索引。
第二种方式:
-- 在创建表的最后,指定某列或某几列为主键索引
create table user2(id int, name varchar(30), primary key(id));
第三种方式:
//先创建表
create table user3(id int, name varchar(30));
-- 创建表以后再添加主键
alter table user3 add primary key(id);
我们看到添加主键索引其实就是向表中添加主键,只要有了主键,那么MySQL数据库就会自动将主键变为主键索引。
主键索引的特点:
第一种方式:
-- 在表定义时,在某列后直接指定unique唯一属性。
create table user4(id int primary key, name varchar(30) unique);
我们看到user4表中有两个索引,一个为主键索引,一个以name列建立的唯一索引。
第二种方式:
-- 创建表时,在表的后面指定某列或某几列为unique
create table user5(id int primary key, name varchar(30), unique(name));
第三种方式:
//先创建表
create table user6(id int primary key, name varchar(30));
//然后创建表以后再添加唯一键
alter table user6 add unique(name);
唯一索引的特点:
第一种方式:
create table user8(id int primary key,
name varchar(20),
email varchar(30),
index(name) --在表的定义最后,指定某列为索引
);
第二种方式:
create table user9(id int primary key, name varchar(20), email varchar(30));
alter table user9 add index(name); --创建完表以后指定某列为普通索引
我们还可以通过这个方式一次将两个列合为一个普通索引,并且进行添加。虽然我们看到此时有3个索引,但是其实email这一列形成的索引和name这一列形成的索引共同使用一个B+树,这个B+树以name为B+树的key值,并且只有当name+email都匹配成功时,才会拿到对应的主键值,然后根据主键值去主键索引的B+树上查找真正的数据。一般将这种多列组合为一个索引的情况称为复合索引。
这样使用复合索引的好处就是有时候我们可能通过name列来查找email列的数据,而此时name和email组合为一个普通索引,这样就可以直接通过name列来找到对应的email列的数据,而不需要再通过name+email找到主键值,然后通过主键值进行回表查询了。这就是索引覆盖。
我们看到当删除name的B+树后,此时就还只有主键索引了。
第三种方式:
create table user10(id int primary key, name varchar(20), email varchar(30));
-- 创建一个索引名为 idx_name 的索引
create index idx_name on user10(name);
普通索引的特点:
我们看上面的唯一索引和普通索引是类似的,其实唯一索引就是普通索引。
第一种方法:
show keys from 表名
我们前面使用的查看索引的方式就是这一种。这个命令默认是以表格的形式打印出来索引的信息,如果我们在后面加上\G的话,那就是不以表格的形式打印,而以行的形式打印。
第二种方法:
show index from 表名
第三种方法:
这种方法的信息比较简略。
desc 表名
第一种方法-删除主键索引:
alter table 表名 drop primary key;
可以看到将表中的主键删除掉后,那么这个表的主键索引就被删除了。
第二种方法-其他索引的删除:
该方法可以删除表中的普通索引和唯一键索引。
// 索引名就是show keys from 表名中的Key_name 字段
alter table 表名 drop index 索引名;
例如下面删除user9表中的普通索引。
alter table user9 drop index name;
第三种方法:
//索引名就是show keys from 表名 中的Key_name 字段
drop index 索引名 on 表名
我们看到这个方法只能删除普通索引和唯一键索引。主键索引只能使用第一种方法来删除。
drop index name on user8;
当对文章字段或有大量文字的字段进行检索时,会使用到全文索引。MySQL提供全文索引机制,但是有要求,要求表的存储引擎必须是MyISAM,而且默认的全文索引支持英文,不支持中文。如果对中文进行全文检索,可以使用sphinx的中文版(coreseek)。
下面我们创建一个存储引擎使用MyISAM的表,并且将title列和body列组合设置为一个全文索引。我们看到此时虽然有三个索引信息,但是后面的两个索引其实为一个复合索引。
下面我们向articles表中插入数据。
下面我们查询articles表中的body中含有’database’子串的数据。
如果使用如下查询方式,虽然查询出数据,但是没有使用到全文索引。
我们可以使用explain工具看一下,是否使用到索引。key为null表示没有使用到索引。
下面我们使用全文索引。