索引是数据库查询优化的关键工具之一。合理地使用索引可以显著提高查询速度,降低全表扫描的成本。以下是建立和使用索引的一些基本原则和最佳实践。
数据量规模与查询频率: 值得建立索引的表通常具有较多的记录,且查询主要集中在少数记录上。小规模的表不适宜建立索引。
索引的使用频率: 应在经常在WHERE
子句中使用的列上建立索引。不要盲目增加索引,因为每次数据更新时,所有索引都需要维护,这会影响系统效率。
数据装入与索引建立顺序: 在表中装入初始数据后再建立索引,可提高数据导入速度。
排序与分组操作: 经常需要排序或分组的列,如使用GROUP BY
或ORDER BY
的列,应考虑建立索引,特别是涉及多个列的复合索引。
选择性与聚簇索引: 在选择性高且重复值少的列上建立索引效果较好。有大量范围查询时,可考虑建立聚簇索引。
索引的选择性: 如果查询经常返回少于表总行数20%的数据,则建立索引可能带来性能提升。超过这个比例,全表扫描可能更高效。
查询覆盖与索引维护: 如果查询可以通过索引来完全覆盖,即查询列都包含在索引中,则查询优化器可以直接从索引中获取结果,避免访问表数据。
索引与主键: 如果对主键的查询较少,不应该在主键上建立聚簇索引。应根据实际情况,考虑将聚簇索引分配给经常使用范围查询的列。
索引的宽度: 索引越窄,其效率越高,因为每个数据页可以存储更多的索引项,索引的深度也较浅。
避免在包含大量NULL
值的列上建立索引: 包含许多NULL
值的列不适宜建立索引,因为它们通常不会参与查询条件。
像代码和数据库结构一样,索引在投入生产前需要经过精细的测试和调整。索引策略并没有固定不变的规则,需要深入理解表的关系、查询和事务需求,以及数据本身的特性,以便有效地使用索引。过多的索引不仅无助于提升性能,反而会占用额外的磁盘空间并降低更新操作的效率。
优化查询语句是提高数据库查询效率的关键。虽然查询优化器已经帮助用户实现了很多优化,但理解和运用以下优化技巧可以进一步提升查询效率。
-- 示例2:优化 OR 运算
SELECT * FROM employees
WHERE department = 'Sales' OR department = 'IT'
-- 改进为
SELECT * FROM employees WHERE department = 'Sales'
UNION
SELECT * FROM employees WHERE department = 'IT'
-- 使用 EXISTS 代替 IN
SELECT * FROM table1 WHERE column1 IN (SELECT column2 FROM table2)
-- 改进为
SELECT * FROM table1 t1 WHERE EXISTS (SELECT 1 FROM table2 t2 WHERE t1.column1 = t2.column2)
-- 示例3:避免使用 HAVING 来筛选
SELECT employeeID, COUNT(*) FROM sales
GROUP BY employeeID
HAVING COUNT(*) > 5
-- 改进为
SELECT employeeID FROM sales
GROUP BY employeeID
WHERE COUNT(*) > 5