其实很多人都搞不清什么时候用exist什么时候用in,前提是有索引(比如A.cc和B.cc),选择的标准是看表的大小。
总体宗旨试小表驱动大表,具体来说:
可能有点懵逼,让我们来捋下两者实现逻辑。IN是内部B先查完,然后整体结果扔给外部A再匹配;EXIST是A出一条,然后B用来判断EXIST是true还是false,直到A的所有数据都被遍历。
那自然小的数据集驱动大的数据集比较好(也就是先出数据的是小数据集)
总结:
1、IN查询在内部表和外部表上都可以使用到索引;
2、EXISTS查询仅内部表上可以使用到索引,外表会全表扫描;当子查询结果集很大,而外部表较小的时候,EXISTS的Block Nested Loop(Block 嵌套循环)的作用开始显现,查询效率会优于IN;
3、当子查询结果集较小,而外部表很大的时候,EXISTS的Block嵌套循环优化效果不明显,IN 的外表索引优势占主要作用,此时IN的查询效率会优于EXISTS。
子查询结果集越大用EXISTS,子查询结果集越小用IN。
首先我们先得说*和1都是对所有结果COUNT,本质上没啥差别,效率基本一致。但统计行数的时间复杂度不同存储引擎不一样,MyISAM是O(1),因为meta信息会存储;innoDB则是O(n)的,因为其采用行级锁和MVCC机制无法维护行数信息,只能扫描全表获得。
COUNT(具体字段)则尽量使使用二级索引,因为聚簇索引存了所有的数据,每次加载效率比二级索引低。所以实际上COUNT(*)、COUNT(1)都是选了个占用空间最小的二级索引来完成统计的
尽量别用,首先查询时候要扩展成所有列名,其次不能用到索引覆盖