快速理解数据库行/列存储

发布时间：2024年01月23日

基本说明

行存储和列存储是数据库存储数据的两种主要方式，它们在数据组织、性能优化和使用场景上有一些关键的区别。

行存储（Row-based Storage）

在行存储数据库中，数据按照行来存储。每一行包含了该行所有的数据，这些数据在存储时是连续的。这种方式非常适合 OLTP（在线事务处理）系统，如订单处理、银行交易等，因为这些系统通常需要处理大量的短小查询，每次查询只涉及到少量的行。

优点：

适合处理大量的短小查询，每次查询只涉及到少量的行。
适合处理高并发的读写操作。

缺点：

对于涉及到大量行的查询（如数据分析和报表生成），性能较差。

列存储（Column-based Storage）

在列存储数据库中，数据按照列来存储。每一列的数据都存储在一起，这使得数据库可以在处理大量数据时提供更好的性能。这种方式非常适合 OLAP（在线分析处理）系统，如数据仓库、数据挖掘等，因为这些系统通常需要处理大量的数据分析查询，每次查询可能涉及到大量的行，但只涉及到少量的列。

优点：

适合处理大量的数据分析查询，每次查询可能涉及到大量的行，但只涉及到少量的列。
可以高效地进行数据压缩，因为每一列的数据类型都是相同的。

缺点：

对于需要访问多个列的查询，性能较差。
写操作通常比行存储数据库慢，因为需要更新每一列的索引。

总的来说，行存储和列存储各有优势，适用于不同的场景。在选择数据库时，你应该根据你的具体需求和使用场景来决定使用哪种存储方式。

举例分析

假设我们有一个简单的用户表，包含三个字段：ID、姓名和年龄。表中有如下数据：

ID	姓名	年龄
1	张三	20
2	李四	25
3	王五	30

行存储的方式下，数据在磁盘上的存储形式可能如下：

1,张三,20;2,李四,25;3,王五,30;

每一行的数据都连续存储在一起。如果你想查询 ID 为 2 的用户的信息，数据库只需要读取一小段连续的数据即可。

列存储的方式下，数据在磁盘上的存储形式可能如下：

1,2,3;张三,李四,王五;20,25,30;

每一列的数据都连续存储在一起。如果你想查询所有用户的年龄，数据库只需要读取最后一段连续的数据即可，无需读取 ID 和姓名的数据，这在处理大数据量的分析查询时可以大大提高性能。

这就是行存储和列存储的基本区别。在实际使用中，选择哪种存储方式取决于你的具体需求。

假设你正在开发一个社交网络应用，你需要频繁地查询和更新用户的信息。例如，当一个用户登录时，你可能需要查询该用户的所有信息，包括 ID、姓名和年龄。这种情况下，行存储数据库更适合，因为它可以快速地读取和更新一行中的所有数据。

现在假设你正在进行一项市场研究，你需要分析用户的年龄分布。你可能需要对所有用户的年龄进行统计，但并不关心用户的 ID 和姓名。这种情况下，列存储数据库更适合，因为它可以高效地读取一列中的所有数据，而无需读取和处理无关的数据。

总的来说，行存储数据库适合处理大量的短小查询，每次查询只涉及到少量的行，但可能涉及到多个列。而列存储数据库适合处理大量的数据分析查询，每次查询可能涉及到大量的行，但只涉及到少量的列。

实际例子

我的实际开发中，有一张表（我这里简短描述），有3个字段，id,name,content。其中 content经常存储很大的json数据，比如这个表占用100G的空间，那么 content字段就可能占用了 90G 的空间；经常需要根据 id 去查询 content的内容。

我的这种背景下，使用列存储就不太合适。

在行存储数据库中，每一行的数据都连续存储在一起，所以当根据 ID 查询一行数据时，数据库可以快速地读取这一行的所有数据。即使 content 字段的数据量很大，只要你的查询主要集中在单行数据上，行存储仍然可以提供良好的性能。

另一方面，虽然列存储在处理大规模的分析查询时可以提供更好的性能，但如果你需要频繁地查询单个 ID 的 content，列存储可能不是最佳选择。因为在列存储中，每一列的数据都存储在一起，所以当你查询单个 ID 的 content 时，数据库需要从 ID 列和 content 列中读取数据，这可能会导致更多的磁盘 I/O，从而降低查询性能。

总的来说，选择行存储还是列存储取决于你的具体需求和使用场景。在你的情况下，如果主要操作是根据 ID 查询 content，那么行存储可能是更好的选择。

总之

总的来说，行存储和列存储数据库各有其优势和适用场景。行存储数据库以行为单位存储数据，适合处理大量的短小查询，每次查询只涉及到少量的行，但可能涉及到多个列。这使得行存储数据库在处理高并发的读写操作，如在线事务处理（OLTP）系统中表现出色。

相反，列存储数据库以列为单位存储数据，适合处理大量的数据分析查询，每次查询可能涉及到大量的行，但只涉及到少量的列。这使得列存储数据库在进行大规模数据分析，如在线分析处理（OLAP）系统中有优异的性能。

然而，无论是行存储还是列存储，都不是万能的。在实际的开发和应用中，我们需要根据具体的业务需求和数据特性，选择最适合的数据库存储方式。有时候，甚至需要结合使用行存储和列存储，以达到最优的性能和效率。因此，理解行存储和列存储的特性和差异，对于我们选择和设计数据库系统至关重要。

文章来源:https://blog.csdn.net/Dongguabai/article/details/135768748
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！