磁盘数据库存储

1.简介¶

本文主要讨论的是基于磁盘数据库的存储，因此我们假设数据库中存在许多从磁盘到内存的移动。

对于磁盘来说，磁盘的特点为顺序I/O、块可寻址且为非易失设备。对于内存来说，内存的特点为随机I/O，字节可寻址且为易失设备。

2.缓存管理器与虚拟内存¶

很显然，由于磁盘更便宜、容量更大，因此大多数的数据都是存于磁盘之中的。但是冯诺依曼结构只允许我们在内存中进行数据运算，内存是无法装下所有数据的，因此DBMS需要提供类似操作系统的虚拟内存的抽象。

但我们不应该直接使用OS提供的虚拟内存或其他相关的API，原因是我们无法干预OS的底层。

比如若缓存池满了，我们需要选出一个牺牲页写回到磁盘中，此时的牺牲页选择策略可能不由我们控制（虽然OS提供了如madvise、mlock和msync等API，但总是不全面的）。

一个最常见的场景就是对于不同workload或者不同的语句下我们选择不同的策略，如顺序扫描的时候我们可以利用buffer bypass避免缓存管理器的页都被刷回磁盘中。

总的来说，操作系统提供的像是一辆大货车，拥有普适性。但是DBMS想要做到的是提供一辆跑车，没有普适性但是在特定场景下有更高的性能。

缓存管理器会在后文中详细介绍。

3.文件存储¶

数据库的数据落地到操作系统，本质就是特殊编码的一个或多个文件，由数据库的Storage manager负责跟踪并解码这些文件。

Storage manger负责将这些文件解释成page的集合，其中page类似于os的block，存储着tuple以及相关的元数据、也可以存储如索引等数据。

同时，Storage manger还负责跟踪tuple对应的实际文件位置，如对一个tuple进行更新的时候应该写入到哪个文件的哪个偏移量中。

4.Page，Page_id和Page Directory¶

Page就是固定大小的数据块，可以存储tuple或者是索引的相关数据。

每一个人Page都有一个独一无二的标识符page_id，如果数据库文件只有一个，那么该标识符可以是offset；如果有多个文件，可以是文件标识符+offset。大多数操作系统选择将文件路径和偏移量作为映射的key，映射到page_id中。

有了page_id，每一个tuple就可以根据page_id加tuple的offset形成一个tuple的独一无二标识符。

由于数据库是一个无序的数据集合，pages在底层也是无序的。此时，我们需要有方法由page_id找到page的物理位置。数据库常采用的方法是维护一些特殊的page，用于存储page的物理位置以及空余的空间（free space）。

5.Page的结构¶

每个Page的头部都有一些metadata，常见的有：

Page大小
Checksum
DBMS版本
事务可见性：和MVCC相关。
自解释：即不需要额外信息就可以解释该页所含的数据。如记录tuple的结构，这样就可以根据tuple的头部加计算出来的固定偏移量找到需要的tuple内数据。

常见的存储模型有两种，行存储和列存储。行存储指的是在一个连续空间内记录一个完整的tuple，而列存储指的是将一个tuple的attributes分散存储。

其中常见的行存储又分为两种：

Slotted Pages：即从页尾开始，在Page中存储一段段连续的tuple序列。可以根据固定的offset找到tuple。
Log-Sructured：即不记录tuple的具体数据，而是记录对tuple的操作记录。

Slotted Pages的存储方式是同时具有较快的读和写速度，而Log-Structured则拥有更快的写速度，但是读速度则较慢。如果后者想要更快的读速度，则需要维护一些而外的元数据，比如最后一次写出现的时间。

列存储将tuple的attributes存储到不同页中。列存储的特点是结构紧凑，且主要用于OLAP即数据分析场景，该场景的特点是读取多、更新少。最重要的是，如果一个tuple包含成百上千个attribute，但是查询语句中只用到了其中的其中几十个甚至几个attribute，对比行存储就有更明显的效率优势。缺点是，读写都需要获取多个page，因此有更多的开销，只能用于特定场景。

6.Tuple的结构¶

Tuple就是Page中的序列，由DBMS解释。解释后的Tuple常常携带以下信息：

Metadata
用于Concurrency Control的信息，如时间戳等。
表示空值的bitmap
不需要存schema（tuple结构）相关的信息
Data：存储顺序常常和schema定义的相同。
标识符：常常是page_id+offset