MySQL索引背后的数据结构及算法原理-技术开发专区

MySQL索引背后的数据结构及算法原理

作者：张洋编辑：胡铭娅 2011-07-11 15:29 来源：张洋博客

　　B+Tree

　　B-Tree有许多变种，其中最常见的是B+Tree，例如MySQL就普遍使用B+Tree实现其索引结构。

　　与B-Tree相比，B+Tree有以下不同点：

　　每个节点的指针上限为2d而不是2d+1。

　　内节点不存储data，只存储key;叶子节点不存储指针。

　　下图是一个简单的B+Tree示意。

MySQL索引背后的数据结构及算法原理

　　由于并不是所有节点都具有相同的域，因此B+Tree中叶节点和内节点一般大小不同。这点与B-Tree不同，虽然B-Tree中不同节点存放的key和指针可能数量不一致，但是每个节点的域和上限是一致的，所以在实现中B-Tree往往对每个节点申请同等大小的空间。

　　一般来说，B+Tree比B-Tree更适合实现外存储索引结构，具体原因与外存储器原理及计算机存取原理有关，将在下面讨论。

　　带有顺序访问指针的B+Tree

　　一般在数据库系统或文件系统中使用的B+Tree结构都在经典B+Tree的基础上进行了优化，增加了顺序访问指针。

MySQL索引背后的数据结构及算法原理

　　如图所示，在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针，就形成了带有顺序访问指针的B+Tree。做这个优化的目的是为了提高区间访问的性能，例如图中如果要查询key为从18到49的所有数据记录，当找到18后，只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点，极大提到了区间查询效率。

　　这一节对B-Tree和B+Tree进行了一个简单的介绍，下一节结合存储器存取原理介绍为什么目前B+Tree是数据库系统实现索引的首选数据结构。

　　为什么使用B-Tree(B+Tree)

　　上文说过，红黑树等数据结构也可以用来实现索引，但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构，这一节将结合计算机组成原理相关知识讨论B-/+Tree作为索引的理论基础。

　　一般来说，索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说，索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理，然后再结合这些原理分析B-/+Tree作为索引的效率。

第1页：数据结构及算法基础第2页：B-Tree和B+Tree索引结构第3页：带有顺序访问指针的B+Tree 第4页：主存存取原理第5页：局部性原理与磁盘预读第6页：MySQL索引实现第7页：InnoDB索引实现第8页：索引使用策略及优化第9页：最左前缀原理与相关优化（1）第10页：最左前缀原理与相关优化（2）第11页：最左前缀原理与相关优化（3）第12页：索引选择性与前缀索引第13页：InnoDB的主键选择与插入优化第14页：后记及参考文献

关注我们