全新升级，云原生 TDSQL-C 并行计算2.0-数据库专区

全新升级，云原生 TDSQL-C 并行计算2.0

作者：厂商动态编辑：张丽慧 2024-10-30 10:18 来源：厂商稿

　　今天的内容将围绕三个核心部分展开。首先，我们将概述基本问题，为后续讨论奠定基础。接着，我们将深入探讨MySQL中可能更偏向于TP的问题，并分析在TP系统中如何识别和解决与AP相关的问题。最后，我们将深入剖析真正的AP问题，特别是查询技术所面临的针对性挑战。

　　业务问题分析框架

　　关系数据库参与角色

　　SQL，作为关系数据库的统一接口，其核心在于关系型模型，它倡导关注点分离，让使用者无需关心数据分布，只需关注表结构。作为声明式语言，SQL虽看似简单，实则需经过程式翻译方能执行，这在理论上可能导致性能上的短板。然而，其简单性赋予了开发效率上的优势，只要翻译过程得到优化，SQL便能展现出出色的实际效果。

　　从业务视角来看，SQL面临两大核心挑战：业务表达的准确性和执行响应的迅捷性。云数据库的出现，虽结构上与传统数据库相似，但服务分层更为明晰，业务方与服务方各司其职，这种分工有助于提升整体效率。然而，由于SQL开发涉及多方参与和众多不确定因素，系统性能常处于动态平衡中，需持续跟进和迭代优化。

　　综上所述，SQL虽在性能上有所局限，但其简单性和关注点分离的设计理念使其在开发效率和业务表达上占据优势。在云数据库时代，通过优化翻译过程和明确各方职责，我们能够进一步发挥SQL的潜力，实现系统性能的持续提升。

　　SQL 性能管理的基本框架

　　首先，我们需要紧密跟踪业务层面的服务接口执行过程，聚焦于资源使用效率的优化。云服务上的审计日志和MySQL内核提供的聚合接口、Performance Schema等工具，都是我们分析资源使用情况的有力武器。跟踪的关键在于，如何在复杂的负载中精准定位那些对系统性能具有显著影响的SQL语句。频率高并不意味着就是问题所在，因此，通过深入的负载分析来揭示影响系统的真正症结至关重要。

　　接下来，我们需要深入探讨并实施优化措施。从结构上讲，优化主要涵盖三个方面：一是数据组织优化，通过合理的属性选择和组件优化，确保数据在存储和访问时都能达到最高效率，例如，是否使用自增主键等策略；二是算法优化，包括并行计算和创新算法的应用，以缩短业务响应时间为核心目标，通过优化执行结构、提升数据读写效率等方式，提高系统整体性能；三是资源投入优化，我们需要根据性价比和实际业务需求，合理权衡并投入资源，确保优化工作的效益最大化。

　　综上所述，在针对MySQL内核中的SQL开发时，我们应全面跟踪业务接口执行过程，精准定位性能瓶颈，并从数据组织、算法和资源投入等多个维度实施优化策略，以全面提升系统性能。在优化过程中，我们需要综合考虑性能提升、成本控制和系统可维护性等因素，确保优化方案既符合业务需求，又具备实际操作可行性。

　　HTAP: TP 和AP的划分与统一

　　今天，我们深入探讨了AP和TP这两种资源使用方式，它们在实际应用中各有千秋，适用场景也不尽相同。这些资源方式与业务属性紧密相连，我们主要讨论了一些基本的通用方法。同时，也涉及了HTAP、TP和AP等概念，在拆解这些技术点后，我们发现尽管名词组合和包装有所变化，但核心概念始终如一。分析HTAP、TP和AP的共同点时，我们发现除了事务性和扩展性等通用系统设计概念外，访问模式、并发量、吞吐量和延时等要求也是关键所在。

　　特别值得一提的是，单条语句处理的数据量大小成为区分TP和AP的一个关键指标。尽管数据增量模式可能存在差异，但并非最主要的区别。业务模式上，读写表的差异也值得关注。TP系统通常对延时要求极高，且并发量和吞吐量都很大，这得益于每次处理的数据量小且竞争控制得当。而AP的特性则相对宽容，亚秒级以上的查询和延时被视为常态。从业务系统的角度看，查询延时的容忍度因业务需求及其交互形式而异，有时甚至可达几十秒甚至更久。

　　在实际应用中，慢查询成为我们关注的焦点。通过设定阈值，我们可以识别并分析超出阈值的查询，判断其是否为AP问题。慢查询可能源于不合理的表结构设计，导致资源消耗过大；也可能源于报表查询，处理的数据量本身就大。对于AP问题，我们需从查询结构的复杂度和处理的数据量大小两方面入手。只要其中一方面存在问题，即可视为AP问题。

　　针对AP问题的优化，我们可以从三个层面进行：首先，优化数据结构，如建立行式索引、列式索引等，提高数据密度，减少无效计算和访问；其次，优化计算结构，通过分析重复项，优化数据访问路径；最后，当上述措施无效时，可考虑硬件层面的优化，如充分利用多核CPU，采用特殊的CPU指令集等。通过这些综合手段，我们能够更有效地解决AP问题，提升系统性能。

　　HTAP: AP 能力建设

　　腾讯云数据库在AP问题的处理上，我们采取了三个并行且互补的方向。尽管团队各异，但我们在这三个方向上保持紧密的协作。根据业务需求，我们灵活调整处理顺序，有时优先解决某类问题，再转向另一类，这种交叉迭代的方式确保了最终的综合效果达到最佳。目前，我们的努力已取得显著成果。

　　之所以称为伪AP问题，是因为若无人为干预，其将完全依赖系统资源来支撑。关键在于数据的组织方式。当访问密度低、数据量小但分布散乱时，处理大量无效数据成为瓶颈。通过优化数据组织，我们能提高访问密度，进而提升资源处理效率。在慢查询优化中，我们更关注原始表的访问返回与扫描比例，而非仅局限于返回和扫描行数。MySQL的审计日志或慢日志在指标细化方面仍有提升空间，这有助于我们快速定位可通过索引优化的语句，这也是当前的工作重点之一。

　　解决伪AP问题，我们主要从两方面入手：一是优化数据组织，如引入行式索引、列索引等；二是优化计算结构，减少重复项，提升数据访问效率。我们直接在内核层面增强这些功能，确保解决方案的高效性和稳定性。

　　这类工作涉及三个关键环节：首先，有效分析SQL，提取候选索引集合；其次，收集统计数据，进行虚拟索引评估；最后，通过收益分析进行过滤。通过这种方式，我们能够在内核层面完成整个功能，为外部系统提供更大的灵活性。无论是人工执行新类型查询，还是利用工具、脚本或现有服务，都能轻松完成整个流程。这一流程涵盖了性能问题管理的多个方面，为我们提供了全面的优化方案。

　　TP系统里的伪AP 问题

　　在内核层面，优化器的工作紧密关联于内核处理流程。处理SQL时，内核经历多个阶段，每个阶段伴随着相应的中间结构。虽然这并非优化器的核心职责，而是其工程化问题，但通过将数据结构和算法与具体数据解耦，我们可以将其转化为一个通用模型进行评估。MySQL在此方面尚存不足，因此需深入解决内部工程的拆解难题，构建一个与具体数据无关的复用模型。

　　为确保数据的准确性，大量的数据收集和整理工作必不可少。这通常要求与业务系统隔离，在备用机器上完成复杂任务，同时确保主机专注于数据更新。内核提供了一系列特定命令和交互方式，极大地简化了这些工作。

　　在具体应用中，我们引入了一个智能分析命令，并配套了统计数据收集命令。通过拆解内核中的统计函数并提供采样函数，我们进一步增强了内核的功能。此外，我们还设计了一个全新的写入接口，使性能分析系统能够通过简单命令完成整套流程，降低了外部系统的复杂性。

　　获得丰富的索引和数据定义后，评估其有效性至关重要。我们创新地提出了一个量化收益的语法，帮助用户快速识别并推荐最佳索引组合。借助虚拟索引查询功能，用户可以迅速定位到最佳索引组合，为评估工作提供有力支持。

　　真 AP 问题

　　AP 能力检验模型: TPC-H 和大宽表

　　在处理索引推荐类问题时，我们引入了一种新的语法，旨在快速评估并推荐出最佳的索引组合。通过虚拟索引的查询，我们能迅速锁定最适宜的索引配置。然而，值得注意的是，这种方法并非万能，它主要针对的是某些特定的性能问题，而非所有慢查询或AP类问题的解决方案。

　　AP问题的复杂性往往超出了简单索引优化的范畴。有时候，即便我们增加了索引，也可能无法解决根本问题。为了更全面地评估和解决AP问题，我们提供了多种评估手段，包括基准模型和真实业务场景下的测试。TPC-H作为一个广泛应用的基准模型，虽然有其局限性，但仍能在一定程度上反映真实业务的某些特性。

　　在实际业务中，查询涉及的表往往不宽但关联的数据量大，这类查询在业务中十分常见且复杂多变。此外，我们还需要关注数据倾斜和新型数据类型（如MySQL中的JSON）等问题，这些都是影响性能的关键因素。

　　从日志分析的角度来看，为了提升性能和适应应用需求，我们有时需要将数据组织成一个大宽表。这与TPC-H等传统基准模型存在显著差异，因此在讲述AP加速时，必须充分考虑业务形态、基准模型和具体业务数据的特性。

　　我们持续对TPC-H等基准模型进行更新和分析，通过并行查询等方式，进一步提升了查询性能。这些提升在某些特定场景下可能更为显著。同时，我们也提供了一系列自动完成的功能，如并行查询、优化器和执行器的优化，用户只需简单开启相应功能，即可享受性能提升。

　　然而，需要强调的是，虽然我们的解决方案在大多数情况下都能带来性能提升，但效果可能会因具体业务场景和数据特性的不同而有所偏差。因此，在实际应用中，我们需要根据具体情况进行谨慎的调整和优化。

　　最后，针对统计大宽表这类特定场景，我们发现多线程查询在某些情况下可能不如直接使用内存效率高。这是因为其业务形态与传统的TPC-H模型存在很大差异。在这种情况下，重新组织数据可能是一个更为有效的性能提升手段。

　　并行查询增强

　　并行查询是一种优化查询性能的技术，它允许同时执行多个查询任务，以加快数据检索和处理的速度。以下是关于并行查询工作内容的详细解释：

　　首先，并行查询的工作机制涉及到并行度和工作节点的概念。并行度是指同时执行的查询任务数量，这通常由系统中可用的处理器核心数量决定。而每个工作节点是一个独立的进程，用于执行查询的一部分。

　　其次，数据分片和任务分配是并行查询的重要步骤。在进行并行查询之前，需要将数据表按照某个列或表达式进行分片，将数据分散到不同的节点上。每个工作节点负责处理一部分数据分片上的查询任务，任务分配可以通过哈希函数、范围分割或其他策略来实现。

　　然后，并行执行和结果合并是并行查询的核心环节。每个工作节点独立地执行其分配的查询任务，并生成中间结果。所有工作节点完成查询后，它们的结果将被收集并合并成一个最终结果集，这通常通过使用排序、聚合等操作来完成。

　　在分区表的支持方面，MySQL等数据库系统提供了对分区表的支持，如HASH分区、RANGE分区等，这有助于最大化并行操作，提高查询性能。分区表根据主键列上的分区模式将数据表划分为多个子表（或称为tablets），每个子表由至少一个服务器进程提供。

　　此外，值得注意的是，虽然并行查询能够显著提升查询性能，但在使用时也需要注意一些要点。例如，当所有CPU内核都已饱和时，不应启用并行执行，因为这可能会增加其他查询的响应时间。

　　串行优化

　　首先，我们聚焦在子查询缓存的优化上。子查询作为查询操作中的重量级环节，需要对每一条外部数据执行查询，这无疑增加了计算成本。特别是当查询结果存在重复时，效率问题更为突出。为此，我们开发了一套高效的缓存机制，能够自动检测并缓存子查询结果。这一机制的核心在于对基本输入、输出以及数据访问源头的精准把握，确保了缓存结构的有效性。在实际应用中，我们采用了快速检测、快速失败的策略，一旦匹配到适用场景，立即触发缓存机制，从而极大地降低了检测开销。

　　此外，我们还针对查询处理过程中的冗余操作进行了优化。尽管在实际业务场景中，复杂的冗余结构并不常见，但在TPC-H等测试标准中仍有所体现。这意味着，从业务表达形态的角度看，TPC-H的复杂度可能高于一般业务场景，因此其优化结果具有较高的可信度。我们将查询视为一个程序来处理，通过识别并消除重复执行的重要操作，避免了不必要的重复计算。具体实现上，我们引入了检测机制，一旦发现相同的操作，便不再进行第二次计算。这种优化方式能够显著提升查询速度，且性能提升幅度可预测，主要取决于重复操作的次数。

　　除了以上两大优化方向外，我们还进行了一些细节上的优化，如变量优化。在SQL表达式中，变量的使用非常频繁。当多个变量内容相同时，我们可以通过编译优化来减少重复计算。具体而言，我们在编译过程中检测重复的变量内容，并将它们映射到同一存储空间。这样，在执行查询时，只需使用一个变量即可，从而简化了执行过程。虽然这一优化在理解上相对简单，但在实现上却较为复杂，因为编写程序与实现程序之间存在差异。

　　最后，我们还提到了分组键识别的优化方法。在查询过程中，由于程序逻辑或入库限制等原因，数据的唯一性可能变得复杂。然而，我们知道一个数据的键往往由多个组件组成，其中任意一个组件都可能具有唯一性。因此，我们可以选择其中一个组件作为分组键，而无需使用所有组件。这样做可以显著减小运算过程中生成的临时集合大小，从而提高处理速度。性能提升的具体幅度取决于所选唯一组件与完整字段集合的占比。这一优化在TPC测试及某些业务场景中可能带来百分之几十的性能提升。

　　总结

　　我们刚刚深入探讨了数据库升级的必要性。数据持续变化，新版本数据库可能带来性能飞跃或功能革新，尽管升级过程中可能伴随稳定性挑战，但我们可以借助逐步灰度升级策略来有效管控风险。例如，对查询性能的优化、属性创建的改进，甚至查询的自动加速，都是升级能带来的实实在在的好处。在国内，数据库升级可能被视为敏感操作，但从国际视角看，升级是被广泛推荐的实践。当然，升级过程需审慎控制，不可轻率切换，以防意外情况发生。尽管我们竭尽所能做好预防，但由于与社区和其他合作方的紧密合作，可能仍会遭遇未预见的问题，如优化器、执行器或事务系统的特定设计缺陷。因此，在升级过程中，我们需要保持稳健的步伐，勇于尝试新特性，并通过与云上合作伙伴的深入交流，实现持续改进。

　　综上所述，我们讨论了性能的多重影响因素，包括数据层面的有效行数占比、索引创建策略；算法层面的检测与识别技术；以及资源使用层面的合理调配。在资源利用上，我们需秉持审慎态度，确保资源投入能够产生实效，避免浪费。在整个过程中，我们致力于最小化对生产环境的影响，通过建立完善的生产环境流程保障机制，避免直接应用升级带来的潜在风险。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

关注我们