使用SQL生成测试数据-技术开发专区

使用SQL生成测试数据

作者：DevelopWorks 编辑：李倩 2009-01-06 15:56 来源：ITPUB.n

【IT168 技术文章】

    无论您是在用原型证明某一概念，还是开发一个全新的应用程序，或者只是学习 SQL，您都需要在您的应用程序上运行测试数据。本文讨论了如何生成足够的、对测试有用的、具有期望的值分布和列间相关性的测试数据。
    使用 SQL 生成大量测试数据
    无论您是在用原型证明某一概念，还是开发一个全新的应用程序，或者只是学习 SQL，您都需要在您的应用程序上运行测试数据。为了有效地测试应用程序的性能，您必须拥有足够的测试数据，以便暴露潜在的性能问题。只要可以得到，用实际数据来进行测试总是更可取一些。如果没有可用的实际数据，那么在许多情况下，也可以生成足够的假想数据。一般来说，从头开始构造大量数据是件很容易的工作，您自己就可以快速地独立完成。

    本文提供了一些如何利用 SQL 脚本来生成测试数据的示例，而这些脚本本身就是较好的 SQL 实践。并且还讨论了一些为了生成尽可能真实的数据而应该注意的问题。

    生成大量记录
    即使数据库是新创建且仍然为空的，也总是会带有系统表和视图，因此，您可以按以下方法使用它们：
CREATE TABLE DB2ADMIN.SALES
(CUSTOMER_ID INT NOT NULL, ITEM_ID INT NOT NULL,
SALE_QUANTITY SMALLINT NOT NULL, SALE_DATE DATE NOT NULL);
INSERT INTO SALES
SELECT
SYSFUN.RAND()*500 + 1 AS CUSTOMER_ID,
SYSFUN.RAND()*100 + 1 AS ITEM_ID,
1 + SYSFUN.RAND()*10 AS SALE_QUANTITY,
DATE('01/01/2003') + (SYSFUN.RAND()*200) DAYS AS SALE_DATE
FROM SYSCAT.COLUMNS;
    SALES 表中的记录数就与 SYSCAT.COLUMNS 中的完全一样了。请注意，多个列都是用随机值来填充的。例如，SALE_QUANTITY 列中的所有值都是处于 1 到 10 之间，约 10% 的记录具有各不相同的值。如果您需要更多记录，就可以根据需要多次重复执行这条 INSERT 语句。您还可以像下面这样使用交叉连接（CROSS JOIN），以便每条语句获得更多记录：

    注意：本例中，表 T1 和 T2 的连接是不含任何条件的，因此，T1 中的每一行会匹配 T2 中的每一行。这种类型的连接称作交叉连接。

注意：这条 INSERT 语句所涉及的事务可能会相当大，以致于您的服务器无法加以处理。如果您遇到“log full”的情况（SQL0964C 数据库的事务日志已满），您可能需要增加日志空间，或者通过指定 T1 或 T2 或两者中的 WHERE 子句来获得一个较小的事务。

    您可以使用该方法来生成大量记录，然而，该方法有点过分简单了，因为所有的值都是均匀分布的，而且它们之间不存在相关性。

    填充子表
    您的数据库中很可能存在多对一的关系。下列示例展示了如何填充子表，以使每一条父记录都具有随机的多条子记录。
CREATE TABLE DB2ADMIN.PARENT_TABLE(PARENT_ID INT NOT NULL, NUM_CHILDREN INT NOT NULL);
INSERT INTO DB2ADMIN.PARENT_TABLE
SELECT ROW_NUMBER() OVER(), SYSFUN.RAND()*5 + 1
FROM SYSCAT.TABLES;
ALTER TABLE DB2ADMIN.PARENT_TABLE ADD PRIMARY KEY(PARENT_ID);
CREATE TABLE DB2ADMIN.CHILD_TABLE(PARENT_ID INT NOT NULL, CHILD_NUM INT NOT NULL);

INSERT INTO DB2ADMIN.CHILD_TABLE
SELECT PARENT_ID, SEQUENCE_TABLE.NUM
FROM DB2ADMIN.PARENT_TABLE
JOIN
(SELECT ROW_NUMBER() OVER() AS NUM
FROM SYSCAT.TABLES) AS SEQUENCE_TABLE
ON AUXILIARY_TABLE.NUM<NUM_CHILDREN;

    最后一条 INSERT 语句的结果是，每一条父记录有 1 到 6 条子记录。SEQUENCE_TABLE 是一个表表达式。
    使用辅助表模仿数据倾斜
    如果一列中的某些值所出现的频率比其他的要大很多，则该数据存在数据倾斜（data skew）。例如：
SELECT CITY, COUNT(*) FROM CUSTOMER
GROUP BY CITY
ORDER BY COUNT(*) DESC
CHICAGO 236
MILWAKEE 95
ROCKFORD 4
NAPERVILLE 3
SPRINGFIELD 3
(snip)

279 rows selected

    每当您有理由期望在生产数据中出现数据倾斜时，您就可能需要在测试数据中再现数据倾斜，首先，在一个表中存储预计频率：
CREATE TABLE COLOR_FREQUENCY(COLOR CHAR(10), FREQUENCY SMALLINT);
INSERT INTO COLOR_FREQUENCY VALUES
('RED', 37), ('SILVER',12), ('AMBER', 3), ('GREEN', 3), ('WHITE',2),('BLACK', 1),('BLUE',1);
    接着，创建一个辅助表（更明确地说，是一个序列表）。
CREATE TABLE CONSECUTIVE_NUMBER(NUM INT NOT NULL);
INSERT INTO CONSECUTIVE_NUMBER
SELECT ROW_NUMBER() OVER() AS NUM FROM SYSCAT.COLUMNS;
    注意： Joe Celko 的 SQL for Smarties 一书中有一章是关于辅助表的。现在，让我们连接这两个表：
SELECT COLOR, FREQUENCY, NUM
FROM COLOR_FREQUENCY JOIN CONSECUTIVE_NUMBER
ON NUM BETWEEN 1 AND FREQUENCY ORDER BY FREQUENCY, COLOR;
COLOR FREQUENCY NUM
---------- --------- -----------
BLACK 1 1
BLUE 1 1
WHITE 2 1
WHITE 2 2
AMBER 3 1
AMBER 3 2
AMBER 3 3
(SNIP)

第1页：使用SQL生成大量测试数据第2页：为几个列生成具有给定值分布的数据

关注我们