解析优化MySQL插入方法的五个妙招

时间：2024-01-19 13:13:49　

工作中遇到大概20万的数据插入操作，程序编完后发现运行超时，修改PHP最大执行时间到600，还是超时，检查超时前插入的数据条数推算一下，大概要处理40~60分钟才能插入完成，看来程序写的效率太低，得优化了。
测试电脑配置：
CPU：AMD Sempron(tm) Processor
内存：1.5G
语句如下：

$sql = "insert into `test` (`test`) values ('$content')";
for ($i=1;$i<1000;$i++) {
mysql_query($sql);
}
mysql_unbuffered_query运行三次执行时间分别为：
9.85321879387
9.43223714828
9.46858215332
mysql_query执行时间分别为：
10.0020229816
9.61053204536
9.24442720413
本人目前为止认为最高效率方式如下：
$sql = "insert into `test` (`test`) values ('$content')";
for ($i=1;$i<999;$i++) {
$sql .= ",('$content')";
}
mysql_query($sql);
执行时间为：
0.0323481559753
0.0371758937836
0.0419669151306

INSERT语句的速度
插入一个记录需要的时间由下列因素组成，其中的数字表示大约比例：
连接：(3)
发送查询给服务器：(2)
分析查询：(2)
插入记录：（1x记录大小）
插入索引：（1x索引）
关闭：(1)
这不考虑打开表的初始开销，每个并发运行的查询打开。
表的大小以logN (B树)的速度减慢索引的插入。
加快插入的一些方法：
· 如果同时从同一个客户端插入很多行，使用含多个VALUE的INSERT语句同时插入几行。这比使用单行INSERT语句快(在某些情况下快几倍)。如果你正向一个非空表添加数据，可以调节bulk_insert_buffer_size变量，使数据插入更快。参见5.3.3节，“服务器系统变量”。
· 如果你从不同的客户端插入很多行，能通过INSERT DELAYED语句加快速度。参见13.2.4节，“INSERT语法”。
· 用MyISAM，如果在表中没有删除的行，能在SELECT语句正在运行的同时插入行。
· 当从一个文本文件装载一个表时，使用LOAD DATA INFILE。这通常比使用很多INSERT语句快20倍。
· 当表有很多索引时，有可能要多做些工作使得LOAD DATA INFILE更快些。使用下列过程：

有选择地用CREATE TABLE创建表。
执行FLUSH TABLES语句或命令mysqladmin flush-tables。
使用myisamchk --keys-used=0 -rq /path/to/db/tbl_name。这将从表中取消所有索引的使用。
用LOAD DATA INFILE把数据插入到表中，因为不更新任何索引，因此很快。
如果只想在以后读取表，使用myisampack压缩它。
用myisamchk -r -q /path/to/db/tbl_name重新创建索引。这将在写入磁盘前在内存中创建索引树，并且它更快，因为避免了大量磁盘搜索。结果索引树也被完美地平衡。
执行FLUSH TABLES语句或mysqladmin flush-tables命令。

请注意如果插入一个空MyISAM表，LOAD DATA INFILE也可以执行前面的优化；主要不同处是可以让myisamchk为创建索引分配更多的临时内存，比执行LOAD DATA INFILE语句时为服务器重新创建索引分配得要多。
也可以使用ALTER TABLE tbl_name DISABLE KEYS代替myisamchk --keys-used=0 -rq/path/to/db/tbl_name，使用ALTER TABLE tbl_name ENABLE KEYS代替myisamchk -r -q/path/to/db/tbl_name。使用这种方式，还可以跳过FLUSH TABLES。
· 锁定表可以加速用多个语句执行的INSERT操作：
LOCK TABLES a WRITE;
INSERT INTO a VALUES (1,23),(2,34),(4,33);
INSERT INTO a VALUES (8,26),(6,29);
UNLOCK TABLES;
这样性能会提高，因为索引缓存区仅在所有INSERT语句完成后刷新到磁盘上一次。一般有多少INSERT语句即有多少索引缓存区刷新。如果能用一个语句插入所有的行，就不需要锁定。
对于事务表，应使用BEGIN和COMMIT代替LOCK TABLES来加快插入。
锁定也将降低多连接测试的整体时间，尽管因为它们等候锁定最大等待时间将上升。例如：
Connection 1 does 1000 inserts
Connections 2, 3, and 4 do 1 insert
Connection 5 does 1000 inserts
如果不使用锁定，2、3和4将在1和5前完成。如果使用锁定，2、3和4将可能不在1或5前完成，但是整体时间应该快大约40％。
INSERT、UPDATE和DELETE操作在MySQL中是很快的，通过为在一行中多于大约5次连续不断地插入或更新的操作加锁，可以获得更好的整体性能。如果在一行中进行多次插入，可以执行LOCK TABLES，随后立即执行UNLOCK TABLES(大约每1000行)以允许其它的线程访问表。这也会获得好的性能。
INSERT装载数据比LOAD DATA INFILE要慢得多，即使是使用上述的策略。
· 为了对LOAD DATA INFILE和INSERT在MyISAM表得到更快的速度，通过增加key_buffer_size系统变量来扩大键高速缓冲区。
INSERT语法

INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
       [INTO] tbl_name [(col_name,...)]
       VALUES ({expr | DEFAULT},...),(...),...
       [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]

或

INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
       [INTO] tbl_name
       SET col_name={expr | DEFAULT}, ...
       [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]

或

INSERT [LOW_PRIORITY | HIGH_PRIORITY] [IGNORE]
       [INTO] tbl_name [(col_name,...)]
       SELECT ...
       [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]

一、DELAYED 的使用
使用延迟插入操作
DELAYED调节符应用于INSERT和REPLACE语句。当DELAYED插入操作到达的时候，
服务器把数据行放入一个队列中，并立即给客户端返回一个状态信息，这样客户
端就可以在数据表被真正地插入记录之前继续进行操作了。如果读取者从该数据
表中读取数据，队列中的数据就会被保持着，直到没有读取者为止。接着服务器
开始插入延迟数据行（delayed-row）队列中的数据行。在插入操作的同时，服务器
还要检查是否有新的读取请求到达和等待。如果有，延迟数据行队列就被挂起，
允许读取者继续操作。当没有读取者的时候，服务器再次开始插入延迟的数据行。
这个过程一直进行，直到队列空了为止。
几点要注意事项：
· INSERT DELAYED应该仅用于指定值清单的INSERT语句。服务器忽略用于INSERT DELAYED...SELECT语句的DELAYED。
· 服务器忽略用于INSERT DELAYED...ON DUPLICATE UPDATE语句的DELAYED。
· 因为在行 * 入前，语句立刻返回，所以您不能使用LAST_INSERT_ID()来获取AUTO_INCREMENT值。AUTO_INCREMENT值可能由语句生成。
· 对于SELECT语句，DELAYED行不可见，直到这些行确实 * 入了为止。
· DELAYED在从属复制服务器中被忽略了，因为DELAYED不会在从属服务器中产生与主服务器不一样的数据。
注意，目前在队列中的各行只保存在存储器中，直到它们 * 入到表中为止。这意味着，如果您强行中止了mysqld（例如，使用kill -9）
或者如果mysqld意外停止，则所有没有被写入磁盘的行都会丢失。

二、IGNORE的使用
IGNORE是MySQL相对于标准SQL的扩展。如果在新表中有重复关键字，
或者当STRICT模式启动后出现警告，则使用IGNORE控制ALTER TABLE的运行。
如果没有指定IGNORE，当重复关键字错误发生时，复制操作被放弃，返回前一步骤。
如果指定了IGNORE，则对于有重复关键字的行，只使用第一行，其它有冲突的行被删除。
并且，对错误值进行修正，使之尽量接近正确值。
insert ignore into tb(...) value(...)
这样不用校验是否存在了，有则忽略，无则添加

三、ON DUPLICATE KEY UPDATE的使用
如果您指定了ON DUPLICATE KEY UPDATE，并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值，则执行旧行UPDATE。例如，如果列a被定义为UNIQUE，并且包含值1，则以下两个语句具有相同的效果：
mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)
-> ON DUPLICATE KEY UPDATE c=c+1;

mysql> UPDATE table SET c=c+1 WHERE a=1;

如果行作为新记录 * 入，则受影响行的值为1；如果原有的记录被更新，则受影响行的值为2。
注释：如果列b也是唯一列，则INSERT与此UPDATE语句相当：
mysql> UPDATE table SET c=c+1 WHERE a=1 OR b=2 LIMIT 1;

如果a=1 OR b=2与多个行向匹配，则只有一个行被更新。通常，您应该尽量避免对带有多个唯一关键字的表使用ON DUPLICATE KEY子句。

您可以在UPDATE子句中使用VALUES(col_name)函数从INSERT…UPDATE语句的INSERT部分引用列值。换句话说，如果没有发生重复关键字冲突，则UPDATE子句中的VALUES(col_name)可以引用 * 入的col_name的值。本函数特别适用于多行插入。 VALUES()函数只在INSERT…UPDATE语句中有意义，其它时候会返回NULL。
示例：

mysql> INSERT INTO table (a,b,c) VALUES (1,2,3),(4,5,6)
       -> ON DUPLICATE KEY UPDATE c=VALUES(a)+VALUES(b);
本语句与以下两个语句作用相同：
mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)
       -> ON DUPLICATE KEY UPDATE c=3;
mysql> INSERT INTO table (a,b,c) VALUES (4,5,6)
       -> ON DUPLICATE KEY UPDATE c=9;

当您使用ON DUPLICATE KEY UPDATE时，DELAYED选项被忽略。

标签：mysql,优化

投稿

解析优化MySQL插入方法的五个妙招

猜你喜欢

详解CSS3中的属性选择符

分享我们的select控件设计过程

golang 如何用反射reflect操作结构体

vue2过滤器模糊查询方法

python中pandas.read_csv()函数的深入讲解

PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT

YOLOv5部署到web端详细过程(flask+js简单易懂)

PJBlog3优化——301定向跳转解决重复内容的问题

Access数据库出现0x80004005问题的解决方法

numpy系列之数组重塑的实现

Python开发之基于模板匹配的信用卡数字识别功能

python判断一个对象是否可迭代的例子

Flowable数据库表分类及数据字典解析

python实现列表的排序方法分享

Golang中interface的基本用法详解

JS调用打印方法设置页眉页脚的实例

python查找特定名称文件并按序号、文件名分行打印输出的方法

整理Python最基本的操作字典的方法

教你如何6秒钟往MySQL插入100万条数据的实现

Python使用defaultdict读取文件各列的方法