MySQL分区详解
表分区应用
什么是表分区
通俗地讲表分区是将一大表,根据条件分割成若干个小表。mysql5.1开始支持数据表分区了。
如:某用户表的记录超过了1000万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区。当然也可根据其他的条件分区。
为什么要对表进行分区
为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率。
分区的的优点
- 与单个磁盘或文件系统分区相比,可以存储更多的数据。
- 对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据。相反地,在某些情况下,添加新数据的过程又可以通过为那些新数据专门增加一个新的分区,来很方便地实现。通常和分区有关的其他优点包括下面列出的这些。MySQL分区中的这些功能目前还没有实现,但是在我们的优先级列表中,具有高的优先级;我们希望在5.1的生产版本中,能包括这些功能。
- 一些查询可以得到极大的优化,这主要是借助于满足一个给定WHERE语句的数据可以只保存在一个或多个分区内,这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改,所以在第一次配置分区方案时还不曾这么做时,可以重新组织数据,来提高那些常用查询的效率。
- 涉及到例如SUM()和COUNT()这样聚合函数的查询,可以很容易地进行并行处理。这种查询的一个简单例子如 “SELECT salesperson_id, COUNT (orders) as order_total FROM sales GROUP BY salesperson_id;”。通过“并行”,这意味着该查询可以在每个分区上同时进行,最终结果只需通过总计所有分区得到的结果。
- 通过跨多个磁盘来分散数据查询,来获得更大的查询吞吐量。
分区类型
- RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区。
- LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
- HASH分区:基于用户 定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
- KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。
RANGE分区
基于属于一个给定连续区间的列值,把多行分配给分区。这些区间要连续且不能相互重叠,使用VALUES LESS THAN操作符来进行定义。
LIST分区
类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
LIST分区通过使用“PARTITION BY LIST(expr)”来实现,其中“expr” 是某列值或一个基于某个列值、并返回一个整数值的表达式,然后通过“VALUES IN (value_list)”的方式来定义每个分区,其中“value_list”是一个通过逗号分隔的整数列表。
HASH分区
基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
要使用HASH分区来分割一个表,要在CREATE TABLE 语句上添加一个“PARTITION BY HASH (expr)”子句,其中“expr”是一个返回一个整数的表达式。它可以仅仅是字段类型为MySQL 整型的一列的名字。此外,你很可能需要在后面再添加一个“PARTITIONS num”子句,其中num 是一个非负的整数,它表示表将要被分割成分区的数量。
KSY分区
类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。
不同的表分区对比
分区类型 | 优点 | 缺点 | 共性 |
---|---|---|---|
RANGE | 适合日期类型,支持复合分区 | 有限分区 | 一般只针对某一列 |
LIST | 适合固定取值的列,支持复合分区 | 有限分区,插入数据在这一列的值不在LIST中,数据则会丢失 | 一般只针对某一列 |
HASH | 线性HASH使得增加、合并、删除分区更加快捷 | 线性HASH数据分布不均匀,而一般的HASH数据分布较均匀 | 一般只针对某一列 |
KSY | 列可以为字符型等其他非int类型 | 效率较之前的低,因为函数为复杂的函数(如MD5,SHA等) | 一般只针对某一列 |
实际操作
下面来操作MySQL表分实例操作主要讲解 Range分区技术
注意为了查看方便我这边对mysql操作都是用客户端工具Navicat For Mysql 进行连接操作。
创建分区表
创建分区表,按日期和年份拆分 使用的是 myisam 引擎
1 | -- 创建表分区,按日期的年份拆分 |
创建未分区表
创建未分区表,主要用于作对比表字段和结构和分区表一模一样。
1 | create table no_part_tab( |
创建测试数据
创建测试数据这里使用存储过程快速创建100万行数据测试数据越多越方便查看,这里只测试100万行根据个人需求插入,因只是用日期分区,其他列不住细节深究。只关注日期列。
1 | create PROCEDURE load_part_tab() |
插入数据
执行存储过程插入数据
1 | call load_part_tab(); |
检查数据
进入查看我们刚才的分区表,数据库安装都是常规的路径,测试数据名称为test
1 | [root@localhost /]# cd usr/local/mysql/data/test |
显示如上信息说明已经创建完成。
复制数据
复制数据到未分区表no_part_tab
1 | insert into no_part_tab select * from part_tab; |
测试
测试SQL 的性能分别查询1年的数据。
分区表的性能
未分区表的性能
小结
查询时间非常明显的区别,注意数据量越大越明显。
分析
为何会分区会有如此大的区别我们通过查询计划分析。
分区的查询
分区的查询计划影响的行数是:99813
未分区查询
未分区查询计划影响的行数是:1000000
小结
很明显查询条件的数据是在p1分区 所以查询的只会查询这分区,查询效果就显而易见。
增加未索引字段查询
1 | select * from part_tab where c3>'2007-01-01' and c3<'2017-12-31' and c2='mysql'; |
查看执行时间2.55s
1 | select * from no_part_tab where c3>'2007-01-01' and c3<'2017-12-31' and c2='mysql'; |
查看执行时间11.16s
对比时间差距还是很大的具体查询时间根据个人计算机性能已经数据大小进行测试,数据量越大越明显。
innodb表分区
在innodb数据库引擎中要把分区技术做成功必须设置表为独立表空间特别注意这点。
共享表空间和独立表空间
共享表空间已经独立表空间都是针对数据的存储方式而言的。
共享表空间
某一个数据库的所有的表数据,索引文件全部放在一个文件中,默认这个共享表空间的文件路径在data目录下。默认的文件名为ibdata1初始大小为10M。
独占表空间
每个表都将会生成意独立文件方式来进行存储,每个表都有一个.frm表描述,还有一个.dbd文件.其中这个文件包括了单独一个表数据内容以及索引内容,默认情况下它的存储位置也是在表的位置之中。
共享表空间
优点
- 可以放表空间分成多文件存放各个磁盘上(表空间文件大小不受表大小的限制,如一个表可以分布在不同的文件上)。
- 数据和文件放一起方便管理。
缺点
所有的数据和索引存放到一个文件中讲有一个很大的文件,虽然可以把一个大文件分成多个小文件,但是多个表及索引在表空间中混合存储,这样对于一个表做了大量删除操作后表空间中将会有大量的空隙,特别是对于统计分析,日志系统这类应用最不合适用共享表空间。
实际操作
开启innodb数据库引擎独立表空间
编辑my.cnf 增加innodb_file_per_table=1
1
[root@localhost test]# vi /etc/my.cnf
主要:只有设置了innodb 引擎的独立表空间才能做成功表分区,特别注意。【win下无需设置】