快速拉起 | 程序员的魔法书

当Mariadb集群因故障重启时，有时会遇到Mariadb Galera Cluster集群无法正常启动的情况。有很多方式能将数据库拉起，但是如何做到快速启动，又不丢失数据呢？

找到数据最新的节点 #

对比三个节点日志中的New cluster view: global state状态，可知道那个节点中的数据是最新的。

[mysql@test45 logs]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 14:59:00 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<span style="color:#ff0000;"><strong>2840</strong></span>, view# 3

[mysql@test44 logs]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:03 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<strong><span style="color:#ff0000;">3068</span></strong>, view# 4

[mysql@test43 logs]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:41 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<strong><span style="color:#ff0000;">3111</span></strong>, view# -1

得知三个节点数据的状态：3111>3068>2840

所以 [mysql@test43 logs] 上的节点上的数据是最新的。

修改最新节点上的`grastate.dat`文件 #

修改这个最新节点上的grastate.dat文件，文件目录可能有所不同，他位于Mariadb的数据文件目录，即datadir

[mysql@test43 script]$more grastate.dat
# GALERA saved state
version: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
seqno:   -1
safe_to_bootstrap: 0

修改为：

[mysql@test43 data]$  vim ../data/grastate.dat
# GALERA saved state
version: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
seqno:   3111
safe_to_bootstrap: 1

将seqno设置为3111（这是上面取到的，不是固定的）。
safe_to_bootstrap设置为 1

注意：在启动数据库前，最好对数据目录做备份，以防万一出问题可以还原事故现场。

按顺序启动节点 #

1. 在【mysql@test43】节点以 wsrep_new_cluster 的方式启动 mysql

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql --wsrep_new_cluster &

2.以正常方式启动其它两个节点

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql&

根据这两个节点数据的情况，会自动做SST 或IST.

docker 方式 #

如果数据库是以docker拉起的，可以修改my.cnf配置文件中的wsrep_cluster_address参数，启动mysql。

如将

wsrep_cluster_address = gcomm://172.x.x.100:4567,172.x.x.101::4567,172.x.x.102::4567

调整为：

wsrep_cluster_address = gcomm://

再

docker start mariadb

待集群正常启动后，切记还恢复wsrep_cluster_address 参数设置。

引用： Mariadb Galera Cluster 故障快速拉起

留给你的问题 #

如果要写一个集群自动恢复的脚本，你有什么思路吗？

记得

免密
小心丢数据
快速恢复

找到数据最新的节点 #

修改最新节点上的grastate.dat文件 #

按顺序启动节点 #

docker 方式 #

留给你的问题 #

修改最新节点上的`grastate.dat`文件 #