当Mariadb
集群因故障重启时,有时会遇到Mariadb Galera Cluster
集群无法正常启动的情况。有很多方式能将数据库拉起,但是如何做到快速启动,又不丢失数据呢?
找到数据最新的节点 #
对比三个节点日志中的New cluster view: global state状态,可知道那个节点中的数据是最新的。
[mysql@test45 logs]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 14:59:00 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<span style="color:#ff0000;"><strong>2840</strong></span>, view# 3
[mysql@test44 logs]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:03 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<strong><span style="color:#ff0000;">3068</span></strong>, view# 4
[mysql@test43 logs]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:41 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:<strong><span style="color:#ff0000;">3111</span></strong>, view# -1
得知三个节点数据的状态 :3111>3068>2840
所以 [mysql@test43 logs]
上的节点上的数据是最新的。
修改最新节点上的grastate.dat
文件
#
修改这个最新节点上的grastate.dat文件,文件目录可能有所不同,他位于Mariadb
的数据文件目录,即datadir
[mysql@test43 script]$more grastate.dat
# GALERA saved state
version: 2.1
uuid: 874d8e7e-5980-11e8-8c23-83493ba049c2
seqno: -1
safe_to_bootstrap: 0
修改为:
[mysql@test43 data]$ vim ../data/grastate.dat
# GALERA saved state
version: 2.1
uuid: 874d8e7e-5980-11e8-8c23-83493ba049c2
seqno: 3111
safe_to_bootstrap: 1
将seqno
设置为3111
(这是上面取到的,不是固定的)。safe_to_bootstrap
设置为 1
注意:在启动数据库前,最好对数据目录做备份,以防万一出问题可以还原事故现场。
按顺序启动节点 #
1. 在【mysql@test43】节点以 wsrep_new_cluster 的方式启动 mysql
mysqld_safe --defaults-file=/data/conf/my.cnf --user=mysql --wsrep_new_cluster &
2.以正常方式启动其它两个节点
mysqld_safe --defaults-file=/data/conf/my.cnf --user=mysql&
根据这两个节点数据的情况,会自动做SST
或IST
.
docker 方式 #
如果数据库是以docker
拉起的,可以修改my.cnf
配置文件中的wsrep_cluster_address
参数,启动mysql
。
如将
wsrep_cluster_address = gcomm://172.x.x.100:4567,172.x.x.101::4567,172.x.x.102::4567
调整为:
wsrep_cluster_address = gcomm://
再
docker start mariadb
待集群正常启动后,切记还恢复wsrep_cluster_address
参数设置。
引用: Mariadb Galera Cluster 故障快速拉起
留给你的问题 #
如果要写一个集群自动恢复的脚本,你有什么思路吗?
记得
- 免密
- 小心丢数据
- 快速恢复