背景

Part1:写在最前

我们在使用MongoDB sharding集群时,会使用如下命令来管理启停Balancer:

>sh.stopBalancer() 停止Balancer
>sh.startBalancer() 开启Balancer

Part2:背景

开启balancer后,客户反馈前端应用写入缓慢,查询超时。因此我们尝试关闭balancer,来避免chunk迁移对集群性能带来的影响。

但是在调用sh.stopBalancer的时候,发现却停不下来,sh.stopBalancer会处于卡住的状态:

mongos>sh.stopBalancer()
Waiting for active hosts...
Waiting for the balancer lock...
assert.soon failed,msg:Waited too long for lock balancer to unlock
doassert@src/mongo/shell/assert.js:18:14
assert.soon@src/mongo/shell/assert.js:202:13
sh.waitForDLock@src/mongo/shell/utils_sh.js:198:1
sh.waitForBalancerOff@src/mongo/shell/utils_sh.js:264:9
sh.waitForBalancer@src/mongo/shell/utils_sh.js:294:9
sh.stopBalancer@src/mongo/shell/utils_sh.js:161:5
@(shell):1:1
Balancer still may be active, you must manually verify this is not the case using the
config.changelog collection.
2018-02-11T16:28:29.753+0800
E QUERY [thread1] Error: Error:
assert.soon failed, msg:Waited too long for lock balancer to unlock :
sh.waitForBalancerOff@src/mongo/shell/utils_sh.js:268:15
sh.waitForBalancer@src/mongo/shell/utils_sh.js:294:9
sh.stopBalancer@src/mongo/shell/utils_sh.js:161:5
@(shell):1:1

从上述报错能够看出,是由于目前balancer正在运行导致的,

Warning:警告 在3.4版本中,balancer运行在config server 的主节点上,在早期的版本中,balancer是运行在mongos上的。 当balancer进程处于活动状态时,config server副本集的主服务器通过修改config数据库的lock集合中的文档,来获取“平衡器锁”。 这个“平衡器锁”只能自己主动释放。

Part3:排查方法

我们调用sh.status()命令能够看到当前balancer已经关闭了,但是running还是yes,这说明有迁移正在运行。 

 balancer:
Currently enabled: no
Currently running: yes

我们查看发现migrations集合下为空,说明没有集合在迁移

mongos> db.migrations.find()

我们查看locks集合下的信息,处于2状态的说明正持有锁

mongos> db.locks.find()
{ "_id" : "balancer", "state" : 2, "ts" : ObjectId("5a324c42329457086086da07"), "who" : "ConfigServer:Balancer", "process" : "ConfigServer", "when" : ISODate("2018-01-31T08:33:43.346Z"), "why" : "CSRS Balancer" }

Warning:警告

locks集合中的why列告诉我们持有锁的原因,如果有正在迁移的文档,其状态应该是2,why中的原因会显示Migrating chunk(s) in collection db.collationname.

从3.4版本起,balancer的状态字段将始终为值2,以防止老版本的mongos实例执行平衡操作。 when字段指config server 成员成为主节点的时间。

解决办法

Part1:写在最前

sh.stopBalancer停不下来,常见的可能原因有以下几个:

  • 正在做chunk迁移,必须等待chunk迁移完成后,才能够正常停止;
  • 后端的server时间不同步;
  • mongo客户端版本低于server端,本文就是第3种情况。mongo客户端的版本是3.2版本,config server和mongod都是3.4版本的mongo。

Part2:解决办法

替换老版本的mongo客户端,使用3.4版本的客户端

mongos> sh.stopBalancer()
{ "ok" : 1 }
 
config:PRIMARY> db.version()
3.4.9-2.9

Part3:原因分析

卡住的原因是由于客户端mongo是3.2版本,而config节点是3.4版本,3.2版本的mongos在执行stopBalancer()时,stopBalancer代码假定如果balancerStop命令没有找到,那么它会使用旧版本的逻辑,等待锁被释放。从3.4版本起,Balance进程从mongos移动之configer server的primary节点上。

总结

通过这个案例,我们能够了解到mongo客户端版本带来的问题,以及有哪些常见原因导致sh.stopBalancer停不下来。由于笔者的水平有限,编写时间也很仓促,文中难免会出现一些错误或者不准确的地方,不妥之处恳请读者批评指正。

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。

广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!

《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。

《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。