技术文章 - CS438655
一个或多个 Zookeeper 节点出现问题,导致 ThingWorx Platform 主动-被动高可用性 (HA) 无法成功故障转移
已修改: 04-Mar-2025
适用于
- ThingWorx Platform 8.4 to 8.5
- Zookeeper
说明
- 尝试在 ThingWorx Platform 主动-被动高可用性 (HA) 配置上完成维护任务会导致停机,尽管始终有适当数量的节点可用
- 三个可用 Zookeeper 节点中的一个节点离线进行维护,导致 ThingWorx Platform 无法访问
- 在 ThingWorx Platform 主动-被动 HA 环境上执行维护时发生意外停机
- 三个 Zookeeper 节点中只有两个属于仲裁节点,当其中一个 Zookeeper 节点离线时,会导致 ThingWorx Platform 停机
- 确保以下节点数在线且在 ThingWorx Active-Passive HA 配置中可用,但仍然出现计划外停机:
- 1 个 ThingWorx 节点
- 2 个 Zookeeper 节点
- Zookeeper 日志表明三个节点中只有两个属于仲裁节点:
[myid:<ZK ID>] - INFO [QuorumPeer[myid=3](plain=/0:0:0:0:0:0:0:0:2181)(secure=disabled):Leader@1296] - Have quorum of supporters, sids: [ [<ZK ID 1> <ZK ID 2>],[<ZK ID 1>, <ZK ID 2>] ]; starting up and setting last processed zxid: 0x2900000000
- 重新启动 Zookeeper 节点后,该节点立即形成一个法定人数,根据 Zookeeper 日志,它是领导者:
[myid:<ZK ID>] - INFO [QuorumPeer[myid=3](plain=/0:0:0:0:0:0:0:0:2181)(secure=disabled):Leader@464] - LEADING - LEADER ELECTION TOOK - <Time> MS- 重新启动单个 Zookeeper 节点时,它应该作为 FOLLOWER 加入现有的仲裁
这是文章 438655 的 PDF 版本,可能已过期。最新版本 CS438655