none
加入第三台exchange2016後DAG IP Failover 失敗 RRS feed

  • 问题

  • 兩台EXCHANGE 2016 CU23服務器A、B, 建立一個DAG(IP為192.168.1.1),使用域服務器的做witness服務器,DAG複製網絡與業務網絡都是同一張網卡,目前一切正常運行,兩台服務器任意中斷一台,DAG IP 都可以正常通信。 這是目前的環境。

    現準備添加第三台exchange 2016服務器C,在加入DAG後,對數據庫添加副本,均可成功同步。mailboxdatabasecopystatus狀態都是正常。 把各個數據庫的主服務器遷移至C 均沒問題。 但在做DAG IP 的failover 測試時失敗:

    1 將A及B兩台同時斷網,DAG IP則無法PING通了。
    2 將B連網後,DAG IP 可以PING通。


    在A和B都斷網後,在C的集群管理界面沒有看到集群,同時有如下錯誤日誌:

    錯誤碼1177
    正在關閉叢集服務,因為仲裁已遺失。這可能是因為叢集或見證磁碟的容錯移轉中有一些或所有節點失去網路連線。
    請執行驗證設定精靈檢查您的網路設定。如果這種情形持續發生,請檢查與該網路介面卡相關的硬體或軟體錯誤。此外,請檢查節點所連接的其他網路元件中是否發生失敗,例如集線器、切換器或橋接器。


    錯誤碼1135
    已經從使用中的容錯移轉叢集成員資格移除叢集節點 'A'。這個節點上的叢集服務可能已經停止。這也可能是因為該節點與容錯移轉叢集中的其他使用中節點通訊中斷。請執行驗證設定精靈檢查您的網路設定。如果這種情形持續發生,請檢查與這個節點上的網路介面卡相關的硬體或軟體錯誤。此外,請檢查節點所連接的其他網路元件中是否發生失敗,例如集線器、切換器或橋接器。

    錯誤碼1135
    已經從使用中的容錯移轉叢集成員資格移除叢集節點 'B'。這個節點上的叢集服務可能已經停止。這也可能是因為該節點與容錯移轉叢集中的其他使用中節點通訊中斷。請執行驗證設定精靈檢查您的網路設定。如果這種情形持續發生,請檢查與這個節點上的網路介面卡相關的硬體或軟體錯誤。此外,請檢查節點所連接的其他網路元件中是否發生失敗,例如集線器、切換器或橋接器。

    錯誤碼1146
    叢集資源主控子系統 (RHS) 程序已終止,且即將重新啟動。這情況通常與叢集健康情況偵測與資源復原有關。請參閱系統事件記錄檔,以判斷造成問題的資源與資源 DLL。

    錯誤碼1653
    叢集節點 C 無法透過網路與叢集中的任何其他節點通訊,因此無法加入叢集中。請驗證網路連線與網路防火牆設定。

    錯誤碼1069
    叢集角色 '叢集群組' 中類型為 'Network Name' 的叢集資源 '叢集名稱' 失敗。
    根據資源與角色的失敗原則,叢集服務可能會嘗試讓資源在此節點上線,或將群組移動到叢集的另一個節點並重新啟動它。請使用 [容錯移轉叢集管理員] 或 Get-ClusterResource Windows PowerShell Cmdlet 來檢查資源與群組狀態。


    也就是說A和B必需有一個在線,DAG IP才能正常通信,但我在C上查看custer配置,顯示如下,看起來C是正常的,
    PS C:\Windows\system32> Get-ClusterNode | ft name,dynamicweight,state,id

    Name                                          DynamicWeight                State Id
    ----                                          -------------                ----- --
    A                                               1                            Up 1
    B                                               1                            Up 2
    C                                               1                            Up 3

    請問該如何排查呢~

    2023年1月17日 7:12

答案

  • 您好,

    针对您的问题,这里有一篇关于集群的文档您可以参考,文档中指出,如果有两台服务器同时宕机,第三台服务器是无法正常工作的;如果一台服务器先宕机,然后又有一台服务器宕机,那么第三台服务器是可以正常工作的。

    参考文档:https://learn.microsoft.com/zh-cn/azure-stack/hci/concepts/quorum#three-nodes-with-a-witness

    此外,出于安全性考虑,微软不建议您使用集群IP。

    此致,


    如果以上回复对您有所帮助,建议您将其“标记为答复”. 如果您对我们的论坛支持有任何的建议,可以通过此邮箱联系我们:tnsf@microsoft.com.

    • 已标记为答案 JasonnJ 2023年1月31日 9:22
    • 取消答案标记 JasonnJ 2023年2月2日 6:01
    • 已标记为答案 JasonnJ 2023年2月2日 6:01
    2023年1月17日 9:35

全部回复

  • 發現另一個問題,在ECP的DAG配置中,已經配置WITNESS服務器及共享文件夾,但在A及B的集群管理配置上,在見證目錄一欄卻是空的?
    2023年1月17日 9:03
  • 您好,

    针对您的问题,这里有一篇关于集群的文档您可以参考,文档中指出,如果有两台服务器同时宕机,第三台服务器是无法正常工作的;如果一台服务器先宕机,然后又有一台服务器宕机,那么第三台服务器是可以正常工作的。

    参考文档:https://learn.microsoft.com/zh-cn/azure-stack/hci/concepts/quorum#three-nodes-with-a-witness

    此外,出于安全性考虑,微软不建议您使用集群IP。

    此致,


    如果以上回复对您有所帮助,建议您将其“标记为答复”. 如果您对我们的论坛支持有任何的建议,可以通过此邮箱联系我们:tnsf@microsoft.com.

    • 已标记为答案 JasonnJ 2023年1月31日 9:22
    • 取消答案标记 JasonnJ 2023年2月2日 6:01
    • 已标记为答案 JasonnJ 2023年2月2日 6:01
    2023年1月17日 9:35
  • 您好,

    请问您的问题是否已解决。如果问题成功解决,您可以分享您的解决方案并将其或有用的回复标记为答案,这将使论坛中的答案搜索更容易,并且对其他社区成员也有好处,谢谢!
    2023年1月20日 8:58
  • 您好,

    请问您对于这个案例还有什么疑问吗?如果还有问题,您可以及时联系我,如果您的问题已经解决,您可以将有用的回复标记为答案,谢谢!

    2023年1月31日 5:52