none
Windows 2019 S2D 群集节点部分虚机突发失败自动切换 RRS feed

  • 问题

  • 整个平台虚机很多,有16个节点。在凌晨0:30左右,突然有一些虚机异常中断,所在宿主分散在3 - 5 个节点,10几分钟后才陆续恢复,不知道有哪些可能导致这个问题?

    以下是最初报错节点的错误日志信息,其他的就没有什么有价值的错误日志了。

    日志名称:          System
    来源:            Microsoft-Windows-Hyper-V-VmSwitch
    日期:            2022/11/16 0:35:07
    事件 ID:         76
    任务类别:          无
    级别:            错误
    关键字:           (128)
    用户:            SYSTEM
    计算机:           VMHOST42.TK.CN
    描述:
    The operation 'Get Stats' failed on nic 57940357-AE29-4EC0-A403-1B3D8B013839--D64B31A2-3102-49AD-9C40-0E5966C1C768 (Friendly Name: ). Status = 延迟删除操作请求一文件对象的非关闭操作。.
    事件 Xml:
    <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
      <System>
        <Provider Name="Microsoft-Windows-Hyper-V-VmSwitch" Guid="{67dc0d66-3695-47c0-9642-33f76f7bd7ad}" />
        <EventID>76</EventID>
        <Version>0</Version>
        <Level>2</Level>
        <Task>0</Task>
        <Opcode>0</Opcode>
        <Keywords>0x8000000000000080</Keywords>
        <TimeCreated SystemTime="2022-11-15T16:35:07.909086500Z" />
        <EventRecordID>74054</EventRecordID>
        <Correlation />
        <Execution ProcessID="6104" ThreadID="20444" />
        <Channel>System</Channel>
        <Computer>VMHOST42.TK.CN</Computer>
        <Security UserID="S-1-5-18" />
      </System>
      <EventData>
        <Data Name="Status">3221225558</Data>
        <Data Name="NicNameLen">74</Data>
        <Data Name="NicName">57940357-AE29-4EC0-A403-1B3D8B013839--D64B31A2-3102-49AD-9C40-0E5966C1C768</Data>
        <Data Name="NicFNameLen">1</Data>
        <Data Name="NicFName">
        </Data>
        <Data Name="Operation">1</Data>
        <Data Name="UniqueEvent">4</Data>
      </EventData>
    </Event>

    2022年11月21日 1:48

全部回复

  • 您好,

    首先可以看下在这个1069事件发生的时间点附近有没有其他的错误或者告警。如果都没有的话,那可以看一下Failover Cluster Manger下面的Cluster Events,以及以管理员身份运行的PowerShell命令Get-ClusterLog导出的群集日志,检查下在1069事件发生的时间点附近是否有故障或者错误之类的记录。

    
    Get-ClusterLog -Destination  C:\temp

    如您还有其他疑问,请随时与我们联系。如果回答是有帮助的,请将其标记为答案,可以帮助其他有相同问题的社区成员快速找到有用的答复。

    祝好

    Ian Xue



    Please remember to mark the replies as answers if they help.


    • 已编辑 Ian Xue 2022年11月21日 6:34
    2022年11月21日 6:30
  • 感谢回复。

    通过命令导出后,感觉日志可读性不是很好。分了很多段,不好综合分析。

    找到了部分相关时段的日志:

    群集资源和组资源的那个时段失败记录就没贴上来了

    [=== Volume Logs ===]

    TimeSinceLastStateTransition: <more than 500 seconds>, CSVFS StateChangeSequence: <7:124554051664><167503777789> from Source: CsvFsVolumeStateChangeFromDrain to State: CsvFsVolumeStateDraining, TimeTaken: 000:00:00.000, Completed: 2022/11/16-00:32:03.051, Status: (0)
    TimeSinceLastStateTransition: 00:00:00.00, CSVFS StateChangeSequence: <7:124554051665><167503777790> from Source: CsvFsVolumeStateChangeFromPause to State: CsvFsVolumeStatePaused, TimeTaken: 000:00:00.125, Completed: 2022/11/16-00:32:03.176, Status: (0)
    TimeSinceLastStateTransition: 00:00:01.17, CSVFS StateChangeSequence: <7:124554051666><167503777791> from Source: CsvFsVolumeStateChangeFromSetDownlevel to State: CsvFsVolumeStateSetDownlevel, TimeTaken: 000:00:00.140, Completed: 2022/11/16-00:32:04.489, Status: (0)
    TimeSinceLastStateTransition: 00:01:02.67, CSVFS StateChangeSequence: <7:124554051667><167503777792> from Source: CsvFsVolumeStateChangeFromActivate to State: CsvFsVolumeStateActive, TimeTaken: 000:00:00.031, Completed: 2022/11/16-00:33:07.192, Status: (0)

    2022年11月25日 2:25