vSAN Stetched Cluster 테스트 중 이슈(2)

제가 목격한 두번째 이슈입니다.

현재 VM 은 SC_Preferred_CentOS 라는 이름의 VM 이고, 정상적으로 Ping 이 가는 상태입니다. 물론 콘솔 접속도 정상적으로 되는 상태입니다.

위의 스크린샷을 보고 뭔가 좀 이상하다고 생각되는 부분이 있으신가요?

vSAN 환경에서 하드웨어나 네트워크의 이슈로 인해서 문제가 생겼을 때, VM 이 정상적으로 동작할려면 모든 Components 중 50% 이상이 Active 상태여야 정상적으로 작동할 수 있습니다.

그러나 위의 스크린샷을 보시면 Active 상태의 Component 가 3개이고, Absent 상태가 4개인데, VM 이 정상적으로 기동하고 있습니다. 이게 어떻게 된 일일까요?

한가지 더 보면

comp-esxi01b 는 secondary site 의 호스트입니다. 첫번째 스크린샷을 보면, Preferred Site 의 Component 가 Active 고, Secondary Site 와 Witness 의 Component 가 Absent 입니다.

더욱더 혼란스럽습니다.  이게 대체 무슨일일까요. 무슨일이 벌어졌길래 이렇게 된것인가.

일단 현재 상황은 Preferred Site 의 vSAN Network 이 Partition 됐을 때의 상황입니다.

Preferred Site 의 vSAN Network 이 아에 죽은 상태인것이고, 그에 따라서 Preferred Site 에서 동작중이던 SC_Preferred_CentOS VM 은 Secondary Site 로 Failover 가 잘 되어서 이미 Restart 가 된 것이죠.

생각했던대로 잘 동작했는데, 정작 UI 에서 보여지는 Policy Compliant 의 상태가 이상합니다. UI 가 이상한것인가… 그렇다면 RVC 로 한번 확인해보겠습니다.

VM SC_Preferred_CentOS:
  VM registered on host: comp-esxi01b.byounghee.local
  Namespace directory
    Shown from perspective of host comp-esxi01b.byounghee.local
    DOM Object: d49a435b-9f58-4fed-37aa-005056bb5695 (v5, owner: comp-esxi01b.byounghee.local, proxy owner: None, policy: stripeWidth = 1, spbmProfileGenerationNumber = 1, replicaPreference = Performance, subFailuresToTolerate = 1, forceProvisioning = 0, spbmProfileName = SC/PFTT=1/SFTT=1, hostFailuresToTolerate = 1, CSN = 225, cacheReservation = 0, SCSN = 330, proportionalCapacity = [0, 100], spbmProfileId = 56f92a68-db23-4ec0-9d28-50645b660104)
      RAID_1
        RAID_1
          Component: d49a435b-39bd-c5ed-d6d7-005056bb5695 (state: ACTIVE (5), host: comp-esxi02b.byounghee.local, md: naa.6000c291ced1b95d728068db739470ff, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 0.4 GB, proxy component: false)
          Component: d49a435b-8d43-c8ed-544f-005056bb5695 (state: ACTIVE (5), host: comp-esxi03b.byounghee.local, md: naa.6000c294a1e2d7f7b0371aae4d357e84, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 0.4 GB, proxy component: false)
        RAID_1
          Component: d49a435b-d426-caed-f13b-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi01a.byounghee.local, md: naa.6000c29b5f7dcd96843e1f51d2b6fb95, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 0.4 GB, proxy component: false)
          Component: d49a435b-7dc3-cbed-ecbb-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi02a.byounghee.local, md: naa.6000c2958f500aa41079d0d1544ec25d, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 0.4 GB, proxy component: false)
      Witness: d49a435b-9571-cded-9686-005056bb5695 (state: ACTIVE (5), host: vsanwit.byounghee.local, md: mpx.vmhba1:C0:T1:L0, ssd: mpx.vmhba1:C0:T2:L0,
                                                     votes: 3, usage: 0.0 GB, proxy component: false)
      Witness: d49a435b-ec2d-cfed-ef15-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi03a.byounghee.local, md: naa.6000c29cab4cedaada23591f3ac0b78c, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                     votes: 1, usage: 0.0 GB, proxy component: false)
      Witness: d49a435b-01eb-d0ed-1014-005056bb5695 (state: ACTIVE (5), host: comp-esxi01b.byounghee.local, md: naa.6000c29283890bd1589fc56097773cd5, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                     votes: 1, usage: 0.0 GB, proxy component: false)
  Disk backing: [vsanDatastore] d49a435b-9f58-4fed-37aa-005056bb5695/SC_Preferred_CentOS.vmdk
    Shown from perspective of host comp-esxi01b.byounghee.local
    DOM Object: d99a435b-b190-713b-aa3a-005056bb5695 (v5, owner: comp-esxi01b.byounghee.local, proxy owner: None, policy: stripeWidth = 1, spbmProfileGenerationNumber = 1, replicaPreference = Performance, subFailuresToTolerate = 1, forceProvisioning = 0, spbmProfileName = SC/PFTT=1/SFTT=1, hostFailuresToTolerate = 1, CSN = 222, cacheReservation = 0, SCSN = 329, proportionalCapacity = 0, spbmProfileId = 56f92a68-db23-4ec0-9d28-50645b660104)
      RAID_1
        RAID_1
          Component: d99a435b-5548-693c-0d0e-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi01a.byounghee.local, md: naa.6000c29b5f7dcd96843e1f51d2b6fb95, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 1.3 GB, proxy component: false)
          Component: d99a435b-eedb-6b3c-ce94-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi02a.byounghee.local, md: naa.6000c2958f500aa41079d0d1544ec25d, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 1.3 GB, proxy component: false)
        RAID_1
          Component: d99a435b-eeee-6c3c-52a1-005056bb5695 (state: ACTIVE (5), host: comp-esxi02b.byounghee.local, md: naa.6000c291ced1b95d728068db739470ff, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 1.4 GB, proxy component: false)
          Component: d99a435b-05e7-6d3c-9d3c-005056bb5695 (state: ACTIVE (5), host: comp-esxi03b.byounghee.local, md: naa.6000c294a1e2d7f7b0371aae4d357e84, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                           votes: 1, usage: 1.4 GB, proxy component: false)
      Witness: 3bc3465b-b9d3-14d4-8237-005056bb5695 (state: ACTIVE (5), host: vsanwit.byounghee.local, md: mpx.vmhba1:C0:T1:L0, ssd: mpx.vmhba1:C0:T2:L0,
                                                     votes: 3, usage: 0.0 GB, proxy component: false)
      Witness: 3bc3465b-a2c6-17d4-a043-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi03a.byounghee.local, md: naa.6000c29cab4cedaada23591f3ac0b78c, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                     votes: 1, usage: 0.0 GB, proxy component: false)
      Witness: 3bc3465b-fba8-19d4-08f1-005056bb5695 (state: ACTIVE (5), host: comp-esxi01b.byounghee.local, md: naa.6000c29283890bd1589fc56097773cd5, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
                                                     votes: 1, usage: 0.0 GB, proxy component: false)

보이시나요? RVC 에서는 예상한대로 comp-esxi0Xa (Preferred) 쪽의 Component 들이 Absent 상태로 되어있습니다. comp-esxi0Yb(Secondary) 쪽의 Component 들이 Active 상태로 보여지고, vsanWit(Witness) 쪽의 Component 도 Active 상태로 되어있어 7개의 Component 중 4개의 Component 가 Active 상태로 VM 이 정상적으로 기동할 수 있는 상태인 것입니다.

또 한번 찾아보고 확인을 해봤더니 대충 아래와 같은 설명을 찾을 수 있었습니다.

위의 상황과 매치를 시킨다면, 각각 3대/4대로 Partition 된 상황에서 VC 가 4대쪽이 아닌 3대쪽에서 정보를 가지고 오는 경우가 있다, 이게 정보를 가지고 오는 것 뿐만 아니라 3대의 View 로 현재 상태를 본다. VC 자체가 Network Partition 된 상황을 알 수 없게 Design 되어있다 

라고 하세요. 즉 위의 상황에서 Preferred Site 에 있는 3대의 View 로 Component Placement 를 보니 Preferred Site 의 Component 가 Active 된것으로 보인다는 것이죠.

그럼 Network Partition 이 아닌 Site Failure 의 상황이라면 좀 다를것이라고 생각됩니다. 그래서 Preferred Site 의 3대의 Host 를 Power off 해봤습니다.

정상적으로 보이네요. 

참고하시면 될것 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다