제가 목격한 두번째 이슈입니다.
현재 VM 은 SC_Preferred_CentOS 라는 이름의 VM 이고, 정상적으로 Ping 이 가는 상태입니다. 물론 콘솔 접속도 정상적으로 되는 상태입니다.
위의 스크린샷을 보고 뭔가 좀 이상하다고 생각되는 부분이 있으신가요?
vSAN 환경에서 하드웨어나 네트워크의 이슈로 인해서 문제가 생겼을 때, VM 이 정상적으로 동작할려면 모든 Components 중 50% 이상이 Active 상태여야 정상적으로 작동할 수 있습니다.
그러나 위의 스크린샷을 보시면 Active 상태의 Component 가 3개이고, Absent 상태가 4개인데, VM 이 정상적으로 기동하고 있습니다. 이게 어떻게 된 일일까요?
한가지 더 보면
comp-esxi01b 는 secondary site 의 호스트입니다. 첫번째 스크린샷을 보면, Preferred Site 의 Component 가 Active 고, Secondary Site 와 Witness 의 Component 가 Absent 입니다.
더욱더 혼란스럽습니다. 이게 대체 무슨일일까요. 무슨일이 벌어졌길래 이렇게 된것인가.
일단 현재 상황은 Preferred Site 의 vSAN Network 이 Partition 됐을 때의 상황입니다.
Preferred Site 의 vSAN Network 이 아에 죽은 상태인것이고, 그에 따라서 Preferred Site 에서 동작중이던 SC_Preferred_CentOS VM 은 Secondary Site 로 Failover 가 잘 되어서 이미 Restart 가 된 것이죠.
생각했던대로 잘 동작했는데, 정작 UI 에서 보여지는 Policy Compliant 의 상태가 이상합니다. UI 가 이상한것인가… 그렇다면 RVC 로 한번 확인해보겠습니다.
VM SC_Preferred_CentOS:
VM registered on host: comp-esxi01b.byounghee.local
Namespace directory
Shown from perspective of host comp-esxi01b.byounghee.local
DOM Object: d49a435b-9f58-4fed-37aa-005056bb5695 (v5, owner: comp-esxi01b.byounghee.local, proxy owner: None, policy: stripeWidth = 1, spbmProfileGenerationNumber = 1, replicaPreference = Performance, subFailuresToTolerate = 1, forceProvisioning = 0, spbmProfileName = SC/PFTT=1/SFTT=1, hostFailuresToTolerate = 1, CSN = 225, cacheReservation = 0, SCSN = 330, proportionalCapacity = [0, 100], spbmProfileId = 56f92a68-db23-4ec0-9d28-50645b660104)
RAID_1
RAID_1
Component: d49a435b-39bd-c5ed-d6d7-005056bb5695 (state: ACTIVE (5), host: comp-esxi02b.byounghee.local, md: naa.6000c291ced1b95d728068db739470ff, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.4 GB, proxy component: false)
Component: d49a435b-8d43-c8ed-544f-005056bb5695 (state: ACTIVE (5), host: comp-esxi03b.byounghee.local, md: naa.6000c294a1e2d7f7b0371aae4d357e84, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.4 GB, proxy component: false)
RAID_1
Component: d49a435b-d426-caed-f13b-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi01a.byounghee.local, md: naa.6000c29b5f7dcd96843e1f51d2b6fb95, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.4 GB, proxy component: false)
Component: d49a435b-7dc3-cbed-ecbb-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi02a.byounghee.local, md: naa.6000c2958f500aa41079d0d1544ec25d, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.4 GB, proxy component: false)
Witness: d49a435b-9571-cded-9686-005056bb5695 (state: ACTIVE (5), host: vsanwit.byounghee.local, md: mpx.vmhba1:C0:T1:L0, ssd: mpx.vmhba1:C0:T2:L0,
votes: 3, usage: 0.0 GB, proxy component: false)
Witness: d49a435b-ec2d-cfed-ef15-005056bb5695 (state: ABSENT (6), csn: STALE (222!=225), host: comp-esxi03a.byounghee.local, md: naa.6000c29cab4cedaada23591f3ac0b78c, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.0 GB, proxy component: false)
Witness: d49a435b-01eb-d0ed-1014-005056bb5695 (state: ACTIVE (5), host: comp-esxi01b.byounghee.local, md: naa.6000c29283890bd1589fc56097773cd5, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.0 GB, proxy component: false)
Disk backing: [vsanDatastore] d49a435b-9f58-4fed-37aa-005056bb5695/SC_Preferred_CentOS.vmdk
Shown from perspective of host comp-esxi01b.byounghee.local
DOM Object: d99a435b-b190-713b-aa3a-005056bb5695 (v5, owner: comp-esxi01b.byounghee.local, proxy owner: None, policy: stripeWidth = 1, spbmProfileGenerationNumber = 1, replicaPreference = Performance, subFailuresToTolerate = 1, forceProvisioning = 0, spbmProfileName = SC/PFTT=1/SFTT=1, hostFailuresToTolerate = 1, CSN = 222, cacheReservation = 0, SCSN = 329, proportionalCapacity = 0, spbmProfileId = 56f92a68-db23-4ec0-9d28-50645b660104)
RAID_1
RAID_1
Component: d99a435b-5548-693c-0d0e-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi01a.byounghee.local, md: naa.6000c29b5f7dcd96843e1f51d2b6fb95, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 1.3 GB, proxy component: false)
Component: d99a435b-eedb-6b3c-ce94-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi02a.byounghee.local, md: naa.6000c2958f500aa41079d0d1544ec25d, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 1.3 GB, proxy component: false)
RAID_1
Component: d99a435b-eeee-6c3c-52a1-005056bb5695 (state: ACTIVE (5), host: comp-esxi02b.byounghee.local, md: naa.6000c291ced1b95d728068db739470ff, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 1.4 GB, proxy component: false)
Component: d99a435b-05e7-6d3c-9d3c-005056bb5695 (state: ACTIVE (5), host: comp-esxi03b.byounghee.local, md: naa.6000c294a1e2d7f7b0371aae4d357e84, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 1.4 GB, proxy component: false)
Witness: 3bc3465b-b9d3-14d4-8237-005056bb5695 (state: ACTIVE (5), host: vsanwit.byounghee.local, md: mpx.vmhba1:C0:T1:L0, ssd: mpx.vmhba1:C0:T2:L0,
votes: 3, usage: 0.0 GB, proxy component: false)
Witness: 3bc3465b-a2c6-17d4-a043-005056bb5695 (state: ABSENT (6), csn: STALE (219!=222), host: comp-esxi03a.byounghee.local, md: naa.6000c29cab4cedaada23591f3ac0b78c, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.0 GB, proxy component: false)
Witness: 3bc3465b-fba8-19d4-08f1-005056bb5695 (state: ACTIVE (5), host: comp-esxi01b.byounghee.local, md: naa.6000c29283890bd1589fc56097773cd5, ssd: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001,
votes: 1, usage: 0.0 GB, proxy component: false)
보이시나요? RVC 에서는 예상한대로 comp-esxi0Xa (Preferred) 쪽의 Component 들이 Absent 상태로 되어있습니다. comp-esxi0Yb(Secondary) 쪽의 Component 들이 Active 상태로 보여지고, vsanWit(Witness) 쪽의 Component 도 Active 상태로 되어있어 7개의 Component 중 4개의 Component 가 Active 상태로 VM 이 정상적으로 기동할 수 있는 상태인 것입니다.
또 한번 찾아보고 확인을 해봤더니 대충 아래와 같은 설명을 찾을 수 있었습니다.
위의 상황과 매치를 시킨다면, 각각 3대/4대로 Partition 된 상황에서 VC 가 4대쪽이 아닌 3대쪽에서 정보를 가지고 오는 경우가 있다, 이게 정보를 가지고 오는 것 뿐만 아니라 3대의 View 로 현재 상태를 본다. VC 자체가 Network Partition 된 상황을 알 수 없게 Design 되어있다
라고 하세요. 즉 위의 상황에서 Preferred Site 에 있는 3대의 View 로 Component Placement 를 보니 Preferred Site 의 Component 가 Active 된것으로 보인다는 것이죠.
그럼 Network Partition 이 아닌 Site Failure 의 상황이라면 좀 다를것이라고 생각됩니다. 그래서 Preferred Site 의 3대의 Host 를 Power off 해봤습니다.
정상적으로 보이네요.
참고하시면 될것 같습니다.