vSAN Stetched Cluster 테스트 중 이슈(2)

제가 목격한 두번째 이슈입니다.

현재 VM 은 SC_Preferred_CentOS 라는 이름의 VM 이고, 정상적으로 Ping 이 가는 상태입니다. 물론 콘솔 접속도 정상적으로 되는 상태입니다.

위의 스크린샷을 보고 뭔가 좀 이상하다고 생각되는 부분이 있으신가요?

vSAN 환경에서 하드웨어나 네트워크의 이슈로 인해서 문제가 생겼을 때, VM 이 정상적으로 동작할려면 모든 Components 중 50% 이상이 Active 상태여야 정상적으로 작동할 수 있습니다.

그러나 위의 스크린샷을 보시면 Active 상태의 Component 가 3개이고, Absent 상태가 4개인데, VM 이 정상적으로 기동하고 있습니다. 이게 어떻게 된 일일까요?

한가지 더 보면

comp-esxi01b 는 secondary site 의 호스트입니다. 첫번째 스크린샷을 보면, Preferred Site 의 Component 가 Active 고, Secondary Site 와 Witness 의 Component 가 Absent 입니다.

더욱더 혼란스럽습니다.  이게 대체 무슨일일까요. 무슨일이 벌어졌길래 이렇게 된것인가.

 

일단 현재 상황은 Preferred Site 의 vSAN Network 이 Partition 됐을 때의 상황입니다.

Preferred Site 의 vSAN Network 이 아에 죽은 상태인것이고, 그에 따라서 Preferred Site 에서 동작중이던 SC_Preferred_CentOS VM 은 Secondary Site 로 Failover 가 잘 되어서 이미 Restart 가 된 것이죠.

생각했던대로 잘 동작했는데, 정작 UI 에서 보여지는 Policy Compliant 의 상태가 이상합니다. UI 가 이상한것인가… 그렇다면 RVC 로 한번 확인해보겠습니다.

보이시나요? RVC 에서는 예상한대로 comp-esxi0Xa (Preferred) 쪽의 Component 들이 Absent 상태로 되어있습니다. comp-esxi0Yb(Secondary) 쪽의 Component 들이 Active 상태로 보여지고, vsanWit(Witness) 쪽의 Component 도 Active 상태로 되어있어 7개의 Component 중 4개의 Component 가 Active 상태로 VM 이 정상적으로 기동할 수 있는 상태인 것입니다.

또 한번 찾아보고 확인을 해봤더니 대충 아래와 같은 설명을 찾을 수 있었습니다.

위의 상황과 매치를 시킨다면, 각각 3대/4대로 Partition 된 상황에서 VC 가 4대쪽이 아닌 3대쪽에서 정보를 가지고 오는 경우가 있다, 이게 정보를 가지고 오는 것 뿐만 아니라 3대의 View 로 현재 상태를 본다. VC 자체가 Network Partition 된 상황을 알 수 없게 Design 되어있다 

라고 하세요. 즉 위의 상황에서 Preferred Site 에 있는 3대의 View 로 Component Placement 를 보니 Preferred Site 의 Component 가 Active 된것으로 보인다는 것이죠.

그럼 Network Partition 이 아닌 Site Failure 의 상황이라면 좀 다를것이라고 생각됩니다. 그래서 Preferred Site 의 3대의 Host 를 Power off 해봤습니다.

정상적으로 보이네요. 

참고하시면 될것 같습니다.