vSAN 환경에서 디스크 교체 후 claim 이 불가능 한 경우

예전에 Bootstrapping vSAN without vCenter 라는 포스트에서도 잠시 언급한 바가 있었습니다만

vSAN 환경에서 disk fault 가 나서 디스크를 교체한 후에 claim disk 가 안되는 경우가 있습니다. 

일반적으로 vSAN 에서 디스크 fault 가 발생시에는 다음과 같은 절차에 따라 교체합니다.

vSAN 에서 자체적으로 Fault 를 감지한 경우에는 디스크가 Degraded 상태가 되는데, Hardware level 에서 감지를 해서 offline 을 시켜버리는 경우에는 Absent 상태도 될 수 있습니다.

오늘은 Capacity Disk 가 Fault 난 경우에 대해서만 적겠습니다. Cache disk 도 크게 다르진 않습니다만.. 암튼

  1. Disk Group 에서 Degraded/Absent 상태의 Disk 를 Remove 이 경우 “No Migration” 을 선택합니다. 어짜피 다른 옵션들을 골라봐야 에러메세지가 뜰겁니다. 디스크가 이미 Fault 상태이기 때문에 해당 디스크에서 데이터를 evacuation 할수가 없기 때문이죠.
  2. 디스크를 교체합니다.
  3. 교체한 디스크가 ESXi 호스트상에서 인식되었는지 확인합니다.
  4. Disk 를 다시 Claim 합니다. 

요정도인데.. 가끔 4번 항목에서 안되는 경우가 있습니다. 몇가지 이유가 있을수 있겠습니다만, 흔한 이유중 하나는 교체한 디스크가 완전히 비워져있는 새 디스크가 아닐경우가 대표적으로 그렇습니다. 이 경우 파티션이 남아있는 경우가 있어서 vSAN 용도로 claim 이 안되는 경우가 발생합니다.

교체후 ESXi 호스트레벨에서 디바이스도 새로 잘 인식된 것으로 보여서 add 를 했는데..

막상 claim disk 를 하면.. 리스트에 아무것도 안보이는거죠.

이 경우, 교체된 디스크에 파티션이 남아있는 경우가 있습니다. 먼저 교체된 디스크의 naa id 를 알고 있다면 심플합니다. 

새로 추가된 naa 값이 state 가Ineligible for use by VSAN 인지 확인하시고, 만약 맞다면 기존의 파티션이 존재해서 추가가 되지 않는것으로 보시면 될것 같습니다. 부팅 디스크가 있는 경우도 있기 때문에 naa id 값 확인이 중요합니다. 만약 잘 모르겠다면

  1. esxcli storage core device list
    • 이 커맨드는 시스템에 장착되어있는 모든 디스크가 나옵니다. (ESXi 부팅용 로컬디스크 포함)
  2. esxcli vsan storage list
    • 이 커맨드는 vSAN 용도로 사용되고 있는 디스크만 나옵니다.
  3. vdq -q

위 3개의 커맨드 결과물을 비교해서 찾아내는 수밖에 없습니다.

위와 같은 상태가 확인이 되었다면, 아래 화면에서 Erase Partitions 를 하시면 됩니다.

그뒤에 다시 시도해보면 될겁니다. 다른 디스크의 파티션을 지우지 않도록 확인 또 확인 하시고 작업하시기 바랍니다.