LAB 환경에 만들어 놓은 vSAN cluster 에서, 용량 문제로 인해서 Cache Tier SSD 에 문제가 생겼습니다. Nested 환경에서 불필요하게 Cache disk 를 크게 만들어놨더니 usage 문제가 생겼네요.
Nested 환경에서 Physical Disk 문제가 여러 호스트에서 동시다발적으로 문제를 야기했기 때문에, 어쩔 수 없이 강제로 Power off 를 하고 디스크 크기를 줄여서 다시 생성했습니다.
이것이 실제 Production 환경에서도 Cache 용 SSD disk 에 문제가 생기고, 하드웨어 레벨에서 offline 이 되버리면 이것과 동일한 현상이 발생합니다. 6.7 에서는 개선됬다고 하는데 확인해보지는 못했구요.
문제는 GUI 상에서 disk group 이 보이지 않기 때문에 기존 Disk group 를 삭제하는 작업이 UI 상에서는 불가능하다는 것입니다. CLI 로 확인해보면..
[root@mgmt-esxi01a:~] esxcli vsan storage list naa.6000c29a3e896cc659e0e9b275d079f1 Device: naa.6000c29a3e896cc659e0e9b275d079f1 Display Name: naa.6000c29a3e896cc659e0e9b275d079f1 Is SSD: true VSAN UUID: 52cd2389-3f50-4123-33c9-01f76bf68000 VSAN Disk Group UUID: 52088605-0d40-9e12-de7f-bd0650b4485e VSAN Disk Group Name: Used by this host: true In CMMDS: false On-disk format version: 5 Deduplication: false Compression: false Checksum: 8208566191999317580 Checksum OK: true Is Capacity Tier: true Encryption: false DiskKeyLoaded: false Creation Time: Wed Jun 6 15:09:22 2018
현재구성은 Cache Tier 1개, Capacity Tier 1개 구성입니다. Cache Tier 용 디스크가 이미 하드웨어적으로 제거된 상태이기 때문에, esxcli vsan storage list 커맨드에서도 보이지 않고 남아있는 Capacity Tier 디스크의 정보만 보입니다. 보시다시피, VSAN Disk Group Name 이 보이지 않습니다.
아마 이게 GUI 상에서 보이지 않는 문제의 원인으로 생각됩니다. 정상적인 경우라면 Cache Tier 용 디스크의 UUID 과, vSAN Disk Group 의 UUID 가 동일한데, 해당 디스크가 빠졌기 때문에 보이지 않는 것 같습니다.
[root@comp-esxi03a:~] esxcli vsan storage list t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001 Device: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001 Display Name: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001 Is SSD: true VSAN UUID: 52282c89-612d-ae05-280c-f9705668de37 VSAN Disk Group UUID: 52282c89-612d-ae05-280c-f9705668de37 VSAN Disk Group Name: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001 Used by this host: true In CMMDS: true On-disk format version: 5 Deduplication: false Compression: false Checksum: 16312152671209680187 Checksum OK: true Is Capacity Tier: false Encryption: false DiskKeyLoaded: false Creation Time: Fri Aug 24 04:11:22 2018 naa.6000c29cab4cedaada23591f3ac0b78c Device: naa.6000c29cab4cedaada23591f3ac0b78c Display Name: naa.6000c29cab4cedaada23591f3ac0b78c Is SSD: true VSAN UUID: 52bfc3a0-207b-97fd-6191-4ec917b6e510 VSAN Disk Group UUID: 52282c89-612d-ae05-280c-f9705668de37 VSAN Disk Group Name: t10.NVMe____Virtual_disk____________________________VMWare_NVME2D0000____00000001 Used by this host: true In CMMDS: true On-disk format version: 5 Deduplication: false Compression: false Checksum: 13835251218840614346 Checksum OK: true Is Capacity Tier: true Encryption: false DiskKeyLoaded: false Creation Time: Fri Aug 24 04:11:22 2018
일단 이러한 상황에서는 esxcli 커맨드로 Disk group 을 제거해야 합니다.
SSD 디스크가 보이지 않는 상태이기때문에 -s 옵션은 사용할 수 없습니다. 현 상태에서는 uuid 로 지워야 합니다. esxcli vsan storage remove -u “VSAN Disk Group UUID”
[root@mgmt-esxi01a:~] esxcli vsan storage remove -u 52088605-0d40-9e12-de7f-bd0650b4485e -m noAction [root@mgmt-esxi01a:~]
지우고 나면 GUI 상에서 이렇게 claim 된 디스크가 없는것으로 나옵니다. 이제 다시 Disk Group 을 만들면 됩니다.
다만 위 작업을 수행하기 전에 resync 가 진행중인것이 없는지 꼭 확인하세요. 만약 진행중이라면 resync 끝나고 지우는걸 추천합니다.