vSAN 에서 disk failed 이 발생했을 때의 절차입니다.
Flash Disk failed
Cache-tier 로 사용중인 Flash Disk 가 failed 되었을 경우, 해당 Disk group 이 unmount 되니 참고하세요. 아래의 절차대로 진행하지 않는 경우 vSAN 에서 예상하고 있는 Cache 의 양보다 적은 상태로 vSAN 이 동작하기 때문에 퍼포먼스에 문제가 생길 수 있습니다. 참고로, vSAN 의 장애테스트를 위해 디스크를 강제로 pull in/out 하는 것은 권장되지 않습니다. 그 이유는 다음과 같습니다.
Then they walk up to the hardware and yank a HDD or SSD out of one of the hosts. It should be noted that this scenario would likely never happen on purpose in production. Its possible to accidentally do it but if following proper maintenance procedures it should never happen. Especially now that vSphere 6.0 / VSAN 6.0 has the ability to blink the LED of a failed disk to properly identify it. When this “failure” test is executed, some IO Controllers, SSD’s, and HDD’s do not behave properly. The issue can be due to the firmware/driver combination provided to VMware by the IO Controller manufacturer or could be a problem with the HDD or SSD firmware.
더불어 디스크를 강제로 빼면, 실제로 disk fault 가 발생했을 때와 달리, 디스크내의 component 상태가 Degraded 가 아닌, Absent 상태가 됩니다. 다르게 동작하기 때문에 적합한 테스트가 아닙니다.
Flash disk 에 failed 이 발생했을 경우는 아래와 같이 조치하여 주십시오. 만약 disk claim 모드가 Automatic 으로 되어있으면 Manual 로 변경해야 disk delete 가 가능합니다.
Flash Device Decommission Procedure from the vSphere Web Client
- Log on to the vSphere Web Client
- Navigate to the Hosts and Clusters view and select the cluster object
- Go to the manage tab and select Disk management under the Virtual SAN section
- Select the disk group with the failed flash device
- Select the failed flash device and click the delete button
디스크 교체 후
–> RAID Controller 가 pass-though 인 경우
Pass-though 방식일 경우 VSAN 에서 직접 디스크를 관리하고, hot-plug 를 지원함으로 교체만 하시면 됩니다.
–> RAID Controller 가 RAID 0 일 경우
디스크 교체는 VSAN 에서 관할하지 못하고, Raid Controller 에서 관할 합니다.
해당 Vendor 에서 제공하는 문서를 참조하시여, 교체진행하시기 바랍니다. 제가 알기로는 ServeRaid 와 같은 LSI 칩셋 컨트롤러의 경우 별도의 CLI Utility(Storcli) 를 통해 별도로 디스크를 인식시켜 주어야 하는 것으로 알고 있습니다. 방법은 해당 벤더에 문의하여 주십시오.
Magnetic Disk (HDD) / Capacity SSD failed
아래와 같은 작업을 진행하지 않고, 디스크를 제거하면 안됩니다.
vSphere Web Client Procedure
- Login to the vSphere Web Client
- Navigate to the Hosts and Clusters view and select the Virtual SAN enabled cluster
- Go to the manage tab and select Disk management under the Virtual SAN section
- Select the disk group with the failed magnetic device
- Select the failed magnetic device and click the delete button
추가적으로, Failed 난 disk 에서는 Data evacuating 이 불가능하니, remove 할때 Data evacuating check 를 풀고 작업하여 주시면 되겠습니다.
디스크 교체 후
–> RAID Controller 가 pass-though 인 경우
Pass-though 방식일 경우 VSAN 에서 직접 디스크를 관리하고, hot-plug 를 지원함으로 교체만 하시면 됩니다.
–> RAID Controller 가 RAID 0 일 경우
디스크 교체는 VSAN 에서 관할하지 못하고, Raid Controller 에서 관할 합니다.
해당 Vendor 에서 제공하는 문서를 참조하시여, 교체진행하시기 바랍니다. 제가 알기로는 ServeRaid 와 같은 LSI 칩셋 컨트롤러의 경우 별도의 CLI Utility(Storcli) 를 통해 별도로 디스크를 인식시켜 주어야 하는 것으로 알고 있습니다. 방법은 해당 벤더에 문의하여 주십시오.
After replace
MD/Flash 모두 디스크 교체가 끝나면 디스크를 다시 Claim 하여 주십시오.