ESXi host fails with intermittent NMI PSOD on HP ProLiant Gen8 servers (2149043)

제목에는 HP Server 만 언급되어있는데, 꼭 HP 서버에서만 발생하는 이슈는 아닙니다.

https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2149043

 

아래와 같은 ESXi 버전에서 PSOD 가 발생하는 사례가 있습니다. (버전 업그레이드 후 PSOD 가 발생하는 이슈)

 

ESXi 5.5 p10

ESXi 6.0 p4

ESXi 6.0 u3

ESXi 6.5 GA

 

Workaround 는 문서와 같이 iovDisableIR 를 False 로 변경하는 것입니다. (VT-D 의 interrupt remapper 를 enable 하는 것으로)

 

해당 버전에서 이슈가 발생하는 원인은 iovDisableIR 의 Default 값이 FALSE 에서 TRUE 로 변경되었기 때문입니다.

 

왜 기본값이 변경이 되었느냐 하면 다음 이슈때문입니다.

 

https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2147325

 

Intel VT-D 의 Errtum 이슈로 인해서 PSOD 가 발생하는 경우가 있었는데, 이것이 Intel VT-D 의 이슈라서 해당 부분을 fix 하려면 서버 바이오스 업데이트등을 통해서 fix 가 되어야 하는데, 실질적으로는 fix 가 나오지 않고 있는 것으로 보입니다. 그로 인하여 VMware 에서는 위의 ESXi 버전에서 아에 VT-D 를 사용하지 않도록 disable 하는 것으로 Default 설정값이 변경이 되었습니다.

 

그러나 disable 후에 일부 서버에서 PSOD 가 발생하는 경우가 있어 그런 경우에는 다시 VT-D 를 enable 하는 것이 workaround 입니다.

 

아마 차후에 나오는 patch 버전에서는 다시 iovDisableIR 의 값이 다시 FALSE 로 변경될 것으로 보입니다. 그리고 fix 하는 것은 서버 벤더에서 해당 이슈를 fix 한 바이오스가 나와야 할 것 같습니다.

 

VMware has recently received several reports indicating that disabling the Intel® VT-d interrupt remapper is causing ESXi host failure on HPE
Gen8 platforms, see ESXi host fails with intermittent NMI purple diagnostic screen on HP ProLiant Gen8 servers (2149043). VMware is no longer recommending that the Intel® VT-d interrupt remapper be disabled to work around the Intel® VT-d erratum described in this article. VMware is recommending that the fix for the erratum be applied in the BIOS as described in the Intel® specification updates for the affected processors.

 

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다