제가 무쟈게 고생했던 장애입니다..
사실 원인은 간단한데 시스코나, VMware 에서나 답변을 제대로 해주지 않아서 장애처리 기간이 길었었지요.. 흑역사였다고나 할까..
-_-
환경 : 공유 스토리지를 사용하지 않고, Local Disk 만 사용함. vSphere 5.0 또는 4.x
증상 : vSphere Client 상에서 Device latency 가 오르락 내리락 하는 증상
다음과 같은 메세지가 출력 됩니다.
Device naa.5000c5000b36354b performance has deteriorated. I/O latency increased from average value of 1832 microseconds to 19403123 microsecond
숫자는 시스템에 따라서 좀 다를수도 있습니다. 오르락 내리락 하다가 ESXi Hypervisor 가 다운되며, 심지어는 Broken 되서 퍼플 스크린이 나올때도 있습니다.
그리고 vmkwarning 로그에 다음과 같은 메세지가 나타납니다.
2011-10-31T09:12:33.569Z cpu0:5535)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40
2011-12-26T05:35:58.532Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40
2012-01-01T04:56:45.953Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40
2012-01-18T12:29:48.483Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40
2012-01-30T13:13:59.614Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40
일단 다음 KB 와 연관이 있습니다. http://kb.vmware.com/kb/1030265
해결방법 : 세가지가 있습니다.
- BIOS 에서 인텔 VT-D DISABLE
- SSH 로 ESXi 에 접근하여 다음과 같은 커맨드 입력
esxi 4.x ]]]] esxcfg-advcfg -k TRUE iovDisableIR
esxi 5.x ]]]] esxcli system settings kernel set -s iovDisableIR -v TRUE
위 커맨드로 Interrupt Remapping 을 Disable 해줍니다.
그리고 재부팅 - UCS 의 펌웨어를 1.4.3(j) 또는 상위버전으로 업그레이드 하세요.
세가지중 하나를 해주면 되는데, 3번이 젤 좋겠죠? ^^
이상입니다.
wow