[TSHOOT] C210 M2, C250 M2 에서 VMware 사용시 Device latency 가 치솟는 문제

제가 무쟈게 고생했던 장애입니다..

사실 원인은 간단한데 시스코나, VMware 에서나 답변을 제대로 해주지 않아서 장애처리 기간이 길었었지요.. 흑역사였다고나 할까..

-_-

환경 : 공유 스토리지를 사용하지 않고, Local Disk 만 사용함. vSphere 5.0 또는 4.x

증상 : vSphere Client 상에서 Device latency 가 오르락 내리락 하는 증상

다음과 같은 메세지가 출력 됩니다.

Device naa.5000c5000b36354b performance has deteriorated. I/O latency increased from average value of 1832 microseconds to 19403123 microsecond

숫자는 시스템에 따라서 좀 다를수도 있습니다. 오르락 내리락 하다가 ESXi Hypervisor 가 다운되며, 심지어는 Broken 되서 퍼플 스크린이 나올때도 있습니다.

그리고 vmkwarning 로그에 다음과 같은 메세지가 나타납니다.

2011-10-31T09:12:33.569Z cpu0:5535)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40

2011-12-26T05:35:58.532Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40

2012-01-01T04:56:45.953Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40

2012-01-18T12:29:48.483Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40

2012-01-30T13:13:59.614Z cpu0:4120)WARNING: APIC: 1839: APICID 0x00000000 – ESR = 0x40

일단 다음 KB 와 연관이 있습니다. http://kb.vmware.com/kb/1030265

해결방법 : 세가지가 있습니다.

  1. BIOS 에서 인텔 VT-D DISABLE
  2. SSH 로 ESXi 에 접근하여 다음과 같은 커맨드 입력
    esxi 4.x ]]]] esxcfg-advcfg -k TRUE iovDisableIR
    esxi 5.x ]]]] esxcli system settings kernel set -s iovDisableIR -v TRUE
    위 커맨드로 Interrupt Remapping 을 Disable 해줍니다.
    그리고 재부팅
  3. UCS 의 펌웨어를 1.4.3(j) 또는 상위버전으로 업그레이드 하세요.

세가지중 하나를 해주면 되는데, 3번이 젤 좋겠죠? ^^

이상입니다.

댓글 한 개

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.