EMC Clariion Global Hot Sparing 과 Proactive Hot Sparing 의 이해.

Clarrion 문서를 정리한 것이지만, VNX 에도 거의 동일하게 적용되는 내용일 겁니다.

  • 목적

Global Hot sparing 과 Proactive Hot Sparing의 목적은 다음과 같습니다.

Raid Group 내의 디스크 중 하나가 fault 되면 Raid Group 의 상태가 Degraded 상태로 변경되고, Degraded 상태의 Raid Group 에 추가적인 디스크 Fault 가 발생한다면 Data Loss 가 발생할 위험에 노출되게 됩니다. Global Hot Sparing 은 Raid Group 이 degraded 상태가 된 시간을 줄이는데 목적이 있으며, Proactive Hot Sparing 은 Raid Group 이 Degrade 상태로 변경되는 것 자체를 방지하는데 목적이 있습니다.

  • 관련 용어 설명

Degrade Status : Raid Group 과 해당 Group 에 Bound 되어 있는 LUN 은 디스크 fault 발생시에 Degraded 상태가 되며, 추가 디스크 fault 발생시 DL(data loss) 발생 가능성이 높습니다. Raid 1,3,5 는 1개의 디스크 fault 발생시, Raid 6 는 2개의 디스크 fault 발생시 Degraded 상태가 됩니다.

Equalize : Hot Spare 디스크로부터 교체된 디스크로 데이터가 복제되는 과정. (Copy)

Hot Spare drive : Hot Spare 로 지정된 모든 디스크들을 말함.

Proactive Candidate : 여러가지 증상으로 인하여 곧 Fault 가 될 가능성이 있는 디스크 이며, Hot Spare 디스크로 Proactive copy 가 수행되고 있는 Disk 를 말함.

Proactive copy : Proactive candidate 로부터 Proactive Hot spare 로 데이터가 복제되는 과정

Proactive spare : Proactive Candidate 로부터 데이터가 복제될 대상으로 지정된 Spare 디스크

Rebuild : Raid 1,3,5 또는 6 로부터 데이터와 Parity 를 읽어드리는 과정이며, 읽어드린 데이터와 Parity 를 기반으로 유실된 데이터를 복구하고, 해당 데이터를 Hot Spare 디스크 또는 교체된 디스크로 쓰는 과정을 말합니다.

  • Global Hot Sparing 의 특징

Global Hot Sparing 의 특징은 다음과 같습니다.

다음과 같은 세가지 조건에서 Global Hot Sparing 이 실행됩니다.

  1. 수동으로 Proactive copy 를 실행한 경우
  2. FLARE 가 자동으로 Proactive copy 를 실행한경우
  3. Drive 가 Fault 되거나 Remove 되는 경우

어떤 Hot spare 디스크가 선택될지는 FLARE 에 의해 결정되고, Global Hot Spare drive selection 알고리즘에 의해서 선택됩니다.

RAID 3,5,6 의 경우 Fault 된 디스크의 데이터는 나머지 디스크들의 Parity 로부터 Rebuild 되어 Hot Spare 디스크로 복제됩니다. RAID 1,1/0 의 경우 Fault 된 디스크의 데이터는 해당 디스크의 Mirror 디스크로부터 복제됩니다. (rebuilding 안함). 데이터가 Rebuild 되면 해당 Raid Group 의 가용성이 복구됩니다. 일단 Hot Spare 디스크로의 Rebuild 가 시작되면, Rebuild 가 끝나기 전에 Fault 된 디스크를 수동으로 교체하더라도, Hot Spare 디스크로의 Rebuild 는 완료될때까지 진행됩니다.

데이터가 rebuild 되거나 또는 Hot Spare 디스크로 복제가 되고, Fault 된 디스크가 교체된다면, FLARE 는 데이터를 Hot Spare 로부터 교체된 디스크로 복제(Equalize) 합니다.

Equalization 이 완료되면, RAID Gorup 는 정상적인 상태로 복구되며, Hot Spare 디스크는 다시 사용가능한 상태로 돌아갑니다.

  • Rebuild 와 Equalization 시간

Rebuild 타임은 다음과 같은 요소에 의해 결정됩니다.

  1. 디스크 용량
  2. 디스크 타입(EFD/FC/SAS/SATA)
  3. LUN 에 bound 된 디스크 용량
  4. Rebuild 의 Priority
  5. 백그라운드 I/O 워크로드
  6. RAID 타입
  7. RAID Group 내의 디스크 수
  8. FC 타입의 디스크의 경우 FC 백엔드 루프에 디스크가 어떻게 분산배치되어 있는지

하기의 예는 300GB/15Krpm 디스크가 CX4-960, 백엔드 버스 스피드 4Gb/s 의 스펙에서 Rebuild 되는 것을 측정한 값입니다.

Type – Rate
RAID 5 (4+1) – 63~104 MB/s
RAID 6(6+2) – 63-99 MB/s
RAID 1/0(3+3) – 104MB/s

보통 높은 우선순위를 가진 LUN 부터 Rebuild 되나, 같은 RAID Group 내에 다수의 LUN 이 있는 경우는 가장 작은 크기의 LUN 부터 Rebuild 된다. 만약 RAID Group 이 Idle 상태라면 모든 LUN 이 ASAP 으로 Rebuild 될 것 입니다. 높은 Rebuild Priority 는 시스템의 퍼포먼스에 영향을 주므로 성능이 안정성보다 우선될경우 Rebuild Priority 는 LOW 로 설정되어야 합니다.

Equalization 은 Hot Spare 디스크로부터 교체된 디스크로의 복제과정으로, 보통 Rebuild 보다 빠릅니다.

하기의 예는 300GB/15Krpm 디스크가 CX4-960, 백엔드 버스 스피드 4Gb/s 의 스펙에서 Equalize 되는 것을 측정한 값입니다.

Type – Rate
RAID 5 (4+1) – 104 MB/s
RAID 6(6+2) – 104 MB/s
RAID 1/0(3+3) – 104MB/s

  • Proactive Hot Sparing 의 특징

Proactive hot sparing 을 사용할 경우 RAID Group 디스크 Fault 로 인하여 DL 이 발생할 수 있는 상황에 노출되지 않을 수 있습니다. 또한 Proactive copy 는 Rebuild 보다 빠릅니다. Rebuild 가 아닌 Proactive Copy 를 함으로써 오는 장점은 존재할 수도 있는 디스크의 불량때문에 Rebuild 가 실패할 수 있는 상황을 벗어날 수 있다는 것입니다.만약 Proactive Candidate 로부터 Sector 를 읽어올 수 없다면 RAID Group 내의 다른 디스크로부터 데이터를 Rebuild 할 것입니다.

Proactive hot sparing 은 수동 또는 자동으로 실행될 수 있으며, FLARE 는 자동으로 실행합니다. 수동/자동 실행여부와 관계없이 Proactive hot sparing 은 다음의 규칙을 따릅니다. 다수의 Hot Spare 디스크가 존재하더라도, 그 중 하나의 Hot Spare 디스크만 Proactive Sparing 에 사용됩니다.

Proactive hot sparing 은 다음과 같이 진행됩니다.

  1. 디스크가 특정한 에러의 한계점에 도달하거나, Fault 로 간주되는 증상을 보일 경우 또는 수동으로 Proactive copy 가 실행됐을 경우에, FLARE 는 해당 디스크를 Proactive Candidate 로 지정합니다.
  2. 적절한 Hot Spare 디스크는 Global Hot Spare drive selection 알고리즘에 의해 선택됩니다.
  3. Proactive Candidate 의 데이터는 Proactive spare 로 Proactive copy 됩니다. Proactive copy 중에는 체크포인트가 설정됩니다. 만약 Proactive copy 중에 Proactive Candidate 가 Fault 된다면, 마지막 체크포인트 이후의 데이터는 복제가 아닌 Rebuild 가 됩니다. 체크포인트 이전의 데이터는 이미 Proactive spare 로 복제가 되었기 때문에 rebuild 할 필요가 없습니다.
  4. 복제가 완료되면, Proactive candidate 는 fault 디스크로 표시되며, 안전하게 교체할 수 있습니다.
  5. Fault 난 Proactive candidate 가 교체되면, FLARE 는Proactive spare 로부터 교체된 디스크로 Equalzing 을 합니다.
  6. Equalization 이 완료되면, RAID Gorup 는 정상적인 상태로 복구되며, Hot Spare 디스크는 다시 사용가능한 상태로 돌아갑니다.
  • Proactive Copy 와 Equalization 시간

하기의 예는 300GB/15Krpm 디스크가 CX4-960, 백엔드 버스 스피드 4Gb/s 의 스펙에서 Proactive Copy 되는 것을 측정한 값입니다.

Type – Rate
RAID 5 (4+1) – 104 MB/s
RAID 6(6+2) – 104 MB/s
RAID 1/0(3+3) – 104MB/s

보시다시피 Equalizing 과 동일한 속도입니다. 왜냐하면 Proactive copy 는 Equalizing 과 동일한 과정이기 때문입니다.

  • Global hot spare drive selection algorithm

디스크가 FLARE 에 의해 Fault 되거나, Proactive candidate 가 되었을 때, 다음과 같은 과정을 통해 Proactive spare 를 선택합니다.

  1. Disk Type : FC 나 SATA 디스크의 경우 다른 FC나 SATA 의 hot spare 가 될 수 있으나, EFD 디스크는 오직 같은 EFD 디스크의 hot spare 가 될 수 있고, ATA 디스크도 마찬가지 입니다.
  2. Size : 알고리즘은 각각의 Hot Spare 디스크의 용량을 보고 판단합니다. 여기서 말하는 용량은 Fault 디스크의 Raw 용량이 아니고, Bound 되어 있는 LUN 의 용량(크기) 입니다. (LUN 의 크기에 따라 작은 Raw 용량을 가진 디스크도 Hot spare 가 될 수 있지만 권장하지는 않음)
  3. Location : 만약 동일한 디스크 타입이고, 조건을 만족하는 크기를 가진 디스크가 다수라면, FLARE 는 먼저 같은 백엔드 버스에 있는 디스크를 Hot spare 로 선택합니다. 만약 없을 경우는 나머지 버스에서 찾아 선택합니다.

디스크의 속도는 고려사항이 아닙니다.

  • Global hot spare 디자인시 고려사항

EMC 는 30개당 하나의 Global hot spare 디스크를 권장하며, 만약 스토리지의 위치가 멀어 즉각적인 조치가 어렵다면 더 많은 Hot spare 를 두도록 권장합니다. 그리고 스토리지 시스템이 다양한 크기와 속도를 가진 RAID Group 으로 구성된다면 좀 더 주의깊게 디자인을 하여야 합니다. 실제로는 MIX 해서 쓰는 경우는 많이 보질 않았습니다. 특히나 속도가 다른 경우는 더더욱.

다른 크기의 용량을 가진 디스크들이 각각의 RAID Group 으로 구성된 경우 : 예) 146GB 디스크로 구성된 RAID Group 가 300GB 디스크로 구성된 RAID Group 이 동시에 있을 경우 => 300GB 디스크를 Hot spare 로 지정할 것을 권장. 146GB 디스크와 300GB 디스크를 각각 Hot spare 로 지정해도 무방하며 이 경우에는 FLARE 에서 사이즈를 보고 알아서 선택합니다.

다른 속도의 디스크들이 각각의 RAID Group 으로 구성된 경우 : 예)300GB 10K 디스크와 300GB 15K 디스크로 구성된 RAID Group 이 있을 경우 ==> 더 빠른 디스크를 Hot spare 로 지정할 것을 권장. 이 경우에는 300GB 15K

다른 크기의 용량을 가진 디스크와 다른 속도의 디스크들이 각각의 RAID Group 으로 지정된 경우 : 예)300GB 10K, 300GB 15K, 400GB 10K  디스크로 구성된 RAID Group 이 있을 경우 ==> 300GB 15K 디스크와 400GB 10K 디스크를 Hot Spare 로 지정할 것을 권장. 이 경우 만약 300GB 디스크가 Fault 된다면 FLARE 는 300GB 15K 를 hot spare 로 사용합니다. 이유는 크기가 같기 때문.

백엔드 버스 스피드가 Mix 되어있는 경우 : 예)4Gb/s 와 2Gb/s 가 혼용되어있을 경우 ==> FLARE 는 버스 스피드를 고려하지 않습니다. 그러나 같은 버스에 있는 디스크를 사용함으로, 각각의 버스에 Hot spare 를 분산배치 하여야 합니다. (다른 스피드의 버스에 있는 Hot spare 는 사용 불가)

추가고려 사항 : EFD, FC, SAS, SATA 를 혼용하여 사용하는 경우. EFD 나 ATA 디스크는 다른 타입의 디스크의 Hot spare 가 될 수 없음. FC 와 SATA 는 서로의 Hot Spare 가 될 수 있음. EMC 는 각각의 타입의 디스크 30개당 1개의 Hot spare 를 권장하기 때문에, 만약 15개의 EFD 와 15개의 FC 를 사용하는 시스템이라면 1개의 EFD 와 1개의 FC 가 Hot spare 로 지정되어야 합니다.  Vault 디스크(최초 5개의 디스크)는 Hot spare 가 될 수 없습니다. FLARE 는 특정 RAID Gorup 에 특정 hot spare 를 지정하는 옵션을 제공하지 않습니다.

마지막으로 Global hot sparing 은 RAID Group 의 Rebuilding 으로 인한 퍼포먼스 임팩트를 완전히 제거할 수는 없습니다. 왜냐하면 RAID Group 내의 디스크가 Fault 되고 교체될 때, 시스템이 Parity 로부터 데이터를 복구하기 위하여 계산을 해야하기 때문에 성능에 영향을 줄 수 밖에 없습니다. 이때 Proactive Hot sparing 을 사용하면 Rebuild 를 하지 않아도 됨으로 이러한 성능에 영향을 주는 요소를 많이 줄일 수 있습니다. 일단 Rebuild 가 완료되고, Fault 된 디스크가 교체가 되면 FLARE 가 Equalizing 을 진행하며, 복제의 경우는 약간의 I/O 만 발생시키기 때문에 성능에 영향을 크게 주지 않습니다.

  • Global Hot sparing 과 Proactive Hot sparing 로 인한 RAID 타입별 장점

RAID 1 – Hot spare 디스크는 Fault 된 디스크를 대체하는데 사용되며, 데이터를 나머지 Mirror 된 디스크에서 복제하기 때문에 Parity 로 부터 데이터를 Rebuild 할 필요가 없으며, 복제 과정만 진행됩니다.

RAID 1/0 – RAID 1 의 장점을 그대로 가져가며, RAID1 보다 더욱 가용성이 좋습니다.

RAID 3,5 – RAID 3 또는 5 Group 내의 디스크 Fault 발생시 Hot spare 디스크가 Fault 된 디스크를 대체합니다.

RAID 6 – RAID 6 에서는 두개의 디스크 Fault 발생시에도 두개의 디스크가 동시에 Rebuild 를 합니다.

  • FAQ

Q – 특정 RAID group 에 특정 Hot spare 디스크를 지정할 수 있는가?
A – 불가능하다.

Q – RAID group 내의 디스크와 Hot spare 디스크의 스펙이 일치하지 않는 경우 성능에 문제는 없는가?
A – 해당 RAID Group 내의 디스크에 LUN 이 Bound 되어 있다면 낮은 스펙의 Hot spare 를 사용할 경우 성능에 성향을 준다. 만약 Bound 되어 있지 않다면 RAID group 의 성능에 크게 영향을 주지 않는다. 성능이 중요한 RAID Group 에는 높은 속도를 가진 디스크를 Hot spare 로 사용하는게 좋다. 추가로 Rebuild 가 발생하는 경우에 성능에 더욱 큰 영향을 준다.

Q – Hot spare 디스크는 어떤 기준으로 선택되는가?
A – Disk type 과 크기, 그리고 백엔드 버스에 의해 선택된다.

Q – Hot spare 디스크는 모든 그룹에 적용되는가?
A – 그렇다. Hot spare 디스크는 스토리지내에서 Global 하게 사용된다.

Q – Hot spare 디스크는 몇개나 지정할 수 있는가?
A – 스토리지에서 지원하는 디스크 갯수만큼 가능하다. 예를 들면 CX4-960 의 경우 955개의 Hot spare 디스크를 사용할 수 있다.(5개는 Vault 디스크며, Hot spare 로 사용 불가능)

Q – Hot spare 디스크는 최소 몇개를 지정해야 하는가?
A – 각각의 다른 타입의 디스크 30개당 1개의 hot spare 를 사용할 것을 권장한다. 30개의 FC, 30개의 EFD 가 있을 경우 FC 1개, EFD 1개를 Hot spare 로 사용

Q – MetaLUN 의 경우 Hot spare rebuild 에 영향을 주는가?
A – 그렇지 않다. MetaLUN 내의 개별 LUN 레벨에서 Rebuild 가 수행된다.

Q – Proactive copy 를 수동으로 실행할 경우 어떤 proactive hot spare 를 사용하도록 지정할 수 있는가?
A – 불가능하다. 수동/자동 실행여부와 관계없이 Global hot spare drive selection 알고리즘에 의해 선택된다.

Q – Proactive hot spare 는 어떤 기준으로 선택되는가?
A – Disk type 과 크기, 그리고 백엔드 버스에 의해 선택된다.

Q – Proactive copy 중에 Proactive spare 디스크가 Fault 된다면?
A – Proactive copy 중에 Proactive spare 가 Fault 된다면, Proactive spare 가 교체된다. Proactive copy 가 다른 Proactive spare 로 진행될 수 있도록 실행해주어야 한다.

Q – Proactive copy 중에 Proactive Candidate 가 Fault 된다면?
A – Proactive copy 중에 Proactive candidate 가 fault 된다면, Proactive hot sparing 이 아닌 hot sparing 과정으로 전환된다. 체크포인트 이전의 데이터들은 Rebuild 가 필요하지 않으며, 체크포인트 이후의 데이터들은 Rebuild 하여야 한다.

Q – Proactive copy 중에 Proactive candidate 과 같은 RAID group 내에 있는 다른 디스크가 Fault 된다면?
A – Proactive copy 는 계속 수행되며, LUN 은 degraded 상태가 된다. 이 경우 Proactive candidate 가 fault 된다면 RAID Group 에 문제가 발생함으로, Fault 시키지 않고 계속 살려둔다. Proactive copy 가 종료 된 이후에 Fault 된 디스크는 hot spare 로 대체된다. RAID Group 의 상태가 정상으로 돌아오고 모든 데이터가 Rebuild 된 이후에 Proactive candidate 가 Fault 된다.

7 thoughts on “EMC Clariion Global Hot Sparing 과 Proactive Hot Sparing 의 이해.

  1. Navisphere Manager 에서 Hot spare Disk 를 하나 지정을 하면 EMC 스토리지는 기본적으로 Global Hot spare 정책으로 자동으로 이동이 된다는 건 알겠는데 Hot spare Disk 를 proactive hot spare 로 지정하는 옵션이 있나요???

      1. Proactive host spare 조건을 수동으로 지정하는 경우 ( Exam : # naviseccli -h 10.64.123.45 -user emc -password emc -scope 0 copytohotspare 1_0_7 -initiate ) Rebuild 과정없이 proactive hot spare 로 proactive copy 가 진행이 된다는거내요? ^^ 맞나요? 그리고 좋은 자료 올려주셔서 감사 드립니다. ^^

김서욱에 답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다