Wednesday, January 7th, 2026

대용량 NAS 구축 시 RAID 5 절대 쓰지 마세요 (URE의 공포와 RAID 6)

16TB 하드디스크가 보편화된 2025년, 많은 NAS 입문자들은 여전히 과거의 관성대로 RAID 5를 선택합니다. “하드디스크 하나 값만 아끼면 나머지 용량을 다 쓸 수 있고, 하나가 고장 나도 안전하다”는 가성비의 논리 때문입니다.

하지만 스토리지 엔지니어의 관점에서 단언컨대, 오늘날의 고용량 HDD 환경에서 RAID 5는 ‘데이터 러시안룰렛’과 다름없습니다.

대용량 NAS 구축 시 RAID 5 절대 쓰지 마세요 (URE의 공포와 RAID 6)

과거 500GB 하드디스크 시절에는 훌륭한 기술이었던 RAID 5가, 테라바이트(TB) 시대로 넘어오면서 왜 시한폭탄으로 전락했는지, 그리고 그 기술적 배경인 **URE(Unrecoverable Read Error)**와 통계적 필연성에 대해 심층 해부합니다.

1. RAID 5의 몰락: 수학이 당신을 배신하는 순간

RAID 5가 위험한 이유는 하드디스크의 품질이 나빠서가 아닙니다. 오히려 하드디스크 용량이 너무 커졌기 때문입니다. 이 역설적인 상황을 이해하려면 하드디스크의 스펙 시트에 숨겨진 작은 글씨, **URE(Unrecoverable Read Error, 복구 불가능한 읽기 오류)**를 봐야 합니다.

① $10^{14}$ 비트의 함정

대부분의 소비자용 SATA HDD(WD Red, Seagate IronWolf 등)의 스펙 시트를 보면, ‘Non-recoverable Read Errors per bits read’ 항목이 1 in $10^{14}$ 로 표기되어 있습니다.

이는 “100조 비트($10^{14}$ bits)를 읽을 때마다 통계적으로 1비트의 읽기 오류가 발생할 수 있다”는 뜻입니다.

$10^{14}$ 비트는 약 12.5TB에 해당합니다.

과거 1TB 하드디스크를 쓸 때는 이 수치가 문제 되지 않았습니다. 전체를 다 읽어도 오류가 날 확률이 낮았으니까요. 하지만 지금 우리는 12TB, 16TB, 심지어 20TB 하드디스크를 사용합니다.

② 리빌딩(Rebuild) 시나리오의 재구성

RAID 5 구성에서 디스크 1개가 고장 났다고 가정해 봅시다. (Degraded Mode)

새 하드디스크를 꽂으면, RAID 컨트롤러는 잃어버린 데이터를 복구하기 위해 남아있는 모든 하드디스크의 데이터를 처음부터 끝까지 1비트도 빠짐없이 읽어야 합니다.

만약 당신이 12TB 하드디스크 4개로 RAID 5를 구성했다면, 리빌딩을 위해 읽어야 할 데이터 총량은 36TB입니다.

  • URE 발생 기준: 12.5TB
  • 읽어야 할 데이터: 36TB

통계적으로 리빌딩 과정에서 URE가 발생할 확률은 거의 100%에 수렴하거나, 최소한 한 번 이상 발생할 가능성이 매우 높습니다.

③ URE가 발생하면 무슨 일이 벌어지는가?

정상적인 RAID 상태라면 URE는 별문제가 아닙니다. 패리티 정보를 이용해 고치면 됩니다. 하지만 이미 디스크 하나가 죽어 패리티가 없는 상태에서, 다른 디스크에서 또 읽기 오류가 발생하면?

컨트롤러는 해당 블록의 데이터를 재구성할 수학적 단서를 잃게 됩니다.

  • 결과: 리빌딩 프로세스는 그 즉시 중단(Fail)되고, RAID 볼륨 전체가 깨지거나(Volume Crash), 운이 좋아도 해당 파일이 영구 손상됩니다. 디스크 하나를 살리려다 전체 데이터를 날리는 비극이 여기서 발생합니다.

2. 물리적 스트레스: 엎친 데 덮친 격

수학적 확률만 문제가 아닙니다. 물리적인 환경 또한 리빌딩을 방해합니다.

스트레스 테스트와 다름없는 리빌딩

평소 NAS는 듬성듬성 데이터를 읽고 씁니다. 하지만 리빌딩은 다릅니다. 수십 시간, 길게는 며칠 동안 디스크 헤드가 쉴 새 없이 움직이며 최고 속도로 데이터를 읽어냅니다.

이 과정에서 엄청난 발열과 진동이 발생합니다.

보통 RAID를 구성하는 하드디스크는 같은 날 생산된 같은 주차(Batch)의 제품인 경우가 많습니다. 즉, 1번 디스크가 노화로 죽었다면, 옆에 있는 2, 3, 4번 디스크도 수명이 간당간당할 확률이 높습니다. 이 상황에서 리빌딩이라는 극한의 스트레스를 가하면, 멀쩡하던 두 번째 디스크가 급사(Sudden Death)할 확률이 비약적으로 상승합니다.

3. 유일한 생존 전략: RAID 6 (Dual Parity)

이러한 통계적, 물리적 위험을 회피할 수 있는 유일한 대안은 이중 패리티(Dual Parity) 기술인 RAID 6입니다.

RAID 6의 알고리즘: P와 Q

RAID 5가 XOR 연산 하나만으로 패리티(P)를 만든다면, RAID 6는 서로 다른 알고리즘(주로 Reed-Solomon 코드 등)을 사용해 두 번째 패리티(Q)를 추가로 생성합니다.

  • RAID 5: N-1 용량 사용 / 1개 고장 허용
  • RAID 6: N-2 용량 사용 / 2개 고장 허용

리빌딩 중 URE가 발생해도 안전하다

RAID 6 환경에서 디스크 하나가 죽어서 리빌딩을 하고 있다고 칩시다. 이때 다른 디스크에서 URE(읽기 오류)가 발생했습니다.

RAID 5는 여기서 죽지만, RAID 6는 생존합니다.

컨트롤러는 이 URE를 ‘두 번째 디스크의 부분적 고장’으로 인식하고, 남아있는 두 번째 패리티(Q) 정보를 이용해 해당 비트를 수학적으로 완벽하게 복원해 냅니다.

물론 하드디스크 2개 분량의 용량을 손해 보는 것은 뼈아픕니다. 하지만 10TB가 넘는 고용량 드라이브 환경에서 이는 선택이 아니라 필수 보험료입니다.

4. 파일 시스템 레벨의 대안: ZFS와 RAID-Z2

하드웨어 RAID 카드보다 더 진보된 소프트웨어 정의 스토리지(SDS)인 ZFS 파일 시스템을 사용하는 것도 훌륭한 대안입니다. (TrueNAS, Unraid 등에서 사용)

RAID-Z2 vs RAID 6

ZFS의 RAID-Z2는 RAID 6와 유사하게 2개의 패리티를 가집니다. 하지만 결정적인 차이는 ‘쓰기 구멍(Write Hole)’ 문제가 없고, **’데이터 스크러빙(Scrubbing)’**이 강력하다는 점입니다.

비트 롯(Bit Rot)과 스크러빙

하드디스크의 데이터는 시간이 지나면 자기도 모르게 자성(Magnetic)이 약해져 비트가 뒤집히는 ‘비트 롯(데이터 부패)’ 현상이 발생합니다.

  • RAID 5: 데이터를 읽기 전에는 깨진 줄 모릅니다. 리빌딩하다가 그제야 발견하고 터집니다.
  • ZFS: 주기적인 스크러빙 작업을 통해 데이터와 체크섬(Checksum)을 대조합니다. 조용히 깨진 파일이 있으면 미리미리 패리티를 통해 고쳐놓습니다. 즉, 리빌딩 상황이 오기 전에 디스크의 건강 상태를 최상으로 유지합니다.

5. 예외: RAID 5를 써도 되는 경우

모든 경우에 RAID 5가 금지되는 것은 아닙니다. 기술의 발전이 또 다른 예외를 만들었습니다.

① 올 플래시 어레이 (All-Flash Array)

SSD의 발전은 놀랍습니다. 최신 엔터프라이즈 SSD나 소비자용 NVMe SSD의 비트 에러율(BER)은 $10^{16}$ ~ $10^{17}$ 수준입니다. 이는 HDD보다 수천 배 더 신뢰성이 높습니다.

SSD만으로 NAS를 구성한다면, 리빌딩 중 URE가 발생할 확률은 로또 당첨 확률보다 낮으므로 RAID 5를 사용해도 무방합니다. (단, 쓰기 수명은 고려해야 합니다.)

② 소용량 하드디스크 재활용

집에 굴러다니는 2TB, 4TB 하드디스크 3~4개를 묶어서 가벼운 미디어 서버로 쓴다면 RAID 5도 괜찮습니다. 전체 데이터 볼륨이 작아 리빌딩 시 $10^{14}$ 비트 한계에 도달할 확률이 낮기 때문입니다.

6. 결론: 데이터의 가치를 계산하라

많은 사용자가 NAS를 구축할 때 **”어떻게 하면 용량을 최대로 쓸까?”**에 집중합니다. 하지만 진정한 질문은 **”내 데이터가 날아갔을 때 감당할 수 있는가?”**여야 합니다.

만약 여러분이 10TB 이상의 고용량 하드디스크를 사용하고, 그 안에 가족의 추억이나 회사의 중요 자산이 들어있다면:

  1. RAID 5는 잊으십시오. 그것은 확률적으로 실패하게 설계된 시한폭탄입니다.
  2. RAID 6 (또는 RAID-Z2)를 선택하십시오. 디스크 한 개 값은 데이터 복구 비용보다 훨씬 저렴합니다.
  3. 백업은 필수입니다. RAID는 가용성(Availability)을 위한 기술이지 백업이 아닙니다. RAID 6 할애비가 와도 랜섬웨어나 화재는 막지 못합니다. 중요한 데이터는 반드시 3-2-1 법칙(3개의 복사본, 2개의 매체, 1개의 오프라인 소산)을 따르십시오.

여러분의 데이터는 소중합니다. 확률 게임에 운명을 맡기지 마세요.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다