쉽게 말해: “우리 서비스, 몇 시간 동안 죽어 있어도 버틸 수 있을까?”에 대한 답입니다.
실무 팁: 이커머스나 금융권이라면 1분, 1초가 매출과 직결되니 RTO가 수 초 이내여야 합니다. 반면, 내부 직원들이 쓰는 전사 정산 시스템이라면 주말 동안 멈춰 있어도 월요일 출근 전까지만 살려내면 되니 RTO가 수 일이어도 괜찮습니다.

② 복구 목표 시점 (RPO: Recovery Point Objective)

쉽게 말해: “재해가 터졌을 때, 날려 먹어도 되는 데이터는 최대 얼마큼일까?”입니다.
실무 팁: 만약 RPO를 24시간으로 잡았다면, 오늘 새벽에 백업해 둔 데이터를 가지고 복구하겠다는 뜻입니다. 즉, 오늘 아침부터 재해가 터진 오후까지 고객들이 결제하거나 가입한 데이터는 영구적으로 사라지는 것을 감당하겠다는 의미입니다.

엔지니어로서 강조하고 싶은 팩트는 하나입니다. RTO와 RPO를 제로(0)에 가깝게 낮출수록, 회사가 지불해야 하는 인프라 비용은 기하급수적으로 증가합니다. 이 냉정한 현실을 인정해야만 우리 기업에 맞는 진짜 아키텍처를 그릴 수 있습니다.

3. 재해 복구(DR) 구축 유형 4가지 팩트 폭격

이제 본격적으로 4가지 유형을 살펴보겠습니다. 장점만 나열한 제안서 양식이 아니라, 실무에서 마주치는 명과 암을 솔직하게 짚어보겠습니다.

① Mirror Site (즉시 복구형): 완벽을 추구하는 액티브-액티브의 세계

주 센터(Primary)와 똑같은 쌍둥이 데이터 센터를 원격지에 하나 더 지어두고, 양쪽을 동시에 가동하는 방식입니다.

데이터 동기화: 주 센터에 데이터가 쓰일 때, DR 센터에도 실시간으로 동시에 기록(Synchronous)이 완료되어야 하나의 작업이 끝납니다.
RTO / RPO: 이론적으로 둘 다 ‘0’입니다. 한쪽 데이터 센터가 지진으로 무너져도 사용자는 장애를 거의 느끼지 못하고 서비스가 이어집니다.

실무 엔지니어의 속마음 (Pros & Cons)
장점: 엔지니어가 새벽에 인프라 터졌다고 허겁지겁 노트북을 켤 필요가 없습니다. 시스템이 알아서 트래픽을 돌려주니까요. 글로벌 서비스나 대형 금융 결제망에서는 필수입니다.
단점: 돈이 정확히 2배 이상 듭니다. 더 무서운 건 **’네트워크 지연(Latency)’**입니다. 실시간으로 데이터를 동기화해야 하기 때문에 두 센터 거리가 멀면 패킷 왕복 시간 때문에 주 센터 서비스까지 느려집니다. 그래서 보통 40km~100km 이내에 짓는데, 이러면 수도권 전체에 대형 정전이 났을 때 두 센터가 동시에 죽는 모순이 발생합니다.

② Hot Site (고가용성 복구형): 대기업과 이커머스의 가장 현실적인 스탠다드

주 센터와 거의 같은 장비들을 원격지에 켜두고(Standby), 데이터를 실시간에 가깝게 복제하는 방식입니다.

데이터 동기화: 주 센터에 데이터가 쓰인 직후, 미세한 시차(몇 초~몇 분)를 두고 DR 센터로 데이터를 쏘아주는 비동기(Asynchronous) 방식을 씁니다.
RTO / RPO: RTO는 보통 4시간 이내, RPO는 수 분에서 수 시간 이내입니다.

실무 엔지니어의 속마음 (Pros & Cons)
장점: 거리에 제약이 없습니다. 서울 주 센터 – 부산 DR 센터 구성이 가능해서 국지적 재난에서 안전합니다. 국내 은행이나 대형 쇼핑몰이 가장 선호하는 현실적인 최선책입니다.
단점: 평소에 쓰지도 않는 대기 장비와 소프트웨어 라이선스 비용이 매달 꼬박꼬박 나갑니다. “왜 놀고 있는 장비에 수천만 원씩 쓰냐”는 경영진의 압박을 방어하기 위해, 평소에는 이 대기 장비들을 개발 테스트 환경이나 대규모 데이터 분석용으로 슬쩍 돌려쓰는 ‘아키텍처적 잔머리’가 필요합니다.

③ Warm Site (중간 단계 복구형): 가성비를 위한 뼈아픈 타협

중요한 장비만 몇 대 사두거나, 장비는 있되 운영체제(OS)나 최종 데이터가 완벽하게 세팅되지 않은 채로 대기하는 형태입니다.

데이터 동기화: 실시간 복제는 사치입니다. 하루에 한 번, 혹은 일주일에 한 번 백업된 데이터를 전송받아 보관합니다.
RTO / RPO: RTO는 수 일 이내, RPO는 마지막 백업 시점(보통 하루 전)입니다.

실무 엔지니어의 속마음 (Pros & Cons)
장점: 비용이 확 줍니다. 비싼 실시간 동기화 솔루션 값을 안 내도 되니 중견기업의 ERP 시스템 등에서 애용합니다.
단점: 진짜 재해가 터지면 엔지니어들의 피와 땀, 눈물로 시동을 걸어야 합니다. 장비 전원 켜고, OS 확인하고, 백업 테이프나 스토리지에서 데이터를 하나하나 부어야(Restore) 합니다. 평소에 복구 매뉴얼을 제대로 안 만들어 뒀다면, 복구 도중에 에러가 나서 수 일이 걸릴 작업이 수 주일로 늘어나는 대참사가 벌어집니다. 데이터가 날아간 하루 동안의 공백은 현업 부서 직원들이 엑셀을 보며 수작업으로 메워야 하는 지옥문이 열립니다.

④ Cold Site (데이터 중심 복구형): 최후의 보루, 인프라의 미니멀리즘

평소에는 데이터 센터의 빈 공간(랙 스페이스, 전력 등)만 계약해 두고, 장비는 아예 없거나 꺼져 있는 상태입니다.

데이터 동기화: 온라인 전송도 안 하는 경우가 많습니다. 주기적으로 외장 하드나 테이프(LTO)에 백업해서 금고에 물리적으로 실어 나릅니다.
RTO / RPO: RTO는 수 주에서 수 개월, RPO는 몇 주 전 데이터가 될 수도 있습니다.

실무 엔지니어의 속마음 (Pros & Cons)
장점: 가성비 끝판왕입니다. 평소에 나가는 고정비가 거의 없습니다.
단점: 사실 현대적인 IT 서비스 기업에서는 고르면 안 되는 옵션입니다. 재해 나서 서버 새로 주문하고, 입고 받아서 케이블 연결하고 처음부터 빌드하다 보면 이미 경쟁사로 고객들이 다 떠나고 회사가 망해있을 확률이 높습니다. 요즘은 법적 규제 때문에 데이터를 10년 이상 의무 보관해야 하는 ‘장기 아카이빙’ 용도로만 씁니다.

4. 핵심 요약: DR 구축 유형 비교표

복잡한 내용을 실무 회의나 보고서에 바로 써먹을 수 있게 한눈에 볼 수 있는 표로 정리했습니다.

구분	Mirror Site (즉시 복구)	Hot Site (고가용성)	Warm Site (중간 단계)	Cold Site (데이터 중심)
RTO (복구 시간)	즉시 (0에 수렴)	수 시간 이내 (보통 4시간)	수 일 이내	수 주 ~ 수 개월 이상
RPO (복구 시점)	데이터 손실 없음 (0)	거의 없음 (수 분 이내)	수 시간 ~ 수 일 전	수 일 ~ 수 주 전
비용 규모	매우 높음 (인프라 2배)	높음 (상시 대기 장비)	보통 (백업 장비 중심)	매우 낮음 (공간만 임대)
데이터 상태	실시간 동기화	실시간에 가까운 비동기	주기적 백업본 전송	오프라인 백업 (테이프 등)
추천 대상 서비스	글로벌 결제, 핵심 인증망	대형 이커머스, 은행	일반 업무 시스템, ERP	장기 보존용 데이터 백업

5. 실무자가 제안하는 팁: “모든 시스템을 금으로 도배하지 마라”

제가 RFP를 들고 온 고객사 미팅에서 가장 먼저 던진 한마디는 이것이었습니다.

“모든 시스템을 Mirror나 Hot Site로 만들려고 하지 마세요. 회사가 파산합니다.”

정답은 ‘서비스 등급화(Tiering)’에 있습니다. 중요도에 따라 인프라를 쪼개야 돈을 아낍니다.

Tier 1 (결제, 인증 시스템): 유저가 돈을 쓰거나 로그인하는 관문입니다. 1분만 죽어도 매출과 브랜드 이미지가 날아가니 여기는 Mirror나 Hot Site로 아낌없이 투자합니다.
Tier 2 (ERP, 인사, 정산): 하루 이틀 마비되어도 직원들이 엑셀로 임시 대응할 수 있는 영역입니다. 여기는 Warm Site로 타협해서 예산을 아낍니다.
Tier 3 (과거 로그, 이미지 아카이빙): 법적 보존 의무만 지키면 되는 데이터들입니다. 가끔 조회하는 용도이니 Cold Site나 저비용 스토리지에 묻어두는 게 현명합니다.

6. 요즘 트렌드: 무겁고 비싼 온프레미스를 넘어 ‘클라우드 DR’로

과거처럼 데이터 센터에 무식하게 장비를 두 배로 사서 쟁여두는 시대는 지났습니다. AWS, Azure, GCP 같은 퍼블릭 클라우드가 발전하면서 DR 구축 패러다임이 완전히 바뀌었죠. 클라우드를 쓰면 Warm Site 비용으로 Hot Site 급 성능을 낼 수 있습니다.

* 파일럿 라이트(Pilot Light) 방식

평소에는 가스레인지의 작은 불꽃(Pilot Light)처럼 데이터베이스만 실시간으로 복제해 두고, 애플리케이션 서버들은 이미지 형태로 꺼둡니다. 그러다 재해가 터지면 테라폼(Terraform) 같은 코드로 수 분 만에 수십, 수백 대의 서버를 클라우드 위에 즉시 가동(프로비저닝)시키는 방식입니다. 돈은 적게 드는데 복구는 엄청나게 빠릅니다.

지금 시점에 DR 구축을 새로 검토하신다면, 장비를 또 구매하는 방식은 멈추셔야 합니다. 설령 회사의 본 시스템이 자체 전산실(온프레미스)에 있더라도, 재해 복구 센터만큼은 클라우드로 구성하는 하이브리드 Cloud DR이 가장 가성비 좋은 대안입니다.

에디터의 한마디

DR(재해 복구) 시스템은 일종의 ‘자동차 보험’과 같습니다. 사고가 나지 않을 때는 매달 생돈이 나가는 것 같아 아깝지만, 대형 사고가 터지는 순간 회사의 생존을 결정짓는 유일한 생명줄이 됩니다.

가장 비싼 DR이 무조건 좋은 게 아닙니다. 우리 회사의 비즈니스가 멈췄을 때 발생하는 손해 비용을 냉정하게 계산하고, 그 금액에 맞춰 밸런스를 잡은 DR이 최고의 DR입니다. 여러분의 서비스는 지금 어떤 등급의 보험이 필요하신가요?

전문가의 인사이트 : 함께 읽어 보세요.

[비즈니스 연속성을 위한 DR 구축 시나리오와 데이터 동기화 기술]

참조 및 출처 URL:

https://www.ibm.com/kr-ko/topics/disaster-recovery

“장애 나면 즉시 100% 복구?” 경영진의 무리수에 대처하는 DR 가이드 (RTO, RPO)

“장애 나면 즉시 100% 복구?” 경영진의 무리수에 대처하는 DR 가이드 (RTO, RPO)

1. 예고 없이 찾아온 장애, 그리고 어느 날 날아온 DR 제안 요청서

2. 경영진을 설득하는 무기: RTO와 RPO의 냉정한 현실

① 복구 목표 시간 (RTO: Recovery Time Objective)

② 복구 목표 시점 (RPO: Recovery Point Objective)

3. 재해 복구(DR) 구축 유형 4가지 팩트 폭격

① Mirror Site (즉시 복구형): 완벽을 추구하는 액티브-액티브의 세계