본문 바로가기

Business/NetFUNNEL

[DR #1] 요즘 화제 되고 있는 데이터 센터 장애? DR?

[DR #1] 요즘 화제 되고 있는 데이터 센터 장애? DR?
[DR #2] 국내 DR 구축 현황, 정부의 대응
[DR #3] 효율적인 DR, NetFunnel for DR. 

빅데이터와 인공지능의 시대가 도래하고 있는 지금, 'DR'에 대한 사람들의 관심은 나날이 증가하고 있다. 특히 작년 10월 국민앱 카카오톡의 서버가 10시간 가까이 다운되며 '재해복구 시스템'은 사람들 뇌에 각인이 되었다. DR 시스템 준비 소홀로 인한 피해 사례는 당장 최근뿐만이 아니다. 

 

1. 데이터 센터 장애 이슈는 20년 전부터?

 

DR 센터에 관한 것은 2000년대 초반에 이슈화가 되기 시작했다. 2001년 쌍둥이 빌딩 테러 사건 당시 미국이 4일만에 국가 경제 시스템을 신속하게 복구시키며 언론에 등장했다. 2010년, 다시 한번 국제적으로 데이터 센터 장애에 대한 이슈가 대두되었다. 아마존과 마이크로소프트의 데이터 센터에 벼락이 떨어져 발생한 화재로 정전사고가 발생하며, 서비스가 제대로 운영되지 않았기 때문이다. 그 이후부터 국제적으로 재해복구시스템에 대한 논의가 활발하게 일어났다. 

 

대한민국에서 이슈화가 되기 시작한 것은 최근 카카오 사태부터이다. 2022년 10월 15일 카카오톡 데이터 센터에 화재가 나면서 오후 3시부터 카카오톡 접속이 안되고 서버가 먹통이 되는 사건이 발생했다. 당시 10시간 가까이 서버가 마비되어 서비스를 이용하지 못해 많은 사람들이 피해를 받았다. 이로인한 보상 지원금은 약 275억 원이었고, 화재로 인한 피해액은 2000억 가까이 되었다.

 

카카오 판교 데이터 센터 화재 당시 사진
출처 : 연합뉴스

 

2. 이러한 피해를 최소화 시킬 수는 없는걸까

 

이러한 피해를 최소화 시키기 위해 등장한 방안이 DR이다.

DR이란 재해복구시스템(Disaster Recovery, DR)을 의미한다. 자연재해 또는 인재의 영향으로부터 데이터센터를 보호하는 1차 보호전략이다. 주로 쓰는 본사 센터 즉, 메인 센터가 망가질 것을 대비하여 추가로 데이터 센터를 지어 예방하는 것이다. 메인 센터에 재해가 발생할 경우 재해복구 계획(Disaster Recovery Plan, DRP)을 통해 데이터 센터를 가동시켜 비즈니스를 신속하게 운영 재개하거나 재해 도중에도 기능을 유지할 수 있다. 

 

3. 그렇다면 DR의 원리는?

 

재해복구시스템 설계에는 효율적인 정보자산 보호을 위해 BCP를 활용한다. BCP는 재난 발생 시 업무의 연속성을 유지하기 위한 방법론이다. 재해 상황으로 인해 조직의 정상적 운용이 불가할 때, 업무의 연속성과 서비스 지속성을 보장하기 위한 비즈니스 플랜을 체계화하고 이를 적용함으로써 조직의 가치를 극대화하는 것을 말한다. 

 

BCP는 비즈니스 분석, 리스크 분석, 복구 전략, 조직 구성, 계획서 및 절차, 리스크 감소, 비상시 교대 시설 설치, 테스팅 활동으로 수행된다. 이러한 BCP를 활용해 재해복구시스템을 설계하는데, 데이터를 원격지에 저장하고 복구하는 방식에 따라 기술이 4가지로 분류된다. 

 

1. mirror site는 메인 센터와 동일한 벡업 센터를 구축하는 것으로, 평상시에도 동일한 데이터를 처리하며 재해 발생 시 즉시 업무 대행이 가능하다. 그러니까 똑같은 데이터 센터를 2개를 짓는다는 것이다. 평소 같은 서비스를 동시에 운영하기에 하나가 고장나도 서비스에 전혀 문제가 나지 않는다. 재해발생시 복구까지의 소요시간은 이론적으로 0이다. 하지만 단점이 있으니, 그건 초기자본을 많이 들여야 한다는 것이다. 

 

2. hot site는 외부에 메인 센터와 동일한 장비를 갖추고 비상 시 최단시간에 대체 가능한 상태를 유지하는 것이다. 주센터의 데이터를 미러링을 통하여 최신의 상태를 유지하고 있다가 재해 발생시 주센터에서 전환하여 서비스를 유지하는 방식이다. 초기부터 완전 똑같은 상태를 유지하는 mirror site와는 달리 최신 데이터만 유지하고 기록해놓는다.  

 

3. warm site는 메인 센터의 일부 장비만 벡업 센터에 구성하여 주요 업무에 대해서만 복구한다. 필요 시 장비의 추가 도입으로 hot site로 전환이 가능하다. warm 사이트는 hotsite와는 달리 최신 데이터중 중요한 데이터만 부분적으로 보유하다가 그것을 기반으로 백업을 하기 때문에 복구시간이 꽤 길다. 

 

4. cold site는 전원시설, 통신설비 등의 장비를 갖추어 놓고 메인 센터 재해 시 장비를 셋업하여 시스템을 가동하는 것을 말한다. cold site는 일부 데이터만 원격지에 보관하고 다른 서비스를 위한 데이터는 확보하지 않는다. 심지어 백업도 길면 일주일에 한번 하기에 재해 발생시 복구시간이 매우 길다. 

 

여기서 mirror site를 기준으로 재해복구시스템의 복구 전략을 설정하는 것이 가장 좋다. 메인 센터와 동일 구성으로 원격지에 mirror site를 구축하면 이는 비상 재해 발생 시 빠른 네트워크 변경과 정보시스템을 사전 구성할 수 있다. 이 방식은 현재 가장 많이 사용하는 방식으로 시스템 복구까지 2시간을 목표로 두고 실행되는 방식이다. 

 

아래 표는 이 방식을 4단계로 구성한 핵심 요소이다. 

 

재해복구전략 4단계 표
재해복구전략 핵심 4단계

 

4. DR의 중요성을 모두가 깨달아야한다. 

 

인터넷을 포함한 전자기기가 2010년대부터 시작해서 널리 보급되고, 이제는 사이버 세상이 도래했다. SNS나 가상공간 등이 앞으로 더 발전하며 이제는 1인 사이버 공간으로 사람들은 사이버 세상 안에서 더 생활을 많이 할 것이다. 그렇다는 것은 데이터의 양이 매우 방대해 진다는 것이고, 또한 서버의 지속성도 중요해진다. 온라인 서비스, 서버 접속 등 멈추지 않고 손실이 일어나지 않도록 지속해야한다. 그리하여 서버의 지속성을 안전하게 책임져주고 혹시라도 일어날지 모르는 재해를 막아주는 "DR"은 매우 중요해진다. 

 

 

 

 

 

 

 

*참고/인용 문헌

 

1. 김현주, 이수종, 신인철.(2013). “효율적인 정보자산 보호를 위한 BCP 활용 재해복구시스템 설계”.한국컴퓨터정보학회논문지 ,18(7),93-100.

2. 위키백과 - 재난 복구 계획. https://ko.wikipedia.org/wiki/%EC%9E%AC%EB%82%9C_%EB%B3%B5%EA%B5%AC_%EA%B3%84%ED%9A%8D. 2023.08.03

3. 이예린 기자. “카카오, 판교 데이터센터 화재 보상 마무리…275억 규모”

2023.06.30, 문화일보. https://www.munhwa.com/news/view.html?no=2023063001039907275001