지방행정전산서비스 장애원인 및 향후대책

지방행정전산서비스 장애원인 및 향후대책 발표(행정안전부)

결론1. 장애원인은 L3 라우터 장비(하드웨어) 부품 결함 문제였다.

결론2. 메뉴얼을 보완하고 신속한 복구체계를 정비하겠다.

 

<고기동 행정안전부 차관>

존경하는 국민 여러분, 지방행정전산서비스 개편 T/F에서 숭실대학교 송상효 교수님과 함께 공동팀장을 맡은 행정안전부 차관 고기동입니다.

 

우선, 지난 2023년 11월 17일 금요일 지방행정전산서비스 장애로 인해 불편을 겪으신 국민께 다시 한번 깊은 사과의 말씀드립니다.

 

오늘 이 자리에서는 먼저 송상효 공동팀장님이 장애 원인에 대해 국민께 소상히 설명드리고, 이어서 제가 향후 재발방지 종합대책의 수립방향에 대해 말씀드리도록 하겠습니다.

 

 

<송상효 지방행정전산서비스 개편 T/F 공동팀장>

안녕하십니까? 지방행정전산서비스 개편 T/F의 공동팀장을 맡고 있는 숭실대학교 송상효 교수입니다.

 

먼저, 원인분석반 구성 및 활동에 대해서 말씀드리도록 하겠습니다.

 

원인분석반은 총 29명으로 구성하였습니다. LG CNS, 네이버클라우드, 소울시스템즈 등 외부전문가 16명과 국가정보자원관리원 통신·운영·보안 부서의 소속인력 13명으로 구성하였습니다.

 

특히, 외부전문가 중 11명은 장애발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었습니다.

 

이번 원인분석에 한 가지 아쉬웠던 것은 장애 발생일 이후 이번 원인분석 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점입니다.

 

이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고, 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있다는 점을 양해 부탁드립니다.

 

원인분석 결과에 대해서 말씀드리도록 하겠습니다.

 

먼저, 장애 당시 남겨진 로그를 분석한 결과 장애원인이 네트워크 영역에서 발생하였을 확률이 높은 것으로 추정하였습니다.

 

왜냐하면 비정상 상태가 통합검증서버의 네트워크 세션에서 확인되고, 네트워크 장비 중의 하나인 L4 장비 OS 업데이트가 전일 있었으며, L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인되었기 때문입니다.

 

이와 더불어 네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있습니다.

 

그렇기 때문에 원인분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰으며, 이로 충분한 검토와 테스트를 진행하였습니다.

 

한편, 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격, 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안당국과 함께 확인하였습니다.

 

최근 해외에서 나라장터 시스템에 집중 접속하여 일시적인 과부하로 인한 일부 장애가 발생했었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시하였습니다.

 

현재까지는 해킹 징후가 보이지 않았습니다만 앞으로도 해킹에 대해서 유의하여 관리하도록 하겠습니다.

 

다음은 장애를 일으킨 원인입니다.

 

네트워크 장비를 대상으로 하는 성능 측면의 점검의 경우에는 구간을 나누어 반복적인 부하 테스트를 진행하였고, 장애 및 접속지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용하였습니다.

 

이와 같은 분석을 반복하여 수행한 결과, 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 되었는데 특히 1,500byte 이상의 패킷은 90%가 유실되었습니다. 이 현상의 원인은 라우터 장비에 케이블을 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문입니다.

 

이렇게 패킷이 유실됨으로써 통합검증서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고, 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것입니다. 이는 로그에서도 확인할 수 있었습니다.

 

이해를 돕기 위해 네트워크 구성도를 이용해 부연설명을 드리도록 하겠습니다. 네트워크 구성도는 오른쪽에 있습니다. 이쪽에 있고요.

 

일단, 국가정보자원관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하였고, 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개하였습니다.

 

그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능에 지연 현상은 발견하게 되었습니다.

 

지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인하였고, 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과, 해당 포트의 불량이 발견되어 11월 19일에 오전 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소하였습니다.

 

이와 같은 작업에도 불구하고 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로그를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤습니다.

 

통합인증서버가 존재하는 존(zone)에 함께 운영되는 서버는 물리서버 150여 대, 소프트웨어는 각각 웹서버 19식, WAS서버 50식, DBMS 56식이 있었습니다.

 

특히 통합인증서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았습니다.

 

통합인증서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 장비 2대 및 L4 장비 4대, 국가정보통신망 영역에 라우터 장비 8대가 있었습니다. 이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집하여 분석하였습니다.

 

또한, 앞서 설명드린 장애 및 접속지연의 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 일을 네트워크 부하 테스트의 경우 3차에 걸쳐 총 8회, 1차 4회, 2차 2회, 3차 2회 수행하였습니다.

 

원인분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같습니다.

 

통합인증서버로의 트래픽 유입량을 변경하는 경우, L4 장비를 경유하지 않는 경우, 패킷 크기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1,500명 등으로 다양하게 변경하는 경우, L4 장비를 경유하는 네트워크 대역 폭을 변경하는 등의 다양한 시나리오 상황에서 네트워크 영역에서의 접속지연 및 이상 유무를 확인하였습니다.

 

이와 같이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었습니다.

 

확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해서 명확한 검증 과정이 필요하였고, 이에 따라 상당한 시간이 소요되었습니다.

 

참고로 지금까지 설명드린 결과에 대한 재확신을 가지기 위해 당초에 원인으로 지목되었던 L4 장비 및 라우터를 이용하여 장애 당시와 유사한 환경을 구현하여 검증하였습니다. 어제부터 오늘까지 반복적으로 원인에 대한 재현 가능성을 확인하는 작업을 수행하였습니다.

 

그 결과, 검증 환경에서도 동일하게 라우터의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현되었습니다. 이로써 저희가 판단한 장애의 원인이 재입증되었다고 보아 오늘 국민 여러분들께 말씀드리게 되었습니다.

 

이상으로 지방행정전산서비스 장애원인 분석 결과에 대한 발표를 마치도록 하겠습니다.

 

감사합니다.

 

 

<고기동 행정안전부 차관>

지금부터는 재발방지 종합대책의 수립방향에 대해 국민께 설명드리겠습니다.

 

이번 장애를 반면교사 삼아 다시는 이런 일이 재발하지 않도록 문제점을 하나 하나 들여다 보면서 근본적이고 실효성 있는 보완대책을 마련하고자 합니다.

 

먼저, 이번에 유사한 포트 불량이 있을 수 있는 오래된 장비들에 대해 오늘부터 전수점검에 착수했습니다.

 

다음으로 이번 장애와 관련하여 국민에게 장애 상황을 빨리 알려드리지 못한 문제를 해결하기 위해 장애 발생 시의 처리 매뉴얼을 보완토록 하겠습니다.

 

또한, 다양한 수단을 활용하여 장애로 인한 서비스 복구 상황을 신속히 알려 국민 불편을 최소화하겠습니다.

 

셋째, 전산장애가 발생하였을 때 신속한 복구조치가 가능한 체계를 마련하겠습니다.

 

장애조치 시간을 단축하기 위해 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고, 상설 장애대응반을 구성하여 중요 장애에 투입함으로써 조기에 문제를 해결할 수 있도록 하겠습니다. 이런 부분은 장애조치 매뉴얼에 더욱 보완하겠습니다.

 

넷째, 핵심 디지털정부 서비스가 중단되는 상황에서도 행정서비스가 제공될 수 있도록 행정조치 방안을 마련하고 대응 매뉴얼을 수립하겠습니다.

 

이를 반영하여 국가전산망 마비를 재난 및 사고 유형으로 명시하여 예방부터 복구까지 체계적으로 관리해나가도록 하겠습니다.

 

한편, 디지털정부를 안정적 운영하기 위해 중장기적 제도개선 방안도 마련하겠습니다.

 

먼저, 범정부 디지털정부 위기대응체계를 확립하겠습니다.

 

개별 정보시스템의 장애 복구를 넘어 다수 정보시스템이 연계된 디지털정부 환경에 걸맞는 위기대응체계를 구축하고, 이를 총괄하는 범정부 장애 예방 대응 컨트롤타워를 보다 강화하겠습니다.

 

다음으로, 공공정보화사업 추진방식을 개선하고 투자계획을 마련하겠습니다.

 

공공정보화사업의 추진 절차와 사업관리체계 등을 개선해나가고, 내용연수가 지나 잠재적 위험성이 높은 하드웨어와 소프트웨어의 신속한 교체와 기술력 높은 기업 참여를 위한 공공정보화사업의 사업대가 현실화 등도 추진해나가겠습니다.

 

아울러, 안정적인 디지털정부 구축·운영을 위한 역량을 높여나가도록 하겠습니다.

 

디지털정부의 핵심 업무인 정보시스템 개발·운영을 외주용역에 의존하는 기존 체계를 개선하고, 디지털 분야 우수인재가 정부에 유입되어 역량을 발휘할 수 있도록 하겠습니다.

 

마지막으로, 국가정보자원관리원의 운영방식을 전면 재검토하겠습니다.

 

국가정보자원관리원에 입주한 시스템에 대한 이중화, 재복구 시스템, 네트워크 구성 등의 기술 구조를 전면 검토하고, 조직 진단을 통해 조직 구성과 인사 운영 등 개선방안을 마련하겠습니다.

 

앞서 말씀드렸듯이 다시는 유사한 문제로 국민이 불편을 겪지 않도록 어떠한 상황에서도 중단 없는 안정적인 디지털정부를 만들어가겠습니다.

 

이를 위해 많은 민간전문가와 관계기관의 참여를 통해 확실한 종합대책을 수립하고 그 결과를 국민께 충실히 설명하겠습니다.

 

앞으로 세계적 수준의 디지털정부 명성에 걸맞는 편리하면서도 보다 안정성 높은 서비스를 제공할 수 있도록 최선을 다하겠습니다.

 

감사합니다.

 

 

[질문·답변]

※마이크 미사용으로 확인되지 않는 내용은 별표(***)로 표기하였으니 양해 바랍니다.

 

<질문> 결국 라우터의 모듈의 포트에 기계적인 결함이 있었다는 게 원인인 건데, 그러면 이 불량의 원인이 뭔지가 궁금합니다. 이게 노후 때문인 건지 아니면 제품 자체에 불량이 있었던 건지, 그리고 이게 기계적 손상이 맞다면 관리는 어떻게 해왔던 건지도 궁금합니다. 이게 지금까지 포트를 점검을 한 번도 안 한 건지 아니면 주기적으로 했다면 어떻게 관리를 해왔던 건지도 궁금합니다.

 

<답변> (송상효 지방행정전산서비스 개편 T/F 공동팀장) 제가 말씀드리겠습니다. 일단, 이야기하신 것처럼 라우터에 문제가 많고요. 그 라우터는 지금 잘 아시겠지만 다양한 서버나 장비 중에 특별한 장비이기 때문에 이 장비의 기본적인 모니터링은 저희가 다 하고 있습니다. 그런데 이게 기본적인 모니터링이 아니라 그 모듈 안에서 발생한 특수한 부분에서 발생한 문제였기 때문에 그 문제를 찾아서 해결하는 거는 밴드하고 같이 논의돼야 될 상황인데요.

 

그 부분은 이번에 원인 발생을 찾았고요. 그 찾은 문제는 가지고 앞으로 대응하면 될 문제여서 앞으로 지금까지는 발견하지 못한 문제를 지금 해결돼야 되는 문제기 때문에 이 부분은 앞으로 대책을 잘 마련해서 대응을 하는 것이 더 적당하지 않을까, 그렇게 생각을 합니다.

 

이외에 추가적으로 질문할 사항... 궁금한 사항 있으신지요.

 

<답변> (이재용 국가정보자원관리원장) 국가정보관리원장 이재용입니다. 말씀 주신 부분 중에서 우선 그 장비의 고장 원인, 노후화를 말씀하셨는데 그 라우터 장비는 아직 2016년에 도입돼서 사용기한이 만료되지 않은 장비입니다. 그래서 우선은 노후가 장비 고장의 원인이었다고 얘기하기는 어렵고요.

 

물리적인 부품의 손상이기 때문에 그 부품의 손상의 원인을 밝혀내기는 상당히 어렵습니다. 그래서 그 부분에 대해서는 그것이 전산상의 기록으로 남는 것도 아니고 그래서 현재 그 부분은 그렇게 확인하시면 될 것 같고요.

 

그런 것들을 해소하기 위해서 평소 점검이나 이런 부분들은 전산실을 운영할 때는 항상 매일 육안 체크를 하고요. 예를 들어 불이 들어오거나 신호가 점멸하는 것이 없는지, 물론 시스템을 통해서 모니터링을 하는 것도 있습니다만 육안 점검을 통해서 항상 일일 점검을 하고 있습니다.

 

그런데 그럼에도 불구하고 안에 들어있는 부품 같은 경우에 미처 예상하지 못한 고장이 발생하는 것을 미리 잡아내긴 어려운데요. 교수님도 말씀하신 것처럼 제조사들도 그렇고 다 같이 협의해서 이것들을 조금 더 선제적으로 발견하고 모니터링할 수 있는 그러한 체계를 만들도록 하겠습니다.

 

<질문> 안녕하십니까? 브리핑 내용 중에 소프트웨어 업데이트, OS 업데이트가 있고 그다음에 오류가 발생했다고 하셨는데 또 말씀하시는 걸 들어보니까 ‘물리적인 결함이 있었다.’ 이렇게 말씀을 하셨는데, 이게 소프트웨어... 이렇게 표현을 해도 되는 건지 저도 모르겠지만, 소프트웨어 업데이트가 오류 원인에 어느 정도 있었던 건지 아니면 전적으로 물리적인 부품의 결함이었던 건지 조금 쉽게 설명 부탁드려도 될까요?

 

<답변> (송상효 지방행정전산서비스 개편 T/F 공동팀장) 제가 먼저 말씀드리겠습니다. 일단 원인을 분석한 결과 소프트웨어의 문제는 아닌 걸로 발견을 했습니다. 처음에 저희가 발표를 할 때 L4 문제였고요. L4의 OS 문제로 처음에 알려드렸습니다만 그 이전 걸로 다시 돌려서 테스트를 해본 결과 그 문제는 아닌 걸로 발생이, 확인이 되었고요.

 

그다음에 이 원인이 단순하게 이 L4의 네트워크 문제뿐만이 아니라 거기에 접속하는 다양한 시스템들의 문제, 그것도 확인을 하였는데 거기에서 발생한 문제는 없었던 걸로 이번에 원인분석한 결과에서 나왔습니다.

 

<질문> 그러면 그 OS 업데이트가 이번 문제의 원인은 아니었다. 이렇게 이해하면 될까요?

 

<답변> (송상효 지방행정전산서비스 개편 T/F 공동팀장) 그것을 이제 뭐가 원인이냐? 이렇게 얘기하는 것을 얘기하면 일단은 그 시점이 OS를 하고 나서 발생을 한 거였기 때문에 그게 어떻게 보면 원인처럼 보일 수는 있지만 그 상태가 유지됐을 때도 OS로 변경되지 않은 상태에서도 똑같은 문제가 발생했다.

 

다만, 잘 아시겠지만 이렇게 OS 업그레이드나 이런 걸 할 때는 충분히 다양한 일이 발생할 수도 있잖아요. 그래서 그런 부분도 검토는 했으나 아직까지는 거기에서 이슈가 된 상황은 없던 걸로 확인됐습니다. 이렇게 얘기드리면 될까요?

 

<질문> 그러면 OS 업데이트... 업그레이드, OS 업그레이드 작업할 때 물리적인 영향을 미치게 됐는지 그 여부는 혹시 조사를 하셨던 건가요?

 

<답변> (이재용 국가정보자원관리원장) 국가정보관리원장 이재용입니다. 먼저 질문 주신 것과 조금만 부연해서 설명드리면 저희가 과정을 조금 설명드리는 과정에서 자료가 좀 혼란을 드렸을 수도 있는데, 처음에 나타난 현상들을 보고 그 OS 업데이트 작업이 있었던 네트워크 장비가 있었기 때문에 여러 가지를 분석했을 때 네트워크 부분에서 문제가 있다고 판단했고, 네트워트 장비 중에서 L4 장비 그리고 거기 나와 있는 것과 같은 순서로 검증을 했다고 보시면 될 것 같습니다.

 

그래서 지금 기자님께서 질문 주셨던 L3 장비의 업데이트를 얘기하는 것이 아니라 L4 장비의 업데이트를 얘기하시는 거잖아요. 그러니까 그 장비는 저희가 롤백을 해도 전혀 정상적으로 작동하지 않았고, 따라서 그 OS 업데이트 때문에 장애가 발생한 것이라는 것은 확인되지 않았다, 라는 말씀을 드리고요.

 

그러다 보니까 다른 장비들, 물론 장비만이 아니라 소프트웨어 다 살펴보는 가운데 아까 말씀드렸던 것 같은 라우터 장비의 물리적인 손상, 포트 부분에, 그것을 발견해서 테스트를 하고 검증을 했다는 그런 말씀을 드린 것이었습니다.

 

<질문> 물리적인 손상이라고 하면 그게 눈으로 봤을 때 어떤 뭐가 망가져 있거나 이런 부분을 말씀을 하시는 건지와 이 라우터를 관리하는 업체는 어디인지가 궁금합니다.

 

<답변> (이재용 국가정보자원관리원장) 물리적인 손상이라고 말씀드린 것은 눈으로 봤을 때 물론 깨지거나 그런 것도 물리적인 손상이라고 이야기하지만, 보통 소프트웨어적으로 뭐가 엉키거나 그런 현상이 아니라 그냥 그 부품 자체에서 작동하지 않는 것을 말하는 것입니다.

 

그래서 라우터는 케이블을 꽂으면 연결이 돼야 되는데 케이블을 꽂... 저희가 콘센트를 꽂았을 때 전기가 안 통하는 경우 있지 않습니까? 그거와 똑같이 생각하시면 되고, 그것은 물리적인 장애라고 생각하시면 되고요.

 

저희는 그런 통신업체 관련해서 유지보수 업체가 있습니다. 그거는... 제조사. 그 장비 제조사는 미국 시스코(CISCO)사고요.

 

<질문> ***

 

<답변> (이재용 국가정보자원관리원장) 관리업체 말씀하신 것... 현재 대신정보통신이라는 회사에서 관리를 하고 있습니다.

 

<질문> 교수님한테 여쭤보고 싶은데 통상적으로 민간에서도 이런 포트 이상이 발생했을 때 해결에 3일 정도 걸리게 되나요? 이거 발견하는 데. 그런 게 궁금하고요.

 

이게 이번 사태에서 백업시스템이 없었다는 것도 논란이 있었는데 그게 백업시스템이 없었는지, 이게 왜 작동하지 않았는지 그런 부분 설명이 조금 없었던 것 같아서 그 부분도 조사를 하셨는지 궁금합니다.

 

<답변> (송상효 지방행정전산서비스 개편 T/F 공동팀장) 제가 민간은 아니어서, 제가 민간의 이야기를 하는 게 적당할지는 모르겠으나 이런, 지금 이야기하신 하드웨어적인 불량은 민간에서도 되게 많이 있는 일입니다. 그런데 그 있는 일을 어떻게 대처하고 준비하는 게 어떻게 보면 지금처럼 대부분의 민간의 서비스들은 정부의 시스템처럼 이렇게 복잡성도 많이 갖고 있지 않고요. 단일 서비스가 조금 더 분류돼 있고 이런 부분이 있기 때문에 그게 외부에 드러나지 않을 뿐이지 이런 일들은 사실은 이런 인프라를 운영하는 데에서는 많이 일어나는 일이기는 합니다.

 

그런데 지금 이야기해주신 것처럼 이런 게 과연 정부 영역에서 발생했을 때, 이런 대처가 적당한 건지에 대해서는 지금 현재 발생한 상황만 말씀을 드리면 지금 어떻게 보면 우리가 원인을 통해서 결과는 찾아냈지만, 오늘 발표는 드리지만 그런 일들이 미리 예측 가능한 문제는 아니었었기 때문에, 무슨 이야기냐 하면 다른 운영을 하는 그쪽에서도 예측 가능한 문제가 있고 예측 가능하지 않은 문제에 대한 대비는 조금 힘들 수도 있을 것 같아서 그 부분은 제가 설명드리기는 어려울 것 같고요.

 

민간 쪽에 관련된 이야기는 저 말고 다른 분이 설명을 해주시는 게 더 적당할 것 같은데, 설명해주실 분.

 

<답변> (박진호 LG CNS 인프라아키텍처 담당) LG CNS 인프라 아키텍처 담당을 맡고 있는 박진호 담당입니다. 여쭤보신 것처럼 민간에서도 아주 흔하... 빈번하지는 않지만 가끔씩 그런 케이스들은 존재는 하고요.

 

그런데 이번 케이스하고 조금 다른 점은 그 해당 포트가 전체 트랜지션 레벨에서 어떤 서비스와 연관이 돼 있느냐가 굉장히 중요한데, 본 서비스... 이번 사태 같은 경우에는 해당 포트가 전체 전 서비스에 영향을 미치는 역할을 했던 포트였고, 그래서 파급도가 컸던 것 같고요.

 

또 질문이...

 

<질문> 그게 해결에 그렇게 3일씩 걸리는지를 여쭤봤었어요.

 

<답변> (박진호 LG CNS 인프라 아키텍처 담당) 실제로 이 해결을 금요일에 장애가 있었고, 토요일 야간에 이 원인을 파악해서 실제 조치는 이틀 정도 걸린 걸로 알고 있고요. 실제 근데 그것에 대한 원인을 상세하게 그게 원인이었다, 라고 분석하는 과정에서 확신을 갖기 위해서 여러 가지 테스트들을 했고 오늘 발표를 하는 거다, 라고 보면 좋을 것 같습니다.

 

<답변> (서보람 디지털정부실장) 디지털정부실장 서보람입니다. 지금 해소를 하는 데까지 걸린 기간이 사흘 걸리는 것이 적정한가에 대한 질문을 주셨는데요. 저번에도 계속 말씀드렸지만 정부서비스가 다시 재개가 된 것은 사고 당일 다음 날 아침 9시에 모든 서비스는 재개가 됐습니다. 저희가 그때 말씀을 드렸던 거는 L4 스위치를 교체해서 됐었다고 말씀드렸었고요. 정부24라든가 그다음에 지방자치단체에서 쓰고 있는 시스템들을 그날 오후에 테스트를 하면서도 아무 이상 없이 됐었고, 그래서 정부서비스가 다시 개시된 것은 24시간 10여 분 후에 다시 개시가 됐다고 다시 한번 말씀드리겠습니다.

 

다만, 그것이 어떤 문제 때문에 그런 것이 발견이 됐었... 발생을 했었고 하는 문제에 대해서는 저희가 그다음 날 아침에 문제가 생겼던 라우터의 모듈을 바꿔끼는 작업을 했었고요. 그래서 그 원인을 밝혀낼 때까지 지금까지 시간이 소요가 됐는데, 정부서비스가 재개가 되는 것은 24시간 내에 재개가 됐었다는 점을 다시 한번 말씀드리겠습니다.

 

<질문> 죄송합니다. 백업 부분을 질문드렸는데 답변을 못 들어서요.

 

<답변> (사회자) 그러면 그 질문을 다시 한번만 해주시겠어요? 그 백업 부분 관련된 질문.

 

<질문> 이 사태, 이런 사태가 일어났을 때 백업시스템이 이게 보완을 해줘야 되는데 그 부분이 왜 작동하지 않았는지에 대한 설명이나 원인분석이... 좀, 부탁드립니다.

 

<답변> (이재용 국가정보자원관리원장) 지금 말씀하시는 백업이 문제가 발생했을 때 원격지에서 대신 가동하는 백업을 의미하시는 것이라고 하면, 이런 경우 같은 경우에는 그거에는 적용이 안 된다고 말씀을 우선 드리겠습니다.

 

왜냐하면 보통 그렇게 얘기할 때는 무슨 물리적인 재해나, 그러니까 보통 우리가 지진이나 홍수 뭐 이런 것 얘기를 하면서 전산실이 운영이 불가능할 때, 거기에 침해를 받지 않는 멀리 있는 원격지에 백업센터를 구축하고 그쪽에서 서비스를 얼마 이내에 이어받아서 진행한다는 것인데요.

 

이번 같은 경우에는 데이터든 프로그램이든 손상되거나 망실된, 그러니까 손실된 것이 아니었습니다. 그래서 이것을 놔두고 다른 데에 있는 백업센터를 가동한다는 개념이 아니라 지금 현재 있는 센터를 고쳐서 정상 가동하는 것이 훨씬 빠른 경로고 그렇게 운영하는 것이 맞고요.

 

그래서 이게 백업센터를 운영했는데 늦어졌다. 이런 얘기도 있고, 백업센터가 없어서 문제다. 이런 얘기를 했는데 백업과는 전혀, 백업센터와는 전혀 무관한 복구 과정이었다, 라는 점은 다시 말씀을 올리겠습니다.

 

<답변> (송상효 지방행정전산서비스 개편 T/F 공동팀장) 제가 추가적으로 하나만 좀 더 설명드릴게요. 질문은 백업이라고 얘기하셨는데 지금 원인은 백업으로 해결되는 게 아니고요. 거기에 관련된 시스템이 계속될 수 있는 이중화가 적절하게 구성되느냐가 더 대답이 될 것 같은데요.

 

이중화에 대한 구성은 다 되어 있습니다. 그런데 이중화라는 거는 하나의 시스템이 장비가 완벽하게 작동이 되지 않을 경우에 그 작동을 대신하는 그런 구조를 얘기하는 건데요. 여기에는 일부 모듈이 이상이 생겼기 때문에 그 모듈은 하나의 장비가 비정상 작동한다고 얘기하는 상태는 아니었기 때문에 그 이중화가 제대로 작동이 되지 않은 게 더 적당하다고 얘기할 것 같고, 이중화 구성은 적절하게 잘 구성되어 있었습니다.

 

<질문> 그러면 포트, 라우터 이쪽에서 물리적 문제가 발생해서 이번 장애가 있었다고 말씀을 하셨는데, 사실 17일에 있었던 사례 말고도 저번 주 네 차례 정도 전산망 먹통 사태가 있었는데 여기에 모두 영향을 미쳤다고 보면 되나요? 아니면 17일에 발생한 건에 한해서 말씀하신 원인이 적용된 건지 여쭤보고 싶습니다.

 

<답변> (서보람 디지털정부실장) 디지털정부실장 서보람입니다. 저번주 금요일에 발생한 문제의 원인은 라우터에 있는 모듈이라고 말씀을 드렸고요. 그 이외에도 정부서비스가 여러 가지들이 계속 장애를 일으켰던 것이 사실입니다. 그런데 경우마다 전부 다 다른 원인 때문에 발생을 했던 거고 라우터의 모듈이 다른 서비스의 장애에 영향을 미친 부분은 전혀 없습니다.

 

예를 들어서 이미 저희가 보도자료나 여러 가지 경로로 말씀을 드렸지만, 아까도 잠깐 브리핑에서 언급이 있었던 조달청 같은 경우에는 외국에서의 접속량이 과다하게 폭증해서 부하량이 늘어나서 접속지연이 발생했던 문제가 원인의 하나로 보이는 것이고요. 또 다른 접속 장애들마다 개별적인 다른 이유가 있는 것입니다.

 

다시 한번 말씀드리면 이번에 원인으로 말씀을 드린 네트워크 장비의, 라우터라는 장비의 모듈은 다른 장애와는 전혀 무관함을 말씀드리겠습니다.

 

<질문> 질문 많아서 죄송합니다. 차관님께 질문을 드리겠습니다. 민간에서 논의가 나오는 거는 공공정보화사업의 사업대가 현실화를 말씀하셨는데, 이게 이번 사태의 원인이라는 지적도 많이 있거든요. 그래서 이 말씀을 하실 때 이게 기재부와 어느 정도 예산의 공감을 가지고 말씀을 하신 건지, 내년도 예산에 당장 추가 반영을 위해 협의하고 있는 부분이 있으신 건지 궁금합니다.

 

<답변> (고기동 차관) 여기에 대한 충분한 논의들이 있으셔서 저희도 이 논의를 진행할 거고요. 저희가 안을 만들면 기재부와도 충분히 논의를 할 겁니다.

 

일단은 저희 오늘 말씀드린 것은 저희가 이런 방향으로 검토를 하겠다는 일단 방향성에 대해서 말씀을 드린 거고요. 구체적인 대안은 조속히 아마 말씀을 따로 드려야 될 것 같습니다.

 

<질문> 차관님, 이런 지적이 타당하다고 생각하시나요? 이번에 원인 조사가 어쨌든 일단락이 됐는데.

 

<답변> (고기동 차관) 전체적으로 우리 공공정보시스템을 운영하는 역량에 대한 사항이기 때문에요. 이 부분도 충분히 짚어봐야 된다는 생각을 가지고 있습니다.

 

<질문> 그러면 처음에 L4 장비를 교체하고 다시 서비스를 개시... 재개를 했다고 하셨는데, L4로 그때는 충분하다고 보셔서 다시 재개를 하신 것 같은데 그렇게 보신 이유는 무엇인가요?

 

<답변> (서보람 디지털정부실장) 디지털정부실장 서보람입니다. L4 장비를 교체하고 충분하다고 생각한 이유는 뭔지에 대해서 질문을 주셨습니다. 저번에 경과를 말씀드릴 때 설명을 한 번 드렸었는데, 저희가 금요일 오전에 장애가 발생하고 원인을 찾으면서 토요일 새벽에 L4 장비를 교체하고 부하 테스트 등 여러 가지, 기능 테스트라든가 여러 가지 테스트를 거쳐서 문제가 없다고 판단을 해서 L4 장비를 2대를 교체했습니다.

 

그리고 서비스를, 저희가 정부24 서비스를 비롯해서 지방자치단체들이 사용하는 서비스를 전부 다 개시를 했고요. 그래서 실제적으로 운영이 되는 데 문제가 없었습니다. 그래서 저희가 일요일에 브리핑을 드리면서 서비스가 정상화됐다는 말씀을 드리고, 원인은 L4 장비로 추정된다는 말씀을 드렸었습니다.

 

그런데 그 과정에서 저희가 L4 장비로 추정된다. 또는 판단된다는 말씀을 드렸던 것이 100%는 아니었고요. 왜냐하면 규명을 해야 되니까. L4 장비의 원인 쪽이 가능성이 높다는 말씀을 드렸던 거고 다른 원인이 있는지를 계속 찾아보겠다고 말씀을 드렸습니다. 그 찾는 과정에서 나왔던 것들 중의 하나가 최종적으로 말씀을 드린 라우터에 있는 모듈이었다, 라고 보시면 될 것 같습니다.

 

<질문> 마지막 기회 감사합니다. 여러 기사가 향후에 나오... 계속 나오고 있는데요. 이번에 공공 전산망 관리 관련해서 여러 원인이 지적되고 있는데 ‘대기업이 배제된 중소기업 중심의 공공 발주체계 때문이었다.’ 이런 얘기가 나오면서 여기 브리핑에도 나와 있는데 '기술력 높은 기업이 참여를 하게 될 것이다.' 이런 내용이 있는데 혹시 이 기업 관련해서 청사진이 나온 건지, 대기업이 포함된 건지 혹시 계획하고 있는 것 있으십니까?

 

<답변> (고기동 차관) 아까도 아마 유사한 질문이 있었습니다. 이 논의는 여러 가지 법·제도적인 부분하고 함께 지금 연계돼 있는 부분입니다. 그래서 이 부분들은 규제개혁 차원도 다시 한번 봐야 되고 해서 이 논의를 시작하겠다는 걸 오늘 말씀드린 거고요. 충분한 여러 관계기관들하고 이거는 협의를 할 생각입니다.

 

[출처] 대한민국 정책브리핑(www.korea.kr)

2023.11.20 - [업무 안내/행정정보] - [행안부] 전산서비스 장애 대책본부 회의, 정부24와 새올 정상화되었다

 

[행안부] 전산서비스 장애 대책본부 회의, 정부24와 새올 정상화되었다

□ 이상민 행정안전부 장관은 2023년 11월 19일 11시 30분, 대전 국가정보자원관리원을 방문하여, 현장에서 ‘지방행정전산서비스 장애 대책본부’ 회의를 주재했다. □ 이 장관은 정부24 서비스 가

botteul.tistory.com

 

 

2023.11.19 - [업무 안내/행정정보] - [행안부] 정부24 행정전산 민원서비스 장애와 행안부 입장

 

[행안부] 정부24 행정전산 민원서비스 장애와 행안부 입장

전산망 장애 관련 언론 보도 2023년 11월 17일(금) 행안부의 정부24 민원서비스 전산망에 장애가 발생했다. 전국 행정기관에서 각종 민원서류를 발급받지 못하는 혼란이 벌어졌다. 행안부에서는 장

botteul.tistory.com

 


 

728x90