
2023년, 한 차례 예고도 없는 전산장애로 인해 국가 행정망이 멈췄다. 중앙행정기관부터 지방자치단체에 이르기까지 디지털 기반의 행정 서비스가 일시 정지되며 국민 생활에 직접적인 불편과 행정 신뢰 저하를 일으킨 이 사건은 단순한 기술적 문제를 넘어 공공 서비스의 지속가능성에 대한 경고였다.
이러한 사건의 재발을 방지하고자 정부는 일명 '장애예방법'으로 불리는 '전자정부법'을 2024년에 개정했다. 개정안의 명확한 지향점은 '장애 발생 후의 대응이 아닌, 사전 예방 중심의 시스템으로의 전환'에 있다.
그럼에도 현재 대다수의 행정기관들은 여전히 장애가 발생해야만 대응이 시작되는 사후 관제 체계에 머물러 있는 것으로 보인다. 나아가 발생한 장애의 근본 원인을 파악하는 데에도 많은 어려움을 겪고 있는 것으로 보인다. 이제는 전자정부법의 개정과 함께 정부의 장애에 대한 근본적인 대응 방법을 완전히 새로운 시각에서 재검토해보아야 할 시점이다.
최근 몇 년간 인공지능(AI) 기술은 자연어 처리나 이미지 인식 수준을 넘어 매우 복잡한 패턴의 시계열 예측과 이상 징후 감지 분야에서 뛰어난 성과를 보여주고 있다. 특히 행정정보시스템처럼 수많은 로그와 성능 지표가 생성되는 매우 복잡한 환경에서는 AI가 더더욱 장애 발생 가능성을 사전에 경고할 수 있는 역량을 발휘할 수 있으리라 생각하며 나아가 에이전트 AI의 등장으로 예측과 감지를 넘어 선제적인 대응 후 보고의 체계도 갖출 수 있다.
이러한 AI 기반 장애 예방 시스템은 일반적으로 다음과 같은 방식으로 작동한다.
에이전트 기반 데이터 수집:각 시스템 단말 및 서버에 설치된 경량 에이전트를 통해CPU 사용률, 메모리, 디스크, 네트워크 상태, 애플리케이션 로그 등 다양한 운영 데이터를 실시간으로 수집한다.
AI 모델 학습 및 예측/탐지:축적된 데이터를 기반으로 AI 모델이 정상·비정상 패턴을 학습하고, 이상 징후 발생 시 탐지 결과를 관리자에게 알린다.
예방적 유지보수: 탐지된 결과를 해결할 수 있는 선제적 조치를 자동으로 실행한다.
아마도 더 적극적으로 AI를 이용해 장애에 적극적으로 대응하는 방안에 대해 아무도 본질적인 방향성에 의문을 가지지는 않을 것이다. 그러면 과연 단기간에 이러한 방법을 국가의 모든 행정기관에 도입 적용이 현실적으로 가능한 것인지 그리고 가능하다 하더라도 일시에 이 모든 작업을 가능하게 하는 예산상의 여유가 있는 것인지가 남은 숙제일 것이다.
이를 해결하기 위해서는 가장 먼저 모든 행정기관에의 도입은 현재 천차만별적인 각 행정기관의 장애 대응에의 요구사항을 국가적으로의 표준화가 필요하다. 마치 ERP, CRM, SCM 둥의 상용 도구를 기업이나 기관에서 구매해 사용하듯이 최소한의 커스터마이징으로 빠르게 적용할 수 있는 표준 장애 대응 체계가 수립되어야 한다. 이를 통해 보다 효율적이고 적시의 장애 대응 서비스에 각 행정기관들이 접근할 수 있게 될 것이다.
두 번째로는 국가적 수준의 장애 대응 체계를 펼치기 위한 예산 문제다. 물론 현재처럼 관련 서비스 확보를 위한 인하우스(Inhouse) 개발 방식에서 벗어나 리스, 렌트, 구독 등과 같은 다양한 계약 방식은 물론 공동 활용 클라우드 인프라를 통한 예산 문제 해결 방법도 이제는 고려해 볼 만한 시점이다.
디지털 전환의 궁극적인 목적은 시민에게 끊김 없는 행정 서비스를 제공하는 것이다. AI 기술의 발전은 이제 '사후 해결 방식'에서 '사전 예방 방식'으로 우리를 이끌고 있습니다. 이제는 이를 최대한 활용할 수 있는 제도와 실행계획을 준비해야 할 때다.
AI 기반 장애 예방 시스템의 전면 도입은 단순한 기술 도입이 아니라, 행정의 신뢰 회복과 국가 디지털 경쟁력 확보를 위한 핵심 전략이라 할 수 있다. 그리고 그 시작은, 모든 시스템을 '관제'가 아닌 '장애 예방'의 대상으로 바라보는 것에서 출발해야 할 것이다.
김우주 연세대 산업공학과 교수 wkim@yonsei.ac.kr