"롤 또 안돼"…클라우드플레어 두달만에 장애 '단일인프라' 경고

IT/과학

뉴스1,

2025년 11월 19일, 오전 11:28

클라우트 시스템 상태 페이지 갈무리

클라우드플레어 서버 장애에 따른 글로벌 주요 서비스(챗GPT·퍼플렉시티·제미나이·엑스·스포티파이·캔바·디스코드·리그오브레전드·발로란트 등) 마비는소수 빅테크 기업에 집중된 인프라 구조의 취약성이 다시 한번 드러난 것이란 분석이다.

글로벌 단위의 서비스 장애가 반복되면서 기존 클라우드·서버 인프라가 급증한 인공지능(AI) 컴퓨팅·전력 수요를 감당하지 못하고 있다는 지적도 나온다.

챗GPT 퍼플렉시티 사이트 서비스 마비

클라우드플레어에 따르면 이번 장애 시작 시간은 UTC 18일 오전 11시 20분(한국시간 19일 오전 1시 20분)이다. 한국에서 주요서비스 마비가 본격화한 시점은 오후 10시쯤부터다. 클라우드플레어는 추후 "네트워크를 통과하는 일부 트래픽에서 오류가 발생했다"고 설명했다.

회사는 이번 장애의 근본 원인은 위협 트래픽 관리를 위해 자동 생성되는 구성 파일이 예상 크기를 초과해 여러 서비스의 트래픽을 처리하는 소프트웨어 시스템에서 충돌이 발생한 것이라고 설명했다.​ 악의적 공격 또는 사이버 공격 증거는 없었다고 했다.

중단된 주요 서비스들은 한국시간 19일 새벽 시간 대부분 복구됐다.

마이클 트레만테(Michael Tremante) 클라우드플레어 애플리케이션 보안 제품 담당 시니어 디렉터가 기자간담회에서 발언하고 있다.(클라우드플레어 제공)

이번 사태는 클라우드플레어가 9월 4일 한국 리전에 네트워크 연결 장애를 일으킨 지 2달 만에 반복됐다. 당시 회사는 'Network Connectivity Issues in Korea'를 공지를 통해"한국의 네트워크에 연결 문제가 발생해 수정 사항을 적용했다"고 말했다.

마이클 트레만테 클라우드플레어 앱 보안·제품 담당 시니어 디렉터가 방한했을 때 해당 사태를 두고 "저희 고객에게 죄송한 마음"이라고 사과했다. 그럼에도 이 회사에서 발생한 오류에 따른 글로벌 서비스 대란은 또 발생했다.

AWS가 대규모 장애의 잠재적 원인으로 도메인이름시스템(DNS) 해석 오류를 지목했다. (AWS 서버운영 상태페이지 갈무리)

이번 사태는 한 달 전 아마존웹서비스(AWS)와 마이크로소프트 애저(Azure) 대규모 장애와도 유사한 패턴이다.

지난달 20일 AWS는 미국 동부 버지니아주 US-EAST-1 리전에서 발생한 운영 문제(도메인 주소 해석 오류)로 약 15시간 동안 장애를 겪었다. DNS·DynamoDB 문제로 미국 최대 암호화폐 거래소 코인베이스를 비롯해 퍼플렉시티·스냅챗·맥도날드·로블록스·포트나이트·클래시로얄등 수천 개 서비스가 중단됐다.

9일 후인 29일엔 마이크로소프트(MS) 애저 프런트 도어(Azure Front Door) 구성 변경 오류로 8시간 동안 MS365·엑스박스 등 글로벌 서비스가 마비됐다. 당시 항공사들의 온라인 체크인 시스템이 작동하지 않았고, 애저 앱 서비스와 SQL을 이용하는 소매업체와 은행들이 타임아웃과 서비스 품질 저하를 겪었다.

올해 6월엔구글클라우드가 대규모 장애를 일으키며 스포티파이·디스코드·스냅챗·캐릭터AI 등 주요 서비스가 동시에 마비됐다.

이외에도 주요 서비스들은 트래픽이 몰릴 때면 잦은 빈도로 접속 장애 현상을 겪고 있다.

클라우드플레어 로고. 2025.01.20. ⓒ 로이터=뉴스1 ⓒ News1 윤다정 기자

전문가들은 다중 CDN 전략 및 멀티 클라우드 전략을 통해 단일 기업 의존도를 낮춰야 한다고 조언했다. 다중 CDN 전략은 여러 CDN 제공업체와 동시에 계약을 맺어 서비스 연속성을 보장하는 방식이다.​

다만복잡한 분산 시스템은 중복 설계에 따른 비효율 및 보안 위험을 증폭시킬 수 있다는 반론도 있다.

데인 네히트 클라우드플레어최고기술책임자(CTO)는 이번 사태에 "우리는 고객과 인터넷 전체를 실망시켰다"며 "고객들이 우리에게 주는 신뢰가 가장 중요한 가치이며 이를 되찾기 위해 최선을 다하겠다"고 사과했다.

ideaed@news1.kr

추천 뉴스