뉴스펍

[이데일리 김현아 기자] 화웨이가 차이나모바일 후베이와 함께 중국 통신업계 최초로 ‘AI 추론 가속(AI Inference Acceleration)’ 솔루션의 상용망 검증을 성공적으로 마쳤다. 생성형 AI의 장문 추론 환경에서 토큰(Token) 처리량을 최대 372%까지 높이며 AI 서비스의 대규모 상용화를 위한 핵심 인프라 기술을 입증했다.

화웨이는 이번 성과를 지난 24~26일 중국 상하이에서 열린 ‘MWC 상하이 2026’에서 공개했다.

최근 AI 서비스는 단순 질의응답을 넘어 AI 에이전트와 코드 생성, 다중 대화(Multi-turn) 등 긴 문맥을 이해하는 방향으로 발전하고 있다.

차이나모바일 후베이·화웨이, 중국 통신업계 최초 ‘AI 추론 가속 솔루션’ 상용망 검증 완료. 사진=한국화웨이

그러나 기존 AI 인프라는 칩 내부 메모리와 D램(DRAM) 용량의 한계로 KV(Key-Value) 캐시 적중률이 떨어지면서 추론 속도가 급격히 저하되는 병목 현상이 발생해 왔다.

KV캐시는 생성형 AI가 문장을 생성할 때, 이전에 계산했던 데이터를 매번 새로 계산하지 않고 메모리에 미리 저장해 두는 기술이다.

화웨이는 이를 해결하기 위해 자체 개발한 통합 캐시 관리자(UCM·Unified Cache Manager) 기술을 적용했다.

UCM은 외부 고성능 스토리지를 활용해 페타바이트(PB)급 대용량 KV 캐시를 구축함으로써 기존 메모리 한계를 극복한다. 캐시 데이터를 계층적으로 관리해 하나의 대화에서 더 긴 문맥을 처리할 수 있으며, 여러 대화에서 기존 데이터를 재활용해 중복 연산을 줄여 추론 속도와 비용 효율을 동시에 높인다.

이번 검증은 화웨이의 ‘OceanStor A800’ 스토리지와 ‘Ascend A3 SuperPoD’ 기반 AI 인프라에서 진행됐다. 차이나모바일 후베이의 실제 상용망 환경에 AI 추론 프레임워크를 구축하고, 미니맥스 ‘MiniMax M2.5’와 지푸 AI ‘GLM-5.1’ 모델을 대상으로 8K부터 190K 토큰에 이르는 장문 입력을 시험했다.

검증 결과 MiniMax M2.5는 첫 토큰 생성 시간(TTFT)이 26~62% 단축됐으며, 128K 문맥에서는 초당 토큰 처리량(TPS)이 78% 증가했다.

GLM-5.1 모델은 성능 개선 폭이 더욱 컸다. TTFT는 51~93% 줄었고, 128K 장문 환경에서는 TPS가 최대 372% 향상됐다. 특히 문맥 길이가 길어질수록 기존 AI 인프라의 병목 현상을 크게 줄이는 효과가 확인됐다고 화웨이는 설명했다.

차이나모바일 후베이는 이번 실증을 통해 스토리지와 컴퓨팅, 네트워크를 통합한 AI 인프라의 효과를 확인했다고 평가했다.

회사 측은 “AI 에이전트 등 주요 서비스에서 처리량을 50% 이상 높일 수 있어 향후 AI 서비스의 대규모 상용화를 위한 기반을 마련했다”고 밝혔다.

마이클 추(Michael Qiu) 화웨이 글로벌 데이터 스토리지 마케팅·솔루션 세일즈 부문 사장은 “통신사들이 AI 토큰 패키지 상품을 잇달아 출시하면서 앞으로 토큰 소비량은 기하급수적으로 증가할 것”이라며 “이번 솔루션은 지연 시간을 줄이는 것은 물론 토큰 처리 비용까지 절감해 통신사들의 AI 인프라 효율성과 수익성을 동시에 높일 수 있을 것”이라고 말했다.

AI 서비스가 에이전트 중심으로 진화하면서 장문 추론 성능과 토큰 처리 효율이 AI 인프라 경쟁력을 좌우하는 핵심 요소로 떠오르고 있다.

화웨이는 글로벌 통신사들과 협력을 확대해 AI 추론 인프라 시장과 ‘토큰 수익화(Token Monetization)’ 시장을 적극 공략한다는 계획이다.

화웨이, 中 통신사 첫 ‘AI 추론 가속’ 상용망 검증…장문 AI 처리량 최대 372% 향상

IT/과학

추천 뉴스