뉴스펍

[이데일리 한광범 기자] SK텔레콤(017670)이 지능형 데이터 인프라 기업 넷앱(NetApp)과 손잡고 가상화 환경에서 발생하는 AI 워크로드 성능 저하 문제를 해결했다.

넷앱은 25일 SK텔레콤과 함께 가상화 환경에서도 높은 성능을 유지하며 기업의 AI 인프라 확장을 지원하는 공동 개념검증(PoC)을 성공적으로 완료했다고 밝혔다.

이번 프로젝트는 AI 데이터센터 구축·운영을 위해 설계된 SK텔레콤의 가상화 클라우드 인프라 ‘페타서스(Petasus) AI 클라우드’와 넷앱의 분리형 스토리지 아키텍처 설루션 ‘AFX 시스템’ 간의 상호운용성을 검증하기 위해 진행됐다.

양사는 엔비디아의 GPU 다이렉트 스토리지(GDS) 기술을 활용해 가상머신(VM) 환경에서도 물리 서버를 직접 사용하는 것과 다름없는 99% 이상의 성능을 구현해내는 데 성공했다.

기존에는 AI 워크로드를 가상머신 환경에서 실행할 경우, 여러 작업이 서버 자원을 나눠 쓰는 과정에서 추가적인 처리 부담이 발생해 성능 저하가 불가피했다. 이는 전자설계자동화(EDA), 금융, 제조, 통신 등 초저지연이 요구되는 산업계에서 고성능 AI 인프라를 도입하는 데 큰 제약 요인으로 작용해 왔다.

양사는 이번 PoC를 통해 소프트웨어 스택과 인프라 설계를 최적화함으로써 가상화에 수반되던 성능 제약을 실질적으로 해소했다. 구체적으로는 가상머신과 물리 서버 환경 모두 동일한 수준인 32.7GB/s의 데이터 전송 속도를 달성했으며, CPU 사용량도 40~50% 절감했다. GPU가 AI 학습과 추론에 더 집중할 수 있도록 불필요한 처리 부담을 줄여 전체 연산 효율을 향상시킨 것이다.

이러한 성과의 핵심에는 온탭(ONTAP)을 기반으로 한 NetApp AFX 아키텍처가 있다. 성능과 용량을 독립적으로 확장할 수 있는 구조를 통해 워크로드 변화에 맞춰 AI 인프라를 유연하게 최적화할 수 있으며, 글로벌 환경에서 검증된 데이터 관리·보안 기능을 동일하게 제공한다.

아울러 이번 프로젝트는 AI 가 답변을 생성하는 과정에서 임시로 저장하고 참고하는 데이터인 ‘KV 캐시’를 NetApp AFX에 저장·활용함으로써, AFX가 GPU 메모리를 보완하는 고성능 확장 저장공간 역할을 할 수 있음을 확인했다. NetApp AFX의 고대역폭·초저지연 분리형 스토리지 아키텍처가 AI 추론 과정의 데이터 접근 시간을 줄이고 처리량을 높이는 데 기여한 셈이다.

지난 10여 년간 스토리지 파트너로 협력해 온 양사는 이번 PoC 성공을 기반으로 AI 데이터센터 솔루션 연동, 기술 검증, 엔터프라이즈 AI 고객 대상 공동 대응 기회 발굴 등 협력을 지속해 나갈 예정이다. 향후 임시 데이터를 더 빠르고 효율적으로 저장·활용할 수 있도록 AFX 기반 확장 저장 기술을 차세대 메모리 기술로 더욱 발전시켜 나갈 계획이다.

PD 프라사드 넷앱 AI 데이터 인프라 총괄 부사장은 “물리 서버와 가상머신 간 성능 격차를 해소함으로써 기업은 클라우드 환경에서 더욱 빠르고 효율적인 AI 학습과 추론을 수행할 수 있으며, 운영 효율을 향상시키고 혁신의 폭을 넓힐 수 있을 것”이라고 전했다.

정민영 SK텔레콤 AI DC 설루션 담당은 “넷앱과의 협력을 통해 AI 클라우드 인프라의 주요 기술 과제였던 가상화 환경의 성능 저하 요인을 크게 줄이는 데 성공했으며, 동시에 페타서스 AI 클라우드를 차세대 AI 워크로드를 위한 상용 수준(production-ready) 플랫폼으로 검증했다”며 “이번 PoC를 통해 검증된 페타서스 AI 클라우드는 고성능 AI 학습과 추론 환경을 안정적으로 지원하면서도, 가상화 환경의 운영 효율과 비용 효율성을 함께 확보하고자 하는 기업에 실질적인 가치를 제공할 것으로 기대된다”라고 말했다.

SKT·넷앱, 가상화 환경 AI 성능 저하 해결…‘물리 서버 99%’ 구현

IT/과학

추천 뉴스