최근 AI 산업이 모델 개발 단계를 넘어 실제 서비스 적용으로 빠르게 전환되면서, 생성형 AI와 AI 에이전트, 영상 분석 등 실시간 추론 인프라 수요가 크게 늘고 있다. 특히 GPU 공급 불안과 비용 부담이 커지면서, 기업들은 대안으로 NPU 기반 인프라 도입을 검토하는 추세다.
가비아의 NPUaaS는 인스턴스(VM) 기반으로 제공되며, OS 커널 수준의 세밀한 설정과 커스터마이징이 가능하다. 이를 통해 기업은 특정 AI 워크로드에 맞춘 정밀한 인프라 구성을 구현하고, 필요에 따라 유연하게 확장할 수 있다.
서비스에 탑재된 ATOM-Max는 카드 1장 기준 128 TFLOPS(FP16) 연산 성능과 64GB NPU 메모리를 제공한다. 여기에 CPU 16vCore, 시스템 메모리 256GB, 월 4TB 트래픽이 포함되며, 대규모 언어모델(LLM), 비전 AI, 멀티모달, 피지컬 AI 등 다양한 워크로드를 지원한다.
특히 고성능 추론 환경이 필요한 대규모 LLM 서빙, 저지연이 요구되는 실시간 영상·음성 분석, 커널 수준 격리가 필요한 금융·의료·공공 분야 등에 적합하다는 설명이다.
가비아는 서비스 출시와 함께 ‘AI 추론 프레임워크 최적화 컨설팅’도 제공한다. 파이토치(PyTorch)와 텐서플로(TensorFlow) 기반 환경 설정부터 성능 튜닝까지 전문 인력이 지원하며, 허깅페이스 허브 오픈소스 모델 연동과 대규모언어모델 추론엔진(vLLM) 등 서빙 도구 활용도 가능하다.
또 라마3, 젬마 등 오픈소스 LLM이 ATOM-Max 환경에서 최적으로 구동될 수 있도록 프로파일링, 커널 최적화, 파라미터 튜닝 등 맞춤형 기술 지원도 병행한다. 해당 컨설팅은 도입을 검토 중인 PoC 고객사를 대상으로 우선 제공된다.
정대원 가비아 상무는 “AI 서비스 경쟁력은 모델뿐 아니라 추론 환경의 효율성에 달려 있다”며 “NPUaaS와 전문 컨설팅을 결합해 기업이 인프라 부담 없이 AI 비즈니스에 집중할 수 있도록 지원하겠다”고 밝혔다.









