이번에 채택된 연구는 노타가 개발한 ‘ERGO(Efficient Reasoning & Guided Observation)’ 모델로, AI가 스스로 판단해 중요한 영역만 분석하는 ‘추론 기반 지각(Reasoning-driven Perception)’ 방식을 통해 기존 대비 추론 속도를 크게 개선한 것이 핵심이다.
노타는 해당 기술이 고해상도 VLM의 속도와 비용 문제를 동시에 해결하며, 피지컬 AI 분야 상용화의 주요 난제를 해소한 성과라고 설명했다.
ERGO 모델은 기존처럼 이미지 전체를 일괄 분석하는 방식이 아니라, 멀티모달 문맥을 기반으로 AI가 집중해야 할 영역을 먼저 판단한 뒤 필요한 부분만 정밀 분석하는 구조를 갖췄다.
저해상도로 전체 맥락을 파악한 뒤, 불확실성이 높은 영역만 원본 해상도로 확대 분석하는 ‘Coarse-to-Fine’ 파이프라인을 적용했으며, 강화학습 기반 보상 시스템을 통해 질문에 가장 적합한 시각 영역을 스스로 선택하도록 설계됐다.
노타에 따르면 벤치마크 테스트에서 ERGO는 기존 최신 모델 대비 시각 토큰 사용량을 크게 줄이면서도 정확도를 유지했으며, 연산 효율을 높여 추론 속도를 약 3배 향상시켰다. 이를 통해 고해상도 VLM의 실시간 적용을 가로막던 연산 비용 부담을 완화했다는 설명이다.
이번 연구 성과는 노타의 VLM 기반 실시간 영상 관제 솔루션인 노타 비전 에이전트의 경쟁력을 한층 강화할 것으로 회사 측은 기대하고 있다. 특히 즉각적인 판단이 요구되는 산업 안전, 지능형 교통 시스템(ITS) 등 피지컬 AI 영역에서 활용도가 높을 것으로 보고 있다. 고가의 서버 없이도 저사양 엣지 기기에서 고해상도 수준의 정밀 추론이 가능하다는 점이 강점으로 제시됐다.
노타는 이러한 기술적 우위를 바탕으로 현재 추진 중인 UAE 지능형 교통 시스템 사업을 비롯한 글로벌 프로젝트에 ERGO 기술을 적용해, 실제 물리적 환경에서 안전성과 효율을 높이는 피지컬 AI 표준을 제시하겠다는 계획이다.
채명수 노타 대표는 “이번 ICLR 채택은 단순한 모델 경량화를 넘어 AI가 사고하는 방식을 효율화하는 단계로 진입했음을 의미한다”며 “검증된 ERGO 기술을 노타 비전 에이전트에 적용해 다양한 산업 현장에서 비용 효율적이면서도 정확한 시각 지능을 제공하겠다”고 말했다.









