뉴스펍

[이데일리 한광범 기자] 서울대 공과대학은 전기정보공학부 도재영 교수 연구팀(AIDAS 연구실)이 글자, 사진, 영상, 소리를 하나의 모델이 동시에 이해하고 만들어낼 수 있는 차세대 인공지능(AI) 파운데이션 모델 Dynin-Omni를 개발했다고 7일 밝혔다.

도재영 교수 연구팀(AIDAS 연구실). (좌상단에서 시계방향으로) 서울대학교 전기정보공학부협동과정 인공지능전공 도재영 교수, 김재익 연구원, 김우진 연구원, 홍지환 연구원, 이예준 연구원, 현시은 연구원, 임민택 연구원, 한윤석 연구원, 김도근 연구원, 이호은 연구원, 김형근 연구원, 김진혁 연구원. (사진=서울대 공대)

연구진은 AI 모델이 모든 감각 정보를 동시에 처리하는 혁신적 구조를 설계해, 정보를 순서대로 하나씩 생성하는 기존 방식의 문제점을 해결했다. 글자부터 영상까지 모든 정보를 단일 모델이 동시에 이해하고 생성하는 진정한 올인원 옴니모달(Omnimodal) AI를 세계 최초로 구현한 것이다.

이 기술은 향후 로봇, AI 비서, 스마트 기기처럼 AI 모델이 여러 형태의 정보를 동시에 이해하고 즉각 반응해야 하는 다양한 산업 분야에서 핵심 지능으로 활용될 것으로 기대된다.

최근 AI는 다양한 데이터를 다루며 발전하고 있지만, 현실에서 사람과 자연스럽게 소통하려면 복합적인 상호작용 능력이 필수적이다. 사람의 말을 듣고 즉시 그림을 그리거나 영상을 분석해 음성으로 설명하는 기능은 여러 감각을 동시에 사용하는 통합 지능이 있어야 가능하다.

기존 AI 시스템은 이해와 생성 기능을 분리하거나 여러 모델을 복잡하게 이어 붙여 사용했기에 유기적인 처리에 한계가 있었다. 특히 하나의 모델이 모든 감각 정보를 이해하고 결과물까지 직접 만드는 완전 통합형 구조는 기술적으로 매우 어려운 과제로 꼽혀왔다.

도재영 교수팀은 하나의 모델이 모든 정보를 통합적으로 처리하는 구조를 설계해 Dynin-Omni를 개발하는 데 성공했다.

차세대 통합 AI 파운데이션 모델 Dynin-Omni의 개요. (서울대 공대 제공)

이 모델은 모든 정보를 동일한 기준에 따라 있는 그대로 동시에 이해하는 방식을 취한다. 기존처럼 이미지나 음성을 글자 중심으로 해석하는 변환 과정이 없어 정보 간 연결이 더욱 정확하다는 장점이 있다. 또한 결과물 전체의 윤곽을 먼저 잡고 완성도를 높이는 디퓨전(diffusion) 방식을 채택해 처리 속도를 대폭 높였다. 단어를 하나씩 순서대로 생성하는 기존 방식보다 영상이나 음성 등 대용량 데이터를 훨씬 빠르고 효율적으로 처리한다.

무엇보다 이해와 생성 기능을 하나의 모델로 합쳤다는 점이 결정적이다. 여러 AI를 조립할 필요 없이 Dynin-Omni라는 하나의 지능이 사람처럼 보고, 듣고, 말하는 모든 과정을 끊김 없이 수행한다. 실제 성능 평가에서도 Dynin-Omni는 정보 추론, 영상 이해, 이미지 생성 등 19개 글로벌 AI 성능 지표에서 기존 통합 모델들을 앞질렀으며, 특히 기존 통합 AI 모델 대비 최대 4~5배 빠른 생성 속도를 구현하며 압도적인 경쟁력을 입증했다.

Dynin-Omni의 옴니모달 학습 및 추론 구조. (좌) 완전 통합 옴니모달 학습. 모든 모달리티 입력을 공통 언어 공간으로 변환한다. (우) 모달리티별 특성을 반영한 추론 파이프라인을 통해 보다 빠르고 유연한 생성 결과를 보장한다. (서울대 공대 제공)

이번 연구는 AI가 사람처럼 모든 감각을 하나의 뇌로 통합했다는 점에서 의미가 깊다. 이를 통해 AI 비서가 목소리뿐 아니라 사진과 영상까지 한꺼번에 이해하고 즉각 반응하는 수준으로 진화할 수 있으며, 공장이나 의료 현장 등 새로운 환경에도 즉시 적용이 가능하다.

특히 로봇이 스스로 상황을 판단하고 행동해야 하는 현실 세계에서 Dynin-Omni의 통합 구조는 핵심적인 역할을 할 것으로 보인다. 이는 AI가 화면 속 세계를 넘어 실제 삶의 문제를 해결하는 피지컬 AI(Physical AI) 시대를 앞당길 기술로 평가받는다.

Dynin-Omni의 옴니모달 이해 및 생성 성능 평가. (서울대 공대 제공)

연구를 지도한 도재영 교수는 “이번 연구는 통합 인공지능의 가능성을 열었다는 점에서 큰 의미가 있다”며 “앞으로 현실 세계에서 직접 작동하는 지능형 로봇이나 스마트 기기처럼 실질적 도움을 주는 기술로 연구를 확장할 계획”이라고 밝혔다.

연구팀은 향후 Dynin-Omni를 더욱 정교화하여 한국을 대표하는 통합 옴니모달 AI 시리즈로 발전시킬 계획이다. 특히 로봇의 두뇌로 활용되는 피지컬 AI 모델(Dynin-Robotics)로 연구 범위를 넓혀 글로벌 옴니모달 AI 분야에서 독보적인 위상을 확보해 나갈 예정이다.

서울대 도재영 교수팀, 차세대 옴니모달 AI ‘Dynin-Omni’ 세계 최초 개발

IT/과학

추천 뉴스