김승진 네이버클라우드 B2B제품기획 리더가 7일 팀네이버 컨퍼런스 ‘단(DAN) 25’ 행사에서 발표하고 있다. (사진=네이버클라우드)
김승진 네이버클라우드 B2B 제품기획 리더와 우수호 MBC 미디어IT인프라 차장은 7일 팀네이버 컨퍼런스 ‘단(DAN) 25’ 행사에서 이런 미디어 인텔리전스 서비스 도입을 통해 MBC 방송 제작 현장에서 영상 분석 작업을 자동화한 경험을 공유했다.
네이버클라우드의 미디어 인텔리전스 프로젝트는 아이러니하게도 2018년 ‘V라이브 오토 하이라이트’의 실패에서 출발했다. 당시엔 셀럽이 등장하는 구간을 자동으로 잘라주는 기술을 선보였는데, 콘텐츠 공급자들의 거부감과 저작권·초상권 문제 및 기술 한계 등으로 상용화에 실패했던 것이다.
이후 네이버는 KOBA(국제방송·음향·조명기기전시회)와 방송기술연합회 등을 통해 방송사들의 실제 편집 환경을 연구하며 기술을 다시 설계했다. 김승진 리더는 “무엇이 되었든 산업에서 필요한 것을 만들어야 한다는 것을 깨달았다”며 “CPU만으로도 동영상 분석이 가능한 수준까지 경량화해 상용화가 가능해졌다”고 밝혔다.
특정인물이 등장하는 장면을 AI가 자동으로 분석해주고 있다.(사진=네이버클라우드)
MBC는 미디어 인텔리전스 서비스를 도입해 영상 작업 상당 부분을 자동화한 좋은 사례다. MBC는 주간 2292시간의 원본 영상을 인제스트(입력)하고, 편집에 앞서 모든 영상에 대해 ‘프리뷰’를 작성한다. 과거에는 이런 인제스트 작업에 12~24시간이 걸렸고, 프리뷰 수작업에만 프리랜서 5명이 하루를 꼬박 썼다.
우수호 MBC 미디어IT인프라팀 차장은 “MBC의 차세대 제작 MAM(미디어 자산관리)에 AI 영상 분석 솔루션을 도입한 이후 스튜디오 프로그램 1회분 기준 12시간이 걸리던 소요 시간을 70% 이상 단축하고, 소요 금액은 72% 이상 절감했다”고 설명했다.
미디어 인텔리전스의 핵심은 원하는 순간을 찾아낼 수 있는 ‘멀티모달 구간 색인’ 기술이다. 네이버의 인물 추적 및 얼굴 인식 기술, 한국어 특화 음성인식 모델 등을 바탕으로 한 구간별 멀티모달 분석 결과가 관계형데이터베이스(RDB)에 통합 색인된다. 예컨대 “김종민이 정원에서 웃으면서 결혼식에 대한 이야기”와 같이 특정 구간을 쉽게 검색할 수 있게 하는 것이다.
특히 네이버클라우드는 인물, 카메라 시점, 배경, 변화하는 순간을 검출하는 과정에서 구간 내의 중복 분석을 제거해 분석 효율성을 70% 개선했으며, 자체 구축 데이터셋을 통한 미디어 특화 구간 분할 모듈을 개발해 적용했다.
마이박스, 개인 영상도 AI가 관리
이 기술은 개인용 클라우드 서비스 ‘마이박스(MYBOX)’로도 확장된다. 사용자가 저장한 수많은 사진과 동영상 중 ‘아이 생일파티에서 촛불 끄는 순간’ 같은 장면을 자연어로 찾을 수 있는 ‘파인드 모먼트(Find Moment)’, AI가 주제별 하이라이트 영상을 주기적으로 생성하는 ‘비디오 하이라이트’ 기능이 대표적이다.
박수정 네이버클라우드 마이박스기획 리더는 “미디어 인텔리전스 기술로 자연어 기반 동영상 검색 기능을 도입할 예정”이라며 “영상 내 인물과 내용까지 파악해, 원하는 순간을 쉽게 검색하고 바로 재생할 수 있도록 연결하겠다”고 전했다.
네이버는 앞으로 AI가 스스로 영상의 핵심을 요약하고, 원하는 정보를 대화형으로 검색하는 ‘AI 에이전트’ 기반 서비스까지 확대할 계획이다.









