에임인텔리전스, ICLR 논문 채택…AI 영상모델 보안취약점 분석

경제

이데일리,

2026년 2월 27일, 오후 09:32

[이데일리 김세연 기자] 인공지능(AI) 보안 전문기업 에임인텔리전스는 자사가 참여한 연구 논문이 AI 분야 세계 최고 권위 학회인 ‘ICLR 2026’ 메인 트랙에 채택됐다고 27일 밝혔다.

신스플릿 논문 연구팀이 기념사진을 찍고 있다.(사진=에임인텔리전스)
이번에 채택된 논문은 문장을 영상으로 만드는 ‘T2V 모델’ 안전성 취약점을 분석한 ‘Jailbreaking on Text-to-Video Models via Scene Splitting Strategy’ 논문이다. ICLR은 최신 머신러닝·딥러닝 연구 성과가 발표되는 대표적인 국제 학술대회로 올해는 약 1만9000여편의 논문 중 약 28%만 채택됐다.

문장 입력만으로 영상을 생성하는 T2V 모델이 빠르게 상용화되고 있지만 안전성 검증 연구는 아직 초기 단계에 머물러 있다. 연구팀은 이러한 문제의식에서 출발해 T2V 모델의 안전 필터를 우회할 수 있는 구조적 취약점을 분석했다.

논문에서 제안한 ‘신스플릿’(SceneSplit) 기법은 하나의 유해한 프롬프트를 여러 개의 개별 장면으로 분할해 각 장면은 무해한 것처럼 구성한 뒤 이를 순차로 결합하는 방식이다. 연구에 따르면 개별 장면 단위에서는 안전 필터를 통과하더라도 장면이 연결되면서 전체 맥락이 특정 방향으로 수렴해 정책 위반 결과를 생성할 가능성이 확인됐다.

예를 들어 ‘하늘로 퍼지는 연기’, ‘바닥에 누워 있는 사람들’, ‘붉은 액체’와 같이 각각은 문제 소지가 낮은 묘사를 순차로 결합할 경우 전체 영상 맥락에서는 폭발 현장을 연상시키는 결과물이 생성될 수 있다. 이는 현행 안전 필터가 단일 장면 중심으로 작동하면 전체 맥락을 충분히 고려하지 못할 수 있음을 시사한다.

연구팀은 음란물, 폭력, 불법행위 등 11개 안전 카테고리에 기반한 220개 프롬프트를 활용해 총 5개 T2V 모델을 평가했다. 그 결과 신스플릿 기반 공격은 70~80% 수준의 성공률을 보였다. 기존 단일 프롬프트 기반 공격의 성공률은 0~10% 수준이다. 즉 장면을 끊어서 아무 문제 없는 것처럼 속였지만 전체적인 맥락에서 고려하면 유해한 영상이 안전성 평가를 통과하는 것이다.

에임인텔리전스는 이번 연구를 통해 영상 생성 AI의 안전성 평가가 단순한 키워드 차단을 넘어 장면 간 맥락과 서사 구조를 통합적으로 이해하는 방향으로 고도화돼야 한다고 제시했다.

박하언 에임인텔리전스 최고기술책임자(CTO)는 “생성 AI가 이미지에서 영상, 나아가 멀티모달·피지컬 AI로 빠르게 확장되고 있는 만큼 안전성 검증 방식 역시 구조적·맥락적 평가로 진화해야 한다”며 “에임인텔리전스는 앞으로도 생성 AI 시스템에서 나타나는 구조적 취약점을 선제 연구하고 이를 방어할 수 있는 안전 기술을 고도화해 나가겠다”고 말했다.

추천 뉴스