뉴스펍

[이데일리 김현아 기자] KT(030200)가 한국 사회와 문화적 맥락을 반영한 인공지능(AI) 안전성 평가 체계 구축에 나섰다. 글로벌 AI 모델이 한국어 환경에서 얼마나 안전하게 작동하는지 검증할 수 있는 국내 최대 규모의 멀티모달 벤치마크를 공개하며 AI 신뢰성 확보 경쟁에 속도를 내고 있다.

KT는 고려대와 공동으로 개발한 멀티모달 대형언어모델(MLLM) 안전성 벤치마크 ‘KSAFE-MM’을 공개했다고 16일 밝혔다.

KSAFE-MM은 텍스트와 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하는 멀티모달 AI 모델의 안전성을 한국 사회의 문화적 특성과 사회적 이슈를 반영해 평가할 수 있도록 설계됐다.

벤치마크는 글로벌 공통 위험 요소를 한국 문화 맥락에 맞게 변환한 ‘KSAFE-MM-G’와 전세 사기, 독도 영유권 분쟁 등 국내 특수 이슈를 반영한 ‘KSAFE-MM-C’로 구성된다. 전체 평가 데이터는 1만4135개 샘플 규모로, 국내 공개 사례 가운데 최대 수준의 한국어 멀티모달 안전성 평가 데이터셋이라는 설명이다.

KT 직원들이 ‘KSAFE-MM’ 개발을 진행하는 모습

KT와 고려대 연구진은 이를 활용해 구글의 젬마(Gemma)와 네이버의 하이퍼클로바X(HyperCLOVA X)를 포함한 글로벌·국내 주요 멀티모달 AI 모델 12종의 안전성을 검증했다.

이번 연구의 핵심은 벤치마크 구축 과정을 자동화했다는 점이다. 기존 AI 안전성 평가 데이터셋은 전문가의 수작업 검수가 필수적이어서 구축 비용과 시간이 많이 소요됐다.

반면 KSAFE-MM은 현지 커뮤니티 기반 민감 이슈 수집, 템플릿 기반 질의 생성, 합성 이미지 제작, AI 안전장치를 우회하는 이른바 ‘탈옥(Jailbreak) 프롬프트’ 생성까지 전 과정을 자동화한 4단계 파이프라인을 적용했다.

KT는 이를 통해 특정 국가나 문화권 전문가가 없어도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 기반을 마련했다고 설명했다. 실제 연구진은 동일한 방식을 일본어 환경에 적용한 파일럿 프로젝트 ‘JSAFE-MM-C’를 통해 글로벌 확장 가능성도 검증했다.

생성형 AI가 이미지와 영상, 음성까지 처리하는 멀티모달 시대로 진화하면서 문화적 편향과 허위정보, 유해 콘텐츠 생성 위험을 점검할 수 있는 안전성 평가 체계의 중요성이 커지고 있다.

이에따라 KT는 이번 벤치마크가 AI 서비스 출시 전 안전성 검증은 물론 레드팀 테스트와 가드레일 모델 평가 등 다양한 분야에서 활용될 것으로 기대하고 있다. 연구 결과와 데이터셋은 논문 공유 플랫폼 아카이브(arXiv)와 AI 오픈소스 플랫폼 허깅페이스(Hugging Face)를 통해 공개됐다.

KT는 최근 다국어 AI 안전성 평가 체계인 ‘XL-SafetyBench’를 공개한 데 이어 KSAFE-MM까지 선보이며 AI 안전성 연구를 강화하고 있다. Responsible AI(RAI) 전담 조직을 중심으로 위험 분류 체계 설계와 평가 지표 개발 등을 주도하고 있다.

박재형 KT AX미래기술원 Frontier AI Lab장(상무)은 “AI 안전성 벤치마크 공개는 단순한 데이터 제공을 넘어 연구 생태계 전반의 발전을 위한 기반을 마련하는 것”이라며 “KSAFE-MM이 한국어와 한국 문화 환경에서 AI 안전성을 평가하는 대표 기준으로 자리 잡기를 기대한다”고 말했다.

KT, 한국 문화 반영한 AI 안전성 벤치마크 공개

IT/과학

추천 뉴스