뉴스펍

[이데일리 김현아 기자] 크래프톤(259960)이 인공지능(AI) 모델 브랜드 ‘라온(Raon)’을 출범시키고 첫 모델 4종을 오픈소스로 공개했다. 게임사를 넘어 음성과 시각을 아우르는 멀티모달 AI 기술 역량을 전면에 내세우며, 자체 파운데이션 모델 개발 경쟁력까지 드러냈다는 평가다.

크래프톤은 2일 글로벌 플랫폼 허깅페이스를 통해 라온 모델 4종을 공개했다고 밝혔다. 공개 대상은 음성 언어모델 ‘Raon-Speech’, 실시간 음성 대화 모델 ‘Raon-SpeechChat’, 텍스트 음성 변환 모델 ‘Raon-OpenTTS’, 비전 인코더 ‘Raon-VisionEncoder’다.

크래프톤이 허깅페이스에 공개한 라온 모델 4종

이번 공개의 의미는 단순한 모델 배포에 그치지 않는다. 크래프톤은 데이터 수집부터 모델 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체 수행할 수 있는 기술력을 입증했다고 강조했다. 향후에는 라온을 중심으로 글로벌 AI 경쟁력을 한층 끌어올린다는 구상이다.

핵심은 멀티모달 확장이다. 크래프톤은 이번에 음성과 시각 정보를 처리하는 모델을 한꺼번에 공개하며 AI 기술 외연을 넓혔다. 특히 게임사로 알려진 기업이 음성·비전 분야 모델을 동시에 내놓았다는 점에서 시장의 시선이 쏠린다.

‘Raon-Speech’는 텍스트 중심 언어모델을 음성 이해와 생성까지 가능하도록 확장한 모델이다. 90억개 파라미터 규모로, 크래프톤은 100억개 미만 공개 음성 언어모델 가운데 한국어와 영어 모두에서 글로벌 1위 성능을 기록했다고 설명했다. 음성 텍스트 변환, 텍스트 음성 변환, 음성 질의응답 등 7개 핵심 과제와 40개 벤치마크를 종합 평가한 결과라는 것이다.

‘Raon-SpeechChat’은 실시간 양방향 음성 대화에 초점을 맞춘 모델이다. 사용자가 말하는 도중에도 자연스럽게 끼어들기와 응답이 가능한 풀듀플렉스 기술을 적용했다. 크래프톤은 이를 국내 최초의 실시간 양방향 음성 모델로 소개했다.

‘Raon-OpenTTS’는 공개 음성 데이터만으로 학습한 텍스트 음성 변환 모델이다. 학습 데이터까지 함께 공개해 동일한 환경에서 재현 가능한 구조를 마련한 점이 특징이다. 연구자와 개발자가 직접 검증하고 활용할 수 있도록 문턱을 낮췄다는 의미가 있다.

‘Raon-VisionEncoder’는 이미지를 AI가 이해할 수 있는 정보로 바꿔주는 비전 인코더다. 공개 데이터만 활용해 사전 학습 모델 없이 처음부터 자체 학습했다. 크래프톤은 일부 시각 인식 과제에서 구글의 시글립2(SigLIP2)를 웃도는 결과를 냈고, 다른 과제에서도 90% 이상의 성능을 보였다고 밝혔다.

업계에서는 크래프톤의 이번 행보를 게임사 차원의 AI 활용을 넘어 독자 모델 확보 경쟁에 나선 것으로 보고 있다. 크래프톤은 이미 개인용 AI 비서 ‘키라(KIRA)’를 선보였고, 최근에는 AI 에이전트 성능 개선 기술인 ‘터미너스-키라’도 오픈소스로 공개한 바 있다. 게임 안팎에서 AI 기술 축적 속도를 높이고 있는 셈이다.

이강욱 크래프톤 CAIO는 “이번 라온 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표”라며 “핵심 모델과 대규모 학습 데이터를 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 국내 AI 생태계 성장에도 기여하겠다”고 말했다.

크래프톤, AI 브랜드 ‘라온’ 출범…첫 모델 4종 오픈소스 공개

IT/과학

추천 뉴스