지난 23일 서울 삼성동 본사에서 만난 김태수 네오사피엔스 대표는 음성을 통해 AI와 대화하는 시장이 본격적으로 열릴 것으로 내다봤다. 시장조사업체 모도인텔리전스에 따르면 글로벌 음성인식 시장은 2024년 149억5000만 달러(약 20조원)에서 2029년 420억8000만 달러(약 56조원)로 성장할 전망이다.
김태수 네오사피엔스 대표(사진=네오사피엔스)
김 대표는 자타공인 ‘음성 AI’에 진심인 사람이다. 카이스트 석·박사 시절부터 음성 추출과 머신러닝을 연구했고, 2001년에 음성으로 조명을 제어하는 ‘홈 AI’ 기술을 개발하기도 했다. 이후 LG전자(066570)와 퀄컴을 거치면서 스마트폰 마이크가 주변 소리를 인식하고 반응하는 기술을 연구했다. 실제 그가 쓴 20여편의 논문은 관련 학계와 산업계에서 다수 인용됐다.
이후 2017년 음성AI 기술을 활용해 세상을 바꾸겠다는 신념으로 네오사피엔스를 창업했다. 네오사피엔스는 2020년 이데일리 제1회 AI코리아대상에서 과학기술정보통신부 장관상을 받으며 일찌감치 기술력을 인정받기도 했다.
김 대표는 “현재 네오사피엔스는 국내 AI 보이스 시장에서 가장 존재감 있는 기업”이라며 “주력 서비스인 타입캐스트는 660여 명의 AI 성우와 37개 언어를 지원하며, 이미 누적 이용자 240만명을 돌파했다”고 강조했다.
이제 유튜브나 네이버 치지직 등 개인방송에서 타입캐스트 AI 성우를 쓰는 장면은 손쉽게 찾아볼 수 있다. 블랙핑크 제니의 유튜브에서 화제가 된 ‘인간극장’ 영상, 하나투어(039130)가 선뵌 쿼카 더빙 영상 등도 타입캐스트를 활용한 사례다.
김태수 네오사피엔스 대표(사진=네오사피엔스)
네오사피엔스는 올해 상반기 ‘대화형 AI 에이전트’를 정식 출시하며 AI 비즈니스의 제2막을 연다는 계획이다. 최근 국내에서 인기를 끌고 있는 ‘제타’나 ‘뤼튼’ 같은 대화형 AI가 주로 텍스트 기반의 웹소설이나 채팅 게임 형태였다면, 네오사피엔스는 이를 생생한 ‘보이스 인터랙션’으로 확장한다.
김 대표는 “유튜브 라이브 소통이 문자 채팅보다 강력하듯, 음성 대화는 장르 자체가 다르다”며 “내가 좋아하는 캐릭터나 개인화된 인플루언서가 나대신 온갖 일을 해주는 ‘영화 HER’ 속 세계관이 현실화되는 것”이라고 설명했다.
네오사피엔스의 핵심 무기는 자체 개발한 음성 생성 파운데이션 모델 ‘SSFM(Speech Synthesis Foundation Model)’이다. 전 세계 37개 언어, 130만 시간 분량의 데이터를 학습한 이 모델은 현재 버전 3까지 고도화됐다.
김 대표는 “우리의 SSFM은 텍스트와 음성 토큰을 동시에 생성하는 데 최적화되어 있다”며 “사람이 성대모사를 할 때 트럼프의 발성 스타일과 감정 톤을 머릿속에서 조합하듯, 우리 AI도 스크립트가 주어지면 660여 명의 데이터베이스 중 가장 적합한 페르소나를 골라 자연스러운 음성을 내뱉는다”고 했다.
이같은 AI 기술을 바탕으로 네오사피엔스는 작년 매출 100억원을 기록했다. 특히 북미, 일본, 베트남 등 해외에서도 뜨거운 관심을 보이고 있다. 글로벌 기업인 ‘일레븐랩스’ 등과 경쟁하는 상황에서도 한국 시장의 점유율은 압도적이며, 글로벌 기업들도 API(응용프로그램인터페이스)를 통해 네오사피엔스의 기술을 채택하고 있다.
네오사피엔스는 현재 대신증권을 주관사로 선정하고, 올해 기술특례 상장(IPO)을 준비하고 있다. 기술력과 사업성을 동시에 입증해 온 만큼 시장의 기대감도 높다.
AI 음성 도용과 딥페이크 논란에 대해서도 선제적으로 대응하고 있다. 김 대표는 “이미 모든 생성물에 사람의 귀로는 들리지 않는 오디오 워터마크를 삽입해, 시스템적으로 진위 판별이 가능하도록 구축했다”고 설명했다.
김 대표는 이어 “앞으로 기업이 내놓은 AI가 고객의 전화를 받고, 매장에서 직접 인사를 건네는 ‘AI 목소리 브랜드’ 시대가 열릴 것”이라며 “기업과 고객이 만나는 접점에서 가장 호감 가는 목소리를 제공하는 것이 우리의 목표”라고 말했다.









