플리토, 38억 규모 국립국어원 ‘한국어-외국어 말뭉치 구축 사업’ 수주(사진=플리토)
플리토는 경희대학교 산학협력단과 함께 공동 수행사로 참여해 545만 어절의 텍스트와 50만 어절의 음성 데이터를 포함한 총 595만 어절 규모의 병렬 말뭉치 구축을 맡는다. 구축 대상 언어는 기존 9개 언어에 아랍어를 추가한 총 10개 언어다.
특히 올해는 문장 단위 중심에서 문단 단위로 말뭉치를 확장하고, 음성 기반 STS(Speech to Speech) 데이터도 함께 구축해 AI 번역 및 음성 인터페이스 성능 개선에 활용할 계획이다.
플리토는 데이터 정제 및 검수 체계 고도화, 평가 기준 및 도구 개발 등 품질 관리 작업도 병행한다. 이번 사업을 포함하면 플리토가 구축한 누적 말뭉치는 약 6100만 어절에 이를 전망이다.
구축된 데이터는 동남아시아 등 저자원 언어 데이터 부족 문제를 해소하고, 글로벌 AI 기술 격차 완화와 차세대 번역 모델 개발에 활용될 것으로 기대된다.
이정수 플리토 대표는 “언어 데이터 전문성과 품질을 인정받아 사업에 참여하게 됐다”며 “정부 및 연구기관과 협력해 고품질 AI 데이터 공급을 확대해 나가겠다”고 말했다.









