국립국어원, 한국어 말뭉치 218만 어절 추가 공개

생활/문화

이데일리,

2025년 8월 29일, 오후 05:55

[이데일리 김미경 기자] 국립국어원은 오는 29일부터 한국어 학습자 말뭉치 218만 어절을 추가로 공개한다.

한국어 학습자 말뭉치는 외국인들이 한국어를 학습하면서 만들어 낸 외국어로서의 한국어 학습 자료를 컴퓨터와 사람이 활용할 수 있는 자료로 가공한 것이다.

‘말뭉치’란 언어학 용어인 코퍼스(corpus)에 대응하는 우리말 표현으로, 언어 연구를 위해 컴퓨터가 처리할 수 있도록 가공해 모아 놓은 언어 자료를 의미한다.

2015년 기초 연구를 시작해 올해 한국어 학습자 말뭉치 구축 10년을 맞는 국어원은 218만 어절을 추가한 총 1588만 어절의 한국어 학습자 말뭉치(이하 말뭉치)를 공개한다. 이는 108개 언어권 한국어 학습자들의 표본을 수집해 구축한 방대한 양이다.

한국어 학습자의 글쓰기, 말하기 자료를 수집해 기본이 되는 ‘원시 말뭉치’를 구축하고, 이 원시 말뭉치를 바탕으로 단어의 구성 및 품사 정보 등을 달아 ‘형태 주석 말뭉치’를, 학습자의 오류 정보를 달아 ‘오류 주석 말뭉치’를 구축한다.

국어원은 “이렇게 만들어진 말뭉치는 한국어 연구, 사전 편찬, 기계 번역 연구 등 다양한 용도로 활용된다. 특히 말뭉치를 통해 외국인의 한국어 사용 양상을 확인할 수 있고, 자주 틀리는 어휘, 문법, 표현 등을 분석할 수 있어 효과적인 한국어 교수법을 마련하거나 한국어 교재 제작할 때 큰 도움을 준다”고 말했다.

국어원은 한국어교원과 연구자들이 손쉽게 말뭉치를 활용할 수 있도록 ‘한국어 학습자 말뭉치 나눔터’를 통해 공개·배포하고, 통계 및 검색 서비스도 제공하고 있다. 또한 국어원에서 주최하고 연세대 산학협력단이 주관하는 ‘한국어 학습자 말뭉치 아카데미’도 이달부터 12월까지 4회에 걸쳐 운영한다.

국어원 관계자는 “인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다”며 “한국어 학습자 말뭉치의 데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다”고 말했다.

추천 뉴스