고려대는 컴퓨터학과 정연돈 교수 연구팀이 판결문 속 개인정보를 빠르고 정확하게 비식별화할 수 있는 고성능 AI 모델 ‘KLUEBERT-CRF’를 개발했다고 15일 밝혔다.
대한민국 헌법에 따라 재판의 심리와 판결은 공개가 원칙이지만, 그간 개인정보 보호를 위해 성명이나 주소 등을 가리는 작업을 사람이 수작업으로 진행하며 문서 한 건당 약 2주가 소요되는 등 심각한 병목 현상이 발생해 왔다.
정연돈 교수 연구팀은 39개 법률 분야의 판결문과 SNS 대화 데이터 등을 결합해 구축한 약 100만 건의 대규모 학습 데이터셋 ‘K-LegalDeID’를 활용해 이 문제를 해결했다.
고려대 컴퓨터학과 정연돈 교수 연구팀. (사진=고려대)
비식별화 정확도를 평가하는 ‘개체 수준 마이크로 F1 점수’에서 0.9923을 기록했으며, 모델의 파라미터 규모를 기존 대비 20배 가벼운 1억 1천만 개 수준으로 설계해 메모리 사용량을 대폭 절감하고 실용성을 극대화했다.
연구팀은 “고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다”며 “판결문 비식별화 업무를 자동화함으로써 판결문 공개를 획기적으로 확대하고 사법 투명성을 높이는 데 기여할 것”이라고 밝혔다.
이번 연구 성과는 지난달 모로코 라바트에서 개최된 자연어 처리 분야의 세계적 권위 학회 ‘EACL 2026’에서 발표되었으며, 국내 특허로도 출원됐다. 해당 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업과 한국연구재단 이공분야기초연구사업의 지원을 받아 수행됐다









