최근 ChatGPT, Claude, Gemini 등 대형 상용 LLM과 1B~35B 규모의 중소형 언어모델이 빠르게 확산되면서 기업들의 생성형 AI 도입 결정은 더욱 복잡해지고 있다. 특히 콜봇은 단순 문장 생성 능력뿐 아니라 음성 대화 흐름, 지식 기반 응답 정확성, 부적절 응답 거부, 상담 시나리오 적합성, 지연시간 등 운영 환경에 특화된 품질 검증이 필수적이다.
류기동 박사는 ‘MMLU, GSM8K’와 같은 범용 벤치마크만으로는 콜봇용 모델의 실제 서비스 품질을 충분히 예측하기 어렵다고 지적하며, 이번 연구가 NIST AI RMF, OWASP, RAGAS 등 9개 핵심 문헌에서 도출한 63개 품질 항목과 VUI(Voice User Interface) 특성을 콜봇 도메인에 맞춰 6개 평가 영역으로 재구성한 점에 의의를 뒀다.
연구는 반드시 통과해야 하는 최소 품질 기준인 ‘게이팅(Gating)’과 모델 간 다차원 비교를 위한 ‘스코어카드(Scorecard)’를 분리한 이중 채점 체계를 제안했다. 이를 통해 기업은 콜봇 도입 전 후보 모델의 사용 가능 여부를 선별하고, 실제 운영 목적에 맞는 모델을 보다 체계적으로 비교할 수 있다.
ECS텔레콤은 이 평가 체계를 자사 AICC 플랫폼의 모델 검증, 도입, 운영 사이클에 적용해 고객사의 콜봇 도입 컨설팅과 품질 관리에 활용할 계획이다. 또한 후속 연구를 통해 ‘파인튜닝 용이도(Fine-tuning Readiness)’ 부지표를 추가하고, 콜봇 맞춤형 sLLM 개발 및 개선 과정의 품질 점검 도구로 확장할 예정이다.
한편 1999년 설립된 ECS텔레콤은 금융, 공공, 통신, 이커머스 등 주요 산업의 컨택센터 구축과 운영을 지원해 왔으며, 최근에는 자체 AICC 플랫폼을 기반으로 콜봇, 챗봇, 상담 지원, 지식 관리 등 생성형 AI 기반 컨택센터 솔루션을 공급하고 있다.









