
(왼쪽부터) LG CNS AI센터 어드밴스드 젠AI랩의 황윤구 팀장, 이민형 선임, 강민수 선임이 지난 1일 서울 강서구 LG CNS 본사에서 인터뷰를 진행했다. (사진=최연두 기자)
이어 “해외 클라우드 기반이나 오픈AI 서비스는 사용 자체가 불가능한 금융사도 많아 오픈소스 LLM을 온프레미스(자체 서버) 환경에 직접 탑재하는 방식이 필요하다”고 설명했다.
최근 중국 LLM ‘딥시크’는 정보 유출 우려와 낮은 정확도로 금융권에서 도입을 꺼리는 분위기다. 실제 LG CNS가 지난 2월 공개한 금융 특화 LLM 평가도구에서도 딥시크는 총점 기준 하위 3위 안에 머물렀다. 평가도구 개발에 참여한 강민수 선임은 “딥시크는 모델 크기와 무관하게 주요 항목에서 점수가 낮았고, 전체 리더보드에서도 하위권에 그쳤다”고 밝혔다.
LG CNS가 개발한 이번 평가도구는 금융사의 내부 시스템에 적합한 LLM을 선별하는 데 필요한 정밀한 기준을 제공한다. 젠AI랩 팀은 금융 도메인 전문가들과 협업해 총 29개의 평가 과제를 정의하고, 약 1200개 이상의 비공개 문항으로 구성된 평가 데이터셋을 구축했다.
황 팀장은 “기존 한국어 LLM 리더보드는 대부분 수능형 문제 위주여서 금융 문맥이나 전문 용어 이해도를 평가하기엔 부족했다”며 “당사의 데이터셋은 금융 전문성 평가에 초점을 두고, AI가 환각(hallucination)을 일으키거나 지문 외 내용을 말하는지 등을 세밀하게 검증한다”고 강조했다.

강민수 AI센터 어드밴스드 젠AI랩 선임이 금융 맞춤형 거대언어모델(LLM) 평가도구를 소개하고 있다. (사진=LG CNS)
이번 평가도구는 금융 서비스의 특성과 목적에 따라 적합한 LLM이 달라질 수 있다는 점을 반영해 설계됐다. 예를 들어 고객 응대용 챗봇과 자산관리 보고서 생성처럼 과업의 성격이 다르면 동일한 모델이라도 성능에 차이가 발생할 수 있다. 이에 따라 평가도구는 총 29개의 과업(Task)별로 세분화된 점수를 제공하며, 금융사가 수행하고자 하는 업무에 맞춰 최적의 모델을 선택할 수 있도록 구성됐다.
LG CNS 젠AI랩은 앞으로 고객 수요와 기술 변화에 따라 평가 항목을 지속적으로 추가하거나 조정할 계획이다. 황윤구 팀장은 “AI 모델을 도입할 때 소문이나 주관적 인상에 의존하는 경우가 많은데, 객관적인 평가 지표가 있어야 파인튜닝 여부나 도입 시점을 합리적으로 판단할 수 있다”고 강조했다.
이어 “올해는 금융 평가도구를 고도화하는 동시에 실제 고객사에 적용을 확대하는 것이 목표”라며 “LLM 도입이 필요한 기업들에게 신뢰할 수 있는 기준점을 제공하겠다”고 밝혔다. 또한 “여건이 허락된다면 향후 공공, 제조 등 다양한 산업에 특화된 평가도구도 개발하고 싶다”고 덧붙였다.