"보안 요구 큰 금융권 겨냥해 LLM 평가도구 만들었죠"

IT/과학

이데일리,

2025년 4월 03일, 오후 07:10

[이데일리 최연두 기자] 국내 금융사들이 보안과 규제 문제로 클라우드 기반 인공지능(AI) 모델 활용에 제약을 받는 가운데, 오픈소스 거대언어모델(LLM)을 자체 서버에 탑재해 도입하려는 움직임이 확산되고 있다. 이에 대응해 LG CNS는 금융사들이 내부 환경에 적합한 모델을 사전에 검증할 수 있도록 지원하는 ‘금융 LLM 평가 도구’를 개발했다.

(왼쪽부터) LG CNS AI센터 어드밴스드 젠AI랩의 황윤구 팀장, 이민형 선임, 강민수 선임이 지난 1일 서울 강서구 LG CNS 본사에서 인터뷰를 진행했다. (사진=최연두 기자)
황윤구 LG CNS AI센터 어드밴스드 젠AI랩 팀장은 지난 1일 서울 강서구 LG CNS 본사에서 진행된 이데일리와의 인터뷰에서 “금융 분야는 AI에 대한 수요는 많지만 실제 도입은 어려운 대표적 영역”이라며 “폐쇄망 환경과 보안 리스크 등으로 인해 진입 장벽이 높다”고 말했다.

이어 “해외 클라우드 기반이나 오픈AI 서비스는 사용 자체가 불가능한 금융사도 많아 오픈소스 LLM을 온프레미스(자체 서버) 환경에 직접 탑재하는 방식이 필요하다”고 설명했다.

최근 중국 LLM ‘딥시크’는 정보 유출 우려와 낮은 정확도로 금융권에서 도입을 꺼리는 분위기다. 실제 LG CNS가 지난 2월 공개한 금융 특화 LLM 평가도구에서도 딥시크는 총점 기준 하위 3위 안에 머물렀다. 평가도구 개발에 참여한 강민수 선임은 “딥시크는 모델 크기와 무관하게 주요 항목에서 점수가 낮았고, 전체 리더보드에서도 하위권에 그쳤다”고 밝혔다.

LG CNS가 개발한 이번 평가도구는 금융사의 내부 시스템에 적합한 LLM을 선별하는 데 필요한 정밀한 기준을 제공한다. 젠AI랩 팀은 금융 도메인 전문가들과 협업해 총 29개의 평가 과제를 정의하고, 약 1200개 이상의 비공개 문항으로 구성된 평가 데이터셋을 구축했다.

황 팀장은 “기존 한국어 LLM 리더보드는 대부분 수능형 문제 위주여서 금융 문맥이나 전문 용어 이해도를 평가하기엔 부족했다”며 “당사의 데이터셋은 금융 전문성 평가에 초점을 두고, AI가 환각(hallucination)을 일으키거나 지문 외 내용을 말하는지 등을 세밀하게 검증한다”고 강조했다.

강민수 AI센터 어드밴스드 젠AI랩 선임이 금융 맞춤형 거대언어모델(LLM) 평가도구를 소개하고 있다. (사진=LG CNS)


이번 평가도구는 금융 서비스의 특성과 목적에 따라 적합한 LLM이 달라질 수 있다는 점을 반영해 설계됐다. 예를 들어 고객 응대용 챗봇과 자산관리 보고서 생성처럼 과업의 성격이 다르면 동일한 모델이라도 성능에 차이가 발생할 수 있다. 이에 따라 평가도구는 총 29개의 과업(Task)별로 세분화된 점수를 제공하며, 금융사가 수행하고자 하는 업무에 맞춰 최적의 모델을 선택할 수 있도록 구성됐다.

LG CNS 젠AI랩은 앞으로 고객 수요와 기술 변화에 따라 평가 항목을 지속적으로 추가하거나 조정할 계획이다. 황윤구 팀장은 “AI 모델을 도입할 때 소문이나 주관적 인상에 의존하는 경우가 많은데, 객관적인 평가 지표가 있어야 파인튜닝 여부나 도입 시점을 합리적으로 판단할 수 있다”고 강조했다.

이어 “올해는 금융 평가도구를 고도화하는 동시에 실제 고객사에 적용을 확대하는 것이 목표”라며 “LLM 도입이 필요한 기업들에게 신뢰할 수 있는 기준점을 제공하겠다”고 밝혔다. 또한 “여건이 허락된다면 향후 공공, 제조 등 다양한 산업에 특화된 평가도구도 개발하고 싶다”고 덧붙였다.