엑사원보다 A.X가 높았다…카카오가 짚은 AI ‘실전력’의 차이(톱)

IT/과학

이데일리,

2026년 2월 22일, 오후 04:56

[이데일리 김현아 기자] SK텔레콤의 ‘A.X-K1’은 69.94점, LG AI연구원의 ‘K-EXAONE-236B-A23B’는 58.30점을 기록했다. 정부의 ‘독자 AI 파운데이션 모델’ 평가에서 1위를 차지한 LG 엑사원 모델이 SKT A.X는 물론 업스테이지 ‘Solar-Open-100B’(67.05점), 카카오 ‘kanana-2-30b-a3b-thinking-2601’(66.22점)보다 낮은 점수를 받은 것이다. 네이버 ‘HyperCLOVAX-SEED-Think-32B’도 54.36점에 머물렀다. 같은 시험에서 순위가 뒤집힌 것은 아니다. 독파모 평가나 AAII 같은 지표가 거대언어모델(LLM)의 ‘답변 성능’을 본다면, 이번 결과의 기준이 된 카카오의 AI 모델 오케스트레이션 능력평가 벤치마크는 ‘실행 지휘 능력’을 평가한다.

이데일리는 오케스트레이션 벤치마크를 개발해 ICLR(국제표현학습학회) 2026에 논문이 채택된 카카오 AI서치에이전트의 안애림 매니저(제1저자), 김민석 리더(교신저자)를 만났다.

점수 차이의 본질은 ‘성능 우열’보다 ‘평가 목적의 차이’

안애림 매니저는 이번 점수 차이를 단순한 성능 우열이 아니라 모델별 학습 데이터 구성과 플래닝 역량 차이로 봐야 한다고 설명했다. 그는 “LLM 오케스트레이션 벤치마크는 사용자의 요구를 잘게 나누고 순서에 맞춰 실행하는 능력을 평가한다”며 “독파모에서 성능이 좋았던 모델이 여기서 낮게 나올 수 있는 건 평가 대상과 목적이 다르기 때문”이라고 말했다.

이어 LG AI연구원 모델이 신약 개발 등 B2B 용도로 개발돼 B2C 관련 데이터 학습이 상대적으로 덜 됐을 가능성에 대해서도 “충분히 영향을 미칠 수 있다”고 했다. B2C에 강한 모델은 연속적인 사용자 요청 처리 데이터가 많이 들어갔을 가능성이 크고, 일부 모델은 단일 답변 생성에 더 특화됐을 수 있다는 취지다.

단일 모델 경쟁에서 ‘에이전트 협업’ 경쟁으로

카카오가 이 벤치마크를 만든 배경에는 AI 서비스 구조 변화가 있다. 거대한 단일 모델 하나가 답을 내는 방식보다, 여러 모델이 협업하고 다양한 도메인·외부 도구와 연결돼 일을 처리하는 ‘AI 에이전트’ 형태가 더 중요해질 것이라는 판단이다. 김민석 리더는 “과거에는 서비스마다 파인튜닝해 내보내는 방식이 주류였지만, 이제는 여러 LLM을 오케스트레이션해 함께 쓰는 방향으로 바뀌고 있다”며 “카카오 AI 서비스에 필요한 평가 기준이어서 논문으로 정리했다”고 설명했다. 이들은 실제 서비스에서 중요한 것은 ‘정답’ 자체보다 ‘실행 과정’이라고 강조했다. 예를 들어 카카오톡 선물하기가 AI 에이전트화됐을 때 “민지에게 1000원짜리 선물을 추천하고 결제해달라”는 요청이 들어오면, AI는 여러 ‘민지’ 중 대상을 구분하고 비현실적인 예산은 재질의하거나 대안을 제시해야 한다. 무리하게 실행하지 않고 적절히 멈추는 판단도 평가 대상이라는 뜻이다.

플래닝·툴 실행 분리 평가…실서비스형 벤치마크

이번 벤치마크는 플래닝과 툴 실행 능력을 분리해 평가하고, 특정 프레임워크·내부 시스템에 종속되지 않도록 설계해 MCP 등 표준·API 구현 방식에 따른 유불리를 최소화했다. 여행·쇼핑·금융·교통·일정관리 등 17개 도메인과 100여 개 가상 도구를 통해 실제 서비스와 유사한 제약조건도 반영했다.

예컨대 쇼핑에는 추천·결제·취소·환불, 예약에는 브레이크타임·휴무일·예약 단위 같은 현실 조건을 넣었고, 불가능한 요청에는 단순 실패가 아니라 대안 제시까지 보도록 했다. 평가셋은 AI 합성이 아닌 사람이 직접 설계했으며, 요구 변경·추가 질문 등 실제 흐름을 반영하고 3인 이상 교차 검증을 거쳐 명확한 기준으로 채점 가능한 문제 중심으로 구성했다.

김 리더는 이번 연구가 ‘논문용’이 아니라 실제 서비스 개발 과정에서 나온 문제의식에서 출발했다고 강조했다. 범용 LLM 성능 지표와 실제 서비스 품질 사이의 간극을 체감했고, 그 결과 서비스 전용 평가 지표의 필요성이 커졌다는 설명이다. 그는 “카카오는 모델보다 서비스로 승부한다”며, 자체·제휴 모델을 가리지 않고 사용자에게 최적 품질을 합리적 비용으로 제공하는 조합이 핵심이라고 밝혔다.

추천 뉴스