뉴스펍

2026학년도 대학수학능력시험이 치러진 13일 오전 광진구 광남고에 마련된 서울시교육청 제20시험지구 제3시험장에 입실을 완료한 수험생들이 막바지 점검을 하고 있다. 2025.11.13 © 뉴스1 사진공동취재단

인공지능(AI)의 수학 실력을 평가할 때 단순히 몇 문제를 맞혔는지만 봐서는 부족하다는 연구 결과가 나왔다. 같은 점수를 받은 AI 모델이라도 사람도 어려워한 문제를 틀렸는지, 사람이 쉽게 푼 문제에서 엉뚱하게 틀렸는지에 따라 문제를 푸는 방식이 다를 수 있다는 분석이다.

16일 정보기술(IT) 업계에 따르면 네이버클라우드 AI·카이스트 AI 소속 연구진은 최근 수능 수학 문항과 전국 수험생 오답률을 활용해 AI 추론 모델을 평가한 논문 'KCSAT-ML'을 공개했다.

연구진은 2014년부터 2025년까지 대학수학능력시험 수학 문항 664개를 모았다. 이 가운데 339개 문항에는 실제 수험생이 각 문제를 얼마나 틀렸는지 보여주는 공식 오답률을 함께 반영했다. 수십만명이 응시한 시험 통계를 AI 평가에 활용한 것이다.

기존 수학 평가용 문제들은 AI가 정답을 맞혔는지, 전체 정확도가 얼마인지에 주로 초점을 맞췄다. 반면 이번 연구는 문제마다 실제 수험생 오답률을 붙여 AI가 어떤 문제에서 틀리는지를 살폈다.

예를 들어 두 AI 모델이 모두 10문항 중 7문항을 맞혔다고 해도 의미는 다를 수 있다. 한 모델은 사람도 많이 틀린 어려운 문제에서 오답을 냈고, 다른 모델은 사람이 쉽게 맞힌 문제에서 틀렸다면 두 모델의 실력을 같다고 보기 어렵다.

연구진은 이를 분석하기 위해 AI의 오답이 실제 수험생 오답률과 얼마나 맞물리는지를 보는 새 지표인 '난이도 정렬 추론 성과'(DRG ·Difficulty-aligned Reasoning Gain)를 제시했다.

분석 결과 비슷한 정답률을 보인 모델들도 DRG 값은 크게 갈릴 수 있었다. 정확도만 보면 비슷해 보이는 모델이라도 실제로는 서로 다른 문제에서 틀릴 수 있다는 뜻이다.

AI가 답을 내기 전에 더 많은 연산 자원을 쓰도록 하는 방식의 효과도 문제 난이도에 따라 달랐다. 연구진은 사람이 많이 틀린 어려운 문제에서는 AI가 더 오래 생각하게 하는 방식이 성능 회복에 도움이 됐지만, 비교적 쉬운 문제에서는 오히려 지나치게 복잡하게 생각하다가 정답을 놓치는 경우도 나타났다고 분석했다.

이는 AI 성능 평가가 단순한 점수 경쟁을 넘어야 한다는 점을 보여준다. 현재 AI 모델은 수학·코딩·상식·언어 등 각종 평가 점수로 비교되는 경우가 많다. 그러나 점수가 같더라도 어떤 문제를 틀렸는지에 따라 실제 활용 신뢰도는 달라질 수 있다.

이번 연구는 한국 수능 데이터의 활용 가능성도 보여준다. 수능은 매년 표준화된 방식으로 시행되고, 문항별 응시자 통계가 축적돼 있다. 연구진은 이런 통계가 AI의 수학 문제 해결 능력을 더 세밀하게 평가하는 데 쓰일 수 있다고 봤다.

업계에서는 AI가 단순 계산을 넘어 복잡한 판단이 필요한 영역에 활용되는 만큼 평가 방식도 정답률 중심에서 벗어날 필요가 있다는 지적이 나온다. 특히 교육·의료·금융처럼 실수가 큰 피해로 이어질 수 있는 분야에서는 AI가 어려운 문제를 틀리는지, 쉬운 문제에서 예상 밖 오류를 내는지 구분하는 평가가 중요해질 수 있다.

연구진은 정확도만으로는 서로 다른 문제 풀이 양상을 구분하기 어렵다며, 수능처럼 실제 응시자 통계가 있는 시험 데이터가 AI 추론 능력을 평가하는 새 기준으로 활용될 수 있다고 설명했다.

kxmxs4104@news1.kr

수능 문제로 AI 성능 평가해보니…정답률만으론 실력 구분 한계

IT/과학

추천 뉴스