정부, 공공 AI 학습 데이터 첫 전수조사…'데이터 곳간' 연다

IT/과학

이데일리,

2026년 4월 10일, 오전 12:01

정부세종청사 과학기술정보통신부.
[이데일리 한광범 기자] 정부가 인공지능(AI) 경쟁력의 핵심인 고품질 학습용 데이터 확보를 위해 전 부처를 대상으로 한 첫 전수조사에 착수한다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 각 부처 및 공공기관이 보유한 AI 학습용 데이터 현황을 체계적으로 파악하고 고품질 데이터 확보 기반을 마련하기 위해 4월 10일부터 ‘AI 학습용 데이터 센서스’를 실시한다고 10일 밝혔다.

이번 조사는 생성형 AI 확산으로 산업과 공공 전반에서 AI 활용 수요가 급증하는 상황에서 마련됐다. 현재 공공기관이 보유한 데이터가 기관별로 분산 관리돼 활용에 한계가 있다는 지적에 따라, AI 기본법 제15조를 근거로 데이터 현황을 체계적으로 진단하겠다는 취지다.

이번 센서스는 단순한 현황 파악을 넘어 실제 AI 학습에 활용 가능한 데이터 후보군을 도출하는 데 중점을 둔다. 조사 항목은 데이터의 유형과 구조, 구축 목적, 제공 가능 범위 등 AI 학습 활용 가능성과 직결되는 요소들을 중심으로 구성됐다.

과기정통부는 이번 조사를 통해 AI 학습 활용 가능성이 높은 데이터 100종을 발굴할 계획이다. 선정된 데이터는 60억 원 규모의 예산을 투입해 품질 보완과 비식별 조치 등 기술적·재정적 지원을 거쳐 ‘AI 학습용 데이터 통합제공체계’를 통해 제공된다. 온라인 공개가 어려운 데이터의 경우 보안 대책이 갖춰진 ‘데이터 안심구역’을 통해 분석과 활용을 지원할 예정이다.

동시에 정부는 기존 ‘AI허브’를 ‘AI 학습용 데이터 통합제공체계’로 고도화하는 작업도 병행한다. 이를 통해 공공과 민간의 데이터를 통합적으로 관리하고, 데이터의 발굴부터 확보, 활용으로 이어지는 선순환 구조를 구축한다는 구상이다.

김경만 과기정통부 인공지능정책실장은 “AI 성능과 품질의 핵심은 활용 가능한 풍부한 데이터에 있다”며 “이번 조사를 통해 공공부문이 보유하고 있는 AI 학습용데이터 자산을 체계적으로 발굴하고 이를 편리하게 활용할 수 있는 AI 학습용데이터 통합제공 기반을 지속적으로 발전시켜 나가겠다”고 밝혔다.

추천 뉴스