앤트로픽, '클로드 오퍼스 4.7' 출시…"GPT·제미나이 압도"

IT/과학

이데일리,

2026년 4월 17일, 오전 01:07

앤트로픽(Anthropic). (REUTERS)
[이데일리 한광범 기자] 앤트로픽(Anthropic)이 자사 최신 인공지능(AI) 모델인 ‘클로드 오퍼스 4.7(Claude Opus 4.7)’을 2026년 4월 16일(현지시간) 공식 출시했다.

이번 모델은 전작인 오퍼스 4.6을 직접적으로 업그레이드한 버전으로, 특히 고난도 소프트웨어 엔지니어링과 비전 기능, 전문 업무 수행 능력에서 비약적인 발전을 이뤄냈다고 앤트로픽은 설명했다.

가장 눈에 띄는 변화는 자율적인 코딩 능력의 강화다. 오퍼스 4.7은 스스로 논리적 결함을 파악하고 실행을 가속화하며, 복잡하고 긴 시간이 소요되는 작업을 일관성 있게 처리한다. 벤치마크 결과, 에이전트 코딩 성능을 측정하는 ‘SWE-bench Pro’에서 64.3%를 기록해 GPT-5.4(57.7%)와 제미나이 3.1 프로(54.2%) 등 비교군 모델들을 앞질렀다.

깃허브(GitHub) 테스트에서는 오퍼스 4.6이나 소네트 4.6이 해결하지 못한 과제를 포함해 해결률이 13% 향상됐다. 라쿠텐(Rakuten)은 실제 생산 환경의 과제 해결 능력이 오퍼스 4.6 대비 3배 높아졌다고 평가했다.

시각 정보 처리 능력인 비전(Vision) 기능도 대폭 개선됐다. 이전 모델보다 3배 이상 높은 최대 375만 화소(2,576 픽셀)의 고해상도 이미지를 지원하며, 이를 통해 복잡한 기술 도표 해석이나 정밀한 스크린샷 분석이 가능해졌다.

실제 엑스보우(XBOW)의 시각적 예민도(visual-acuity) 테스트에서는 오퍼스 4.6(54.5%)을 크게 웃도는 98.5%의 점수를 기록했다. 솔브(Solve)는 이 기능을 활용해 생명과학 분야의 특허 워크플로우를 구축하고 있다.

클로드 오퍼스 4.7 주요 성능 벤치마크 비교표. (앤트로픽 제공)
전문 지식 업무에서도 일반 공개 모델 중 최고 수준의 성능을 입증했다. 경제적 가치가 있는 지식 업무를 평가하는 ‘GDPval-AA’에서 1,753점을 기록해 GPT-5.4(1,674점)와 제미나이 3.1 프로(1,314점)를 제치고 상위권에 올랐다.

법률 분야에서는 하비(Harvey)의 대형 로펌 벤치마크(BigLaw Bench)에서 90.9%의 정확도를 보였고, 데이터브릭스(Databricks)의 문서 질의응답 테스트인 ‘OfficeQA Pro’에서는 오퍼스 4.6 대비 오류를 21% 줄였다. 노션(Notion)은 오퍼스 4.7이 도구 오류를 3분의 1로 줄이며 팀원과 같은 신뢰도를 보여준다고 평가했다.

안전성 면에서는 ‘프로젝트 글래스윙(Project Glasswing)’의 원칙이 처음으로 적용됐다. 앤트로픽은 모델의 사이버 보안 공격 역량을 의도적으로 낮추는 실험을 진행했으며, 고위험 사이버 보안 요청을 감지하고 차단하는 자동 안전장치를 도입했다.

다만 오퍼스 4.7은 일반 공개 모델 중 최고 성능일 뿐, 사이버 역량과 정렬성 면에서 가장 뛰어난 최상위 모델인 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’와는 별개로 운영된다. 미토스 프리뷰는 현재 사이버 보안 전문가 및 핵심 파트너들에게만 제한적으로 제공되고 있다.

새로운 기능으로 ‘하이(high)’와 ‘맥스(max)’ 사이에 ‘xhigh(extra high)’ 노력 수준 단계를 신설해 추론 깊이를 세밀하게 제어할 수 있게 했고, 개발자가 토큰 지출을 관리할 수 있는 ‘태스크 버짓(task budgets)’ 기능을 퍼블릭 베타로 출시했다.

앤트로픽의 공동 창립자이자 최고기술책임자(CTO)인 이고르 오스트로브스키(Igor Ostrovsky)는 “앤트로픽은 이미 코딩 모델의 표준을 세웠으며, 클로드 오퍼스 4.7은 시장에서 가장 최첨단 모델로서 그 표준을 한 단계 더 의미 있게 밀어붙였다”고 강조했다.

이어 “이 모델은 단순히 원시적인 성능만 뛰어난 것이 아니라 자동화, CI/CD, 장기 실행 작업 등 실제 환경의 비동기 워크플로우를 매우 잘 처리한다”며 “단순히 사용자의 의견에 동의하기보다 문제에 대해 더 깊이 고민하고 주관 있는 관점을 제시한다”고 밝혔다.

이용 가격은 기존과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 유지된다. 다만 새로운 토크나이저 도입으로 동일 입력에 대해 토큰 사용량이 1.0~1.35배 늘어날 수 있다는 점은 주의가 필요하다. 현재 클로드 API, 아마존 베드록(Amazon Bedrock), 구글 클라우드 버텍스 AI(Vertex AI), 마이크로소프트 파운드리(Foundry)를 통해 즉시 이용 가능하다.

추천 뉴스