순다르 피차이 구글 및 알파벳 CEO (사진=AFP)
AI는 크게 두 단계를 거친다. 먼저 데이터를 학습해 모델을 만드는 단계가 있고, 이후 사용자의 질문에 답하거나 서비스를 제공하는 단계가 있다. 이 두 과정은 겉보기에는 비슷해 보이지만, 실제로는 필요한 기술이 완전히 다르다.
학습은 방대한 데이터를 반복적으로 분석해 패턴을 찾는 과정이다. 수십억 개의 데이터를 동시에 처리해야 하기 때문에 막대한 연산 능력이 필요하다. 반면 추론은 이미 학습된 모델을 기반으로 즉각적인 답을 내놓는 단계다. 여기서는 속도와 지연시간, 즉 “얼마나 빨리 답을 주느냐”가 핵심이다.
이를 일상적으로 풀면, 학습은 ‘공부’, 추론은 ‘시험’에 가깝다. 공부할 때는 많은 문제를 풀어야 하니 체력과 시간이 중요하고, 시험에서는 빠르게 정확한 답을 내는 능력이 중요하다. 구글은 이 차이에 주목해 각각에 최적화된 칩을 따로 만든 것이다.
구글 클라우드 컴퓨트·AI 인프라 담당 부사장인 마크 로메이어는 “거래 건수는 급증하고 있는 반면, 건당 비용은 낮아져야 한다”며 “최소한의 지연시간으로 가장 낮은 비용 구조를 구현하는 것이 목표”라고 밝혔다.
실제 TPU 8 시리즈는 성능뿐 아니라 ‘효율’ 개선에 초점을 맞춘 점이 특징이다. 구글에 따르면 학습용 칩 TPU 8t는 이전 세대 대비 전력 대비 성능이 124% 향상됐고, 추론용 칩 TPU 8i 역시 117% 개선됐다. 데이터센터에서 전력 공급이 가장 큰 제약 요인으로 떠오른 상황에서, 같은 전기로 더 많은 작업을 처리할 수 있도록 설계한 것이다.
특히 TPU 8t는 최대 9600개의 칩을 하나로 묶어 운용할 수 있다. 이는 초대형 AI 모델을 학습시키기 위한 설계다. 동시에 칩 간 데이터를 빠르게 주고받을 수 있도록 내부 네트워크 성능도 강화했다.
추론용 칩 TPU 8i는 구조가 다르다. 이 칩은 메모리를 칩 내부에 대량으로 탑재한 것이 핵심이다. 데이터를 외부에서 불러오는 시간을 줄여 AI가 즉각적으로 답을 내릴 수 있도록 했다. 구글은 TPU 8i에 기존 대비 3배 수준인 384MB의 SRAM(정적램)을 적용했다고 밝혔다. 이는 챗봇이나 검색, 추천 시스템처럼 ‘즉각적인 반응’이 중요한 서비스에서 큰 강점을 발휘할 것으로 예상된다.
이 같은 설계는 AI 서비스의 비용 구조와도 직결된다. AI가 대중화될수록 요청 건수는 기하급수적으로 늘어나는데, 이때 건당 비용이 낮아지지 않으면 사업성이 떨어진다. 구글은 이번 칩을 통해 ‘빠른 응답’과 ‘낮은 비용’을 동시에 달성하겠다는 목표를 내세웠다.
구글은 AI 칩 분야에서 비교적 일찍 움직인 기업이다. 2015년부터 자체 설계 반도체를 도입했고, 2018년부터는 클라우드 고객에게 TPU를 제공해왔다. 최근에는 기업들이 자체 AI 서비스를 구축하면서 TPU 수요가 빠르게 늘고 있으며, 실리콘밸리에서는 ‘핵심 인프라’로 자리 잡고 있다는 평가가 나온다.
시장에서도 기대는 크다. DA 데이비슨은 구글 TPU 사업과 구글 딥마인드의 가치를 합쳐 약 9000억달러 수준으로 평가한 바 있다.
다만 현실적으로 엔비디아의 지배력은 여전히 강하다. AI 반도체 시장은 여전히 GPU 중심 구조이며, 구글 역시 이를 완전히 대체하기보다는 병행 전략을 취하고 있다. 구글은 자사 TPU와 함께 엔비디아 GPU 기반 서비스도 계속 제공할 계획이며, 하반기 출시될 엔비디아 신형 칩도 도입할 예정이다.
엔비디아 역시 변화에 대응하고 있다. 젠슨 황 최고경영자(CEO)는 앞으로 AI 작업의 상당 부분이 ‘초저지연 응답’에 특화된 칩에서 처리될 것으로 전망하고 있다. 엔비디아는 AI 스타트업 그록(Groq) 기술을 활용한 차세대 반도체를 준비 중이다.
이처럼 아마존, 마이크로소프트, 메타 등 주요 빅테크들도 자체 AI 칩 개발에 속도를 내고 있다. GPU에 의존하지 않고 자사 서비스에 최적화된 반도체를 직접 설계해 효율을 높이려는 움직임이다. 과거에는 ‘누가 더 빠른 칩을 만드느냐’가 핵심이었다면, 이제는 ‘누가 더 싸고 효율적으로 AI를 운영하느냐’가 더 중요해지고 있기 때문이다.









